🎵 NexMOSHA: Multi-scale cOntextual State space Hybrid Attention

NexMOSHA é um sistema de geração de música terapêutica neural de última geração desenvolvido pela SnaX Company. O projeto explora a interseção entre inteligência artificial e musicoterapia, projetado para rodar inteiramente em infraestrutura gratuita (Kaggle/Colab), democratizando o acesso à pesquisa de áudio de alta performance.

🧠 O que é o NexMOSHA?

O NexMOSHA utiliza uma arquitetura híbrida inovadora que combina State Space Models (SSM/Mamba) com Atenção Causal para capturar tanto dependências de longo alcance quanto contextos locais finos em sinais de áudio.

Inspirado por pesquisas da ETH Zurich sobre frequências sonoras e respostas biológicas, o modelo visa a geração de áudios que podem atuar como estímulos terapêuticos.

As 3 Fases de Evolução:

  1. Beta-1 (SSM Puro): Exploração inicial com SiMBA e EnCodec (75 Hz).
  2. Beta-2 (NexMOSHA Híbrido): Arquitetura customizada de 77M parâmetros com MS-SSM (Multi-Scale) e DualCodec (12.5 Hz).
  3. Beta-3 (LLM Fine-Tuning): Transplante do vocabulário de áudio para o Qwen3.5-2B via LoRA.

🏗️ Detalhes do Modelo (Beta-2)

  • Parâmetros: ~77 Milhões.
  • Arquitetura: 8 camadas (SSM em 7 camadas + Atenção Causal no midpoint).
  • Multi-Scale: Utiliza 3 escalas paralelas de d_state (16, 64, 256) com um Scale Mixer dinâmico.
  • Codec: DualCodec (12.5 Hz) operando em 8 codebooks hierárquicos.
  • Performance: Inferência otimizada com KV Cache (240× mais rápida que implementações padrão).

🚀 Como Usar

O checkpoint disponível (nexmosha-v2.ckpt) contém os pesos da arquitetura Beta-2 treinados na fase S5.

Requisitos:

  • PyTorch 2.1+
  • DualCodec (necessário para decodificar os tokens em áudio)

Exemplo Rápido:

import torch
from nexmosha import NexMOSHA

model = NexMOSHA.load_from_checkpoint("nexmosha-v2.ckpt")
model.eval()

# Gerar tokens de áudio
tokens = model.generate(max_new_tokens=1000) 

📊 Resultados e Benchmarks

Fase Melhor Loss PPL Nota
Beta-1 (híbrido) 0.87 2.7 Alta fidelidade acústica
Beta-2 (NexMOSHA) 4.66 DualCodec 12.5Hz (Semântico)
Beta-3 (Qwen+LoRA) S4 em andamento Potencial de raciocínio musical

📑 Citação e Paper

Se você utilizar este trabalho em sua pesquisa, por favor cite:

@article{destro2026nexmosha,
  title={NexMOSHA: From Custom Hybrid SSM-Attention to LLM Fine-Tuning for Neural Therapeutic Audio Generation},
  author={Destro, Guilherme},
  journal={arXiv preprint},
  year={2026}
}

📜 Licença

Este modelo está licenciado sob a Apache License 2.0.


Desenvolvido com 🧠 + ☕ por SnaX Company

Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for SnaX-Company/NexMOSHA

Unable to build the model tree, the base model loops to the model itself. Learn more.