🎵 NexMOSHA: Multi-scale cOntextual State space Hybrid Attention

NexMOSHA é um sistema de geração de música terapêutica neural de última geração desenvolvido pela SnaX Company. O projeto explora a interseção entre inteligência artificial e musicoterapia, projetado para rodar inteiramente em infraestrutura gratuita (Kaggle/Colab), democratizando o acesso à pesquisa de áudio de alta performance.

🧠 O que é o NexMOSHA?

O NexMOSHA utiliza uma arquitetura híbrida inovadora que combina State Space Models (SSM/Mamba) com Atenção Causal para capturar tanto dependências de longo alcance quanto contextos locais finos em sinais de áudio.

Inspirado por pesquisas da ETH Zurich sobre frequências sonoras e respostas biológicas, o modelo visa a geração de áudios que podem atuar como estímulos terapêuticos.

As 3 Fases de Evolução:

Beta-1 (SSM Puro): Exploração inicial com SiMBA e EnCodec (75 Hz).
Beta-2 (NexMOSHA Híbrido): Arquitetura customizada de 77M parâmetros com MS-SSM (Multi-Scale) e DualCodec (12.5 Hz).
Beta-3 (LLM Fine-Tuning): Transplante do vocabulário de áudio para o Qwen3.5-2B via LoRA.

🏗️ Detalhes do Modelo (Beta-2)

Parâmetros: ~77 Milhões.
Arquitetura: 8 camadas (SSM em 7 camadas + Atenção Causal no midpoint).
Multi-Scale: Utiliza 3 escalas paralelas de d_state (16, 64, 256) com um Scale Mixer dinâmico.
Codec: DualCodec (12.5 Hz) operando em 8 codebooks hierárquicos.
Performance: Inferência otimizada com KV Cache (240× mais rápida que implementações padrão).

🚀 Como Usar

O checkpoint disponível (nexmosha-v2.ckpt) contém os pesos da arquitetura Beta-2 treinados na fase S5.

Requisitos:

PyTorch 2.1+
DualCodec (necessário para decodificar os tokens em áudio)

Exemplo Rápido:

import torch
from nexmosha import NexMOSHA

model = NexMOSHA.load_from_checkpoint("nexmosha-v2.ckpt")
model.eval()

# Gerar tokens de áudio
tokens = model.generate(max_new_tokens=1000)

📊 Resultados e Benchmarks

Fase	Melhor Loss	PPL	Nota
Beta-1 (híbrido)	0.87	2.7	Alta fidelidade acústica
Beta-2 (NexMOSHA)	4.66	—	DualCodec 12.5Hz (Semântico)
Beta-3 (Qwen+LoRA)	S4 em andamento	—	Potencial de raciocínio musical

📑 Citação e Paper

Se você utilizar este trabalho em sua pesquisa, por favor cite:

@article{destro2026nexmosha,
  title={NexMOSHA: From Custom Hybrid SSM-Attention to LLM Fine-Tuning for Neural Therapeutic Audio Generation},
  author={Destro, Guilherme},
  journal={arXiv preprint},
  year={2026}
}

📜 Licença

Este modelo está licenciado sob a Apache License 2.0.

_{Desenvolvido com 🧠 + ☕ por SnaX Company}

Downloads last month: -; Downloads are not tracked for this model. How to track

Model tree for SnaX-Company/NexMOSHA

Unable to build the model tree, the base model loops to the model itself. Learn more.