🎵 NexMOSHA: Multi-scale cOntextual State space Hybrid Attention
NexMOSHA é um sistema de geração de música terapêutica neural de última geração desenvolvido pela SnaX Company. O projeto explora a interseção entre inteligência artificial e musicoterapia, projetado para rodar inteiramente em infraestrutura gratuita (Kaggle/Colab), democratizando o acesso à pesquisa de áudio de alta performance.
🧠 O que é o NexMOSHA?
O NexMOSHA utiliza uma arquitetura híbrida inovadora que combina State Space Models (SSM/Mamba) com Atenção Causal para capturar tanto dependências de longo alcance quanto contextos locais finos em sinais de áudio.
Inspirado por pesquisas da ETH Zurich sobre frequências sonoras e respostas biológicas, o modelo visa a geração de áudios que podem atuar como estímulos terapêuticos.
As 3 Fases de Evolução:
- Beta-1 (SSM Puro): Exploração inicial com SiMBA e EnCodec (75 Hz).
- Beta-2 (NexMOSHA Híbrido): Arquitetura customizada de 77M parâmetros com MS-SSM (Multi-Scale) e DualCodec (12.5 Hz).
- Beta-3 (LLM Fine-Tuning): Transplante do vocabulário de áudio para o Qwen3.5-2B via LoRA.
🏗️ Detalhes do Modelo (Beta-2)
- Parâmetros: ~77 Milhões.
- Arquitetura: 8 camadas (SSM em 7 camadas + Atenção Causal no midpoint).
- Multi-Scale: Utiliza 3 escalas paralelas de
d_state(16, 64, 256) com um Scale Mixer dinâmico. - Codec: DualCodec (12.5 Hz) operando em 8 codebooks hierárquicos.
- Performance: Inferência otimizada com KV Cache (240× mais rápida que implementações padrão).
🚀 Como Usar
O checkpoint disponível (nexmosha-v2.ckpt) contém os pesos da arquitetura Beta-2 treinados na fase S5.
Requisitos:
- PyTorch 2.1+
- DualCodec (necessário para decodificar os tokens em áudio)
Exemplo Rápido:
import torch
from nexmosha import NexMOSHA
model = NexMOSHA.load_from_checkpoint("nexmosha-v2.ckpt")
model.eval()
# Gerar tokens de áudio
tokens = model.generate(max_new_tokens=1000)
📊 Resultados e Benchmarks
| Fase | Melhor Loss | PPL | Nota |
|---|---|---|---|
| Beta-1 (híbrido) | 0.87 | 2.7 | Alta fidelidade acústica |
| Beta-2 (NexMOSHA) | 4.66 | — | DualCodec 12.5Hz (Semântico) |
| Beta-3 (Qwen+LoRA) | S4 em andamento | — | Potencial de raciocínio musical |
📑 Citação e Paper
Se você utilizar este trabalho em sua pesquisa, por favor cite:
@article{destro2026nexmosha,
title={NexMOSHA: From Custom Hybrid SSM-Attention to LLM Fine-Tuning for Neural Therapeutic Audio Generation},
author={Destro, Guilherme},
journal={arXiv preprint},
year={2026}
}
📜 Licença
Este modelo está licenciado sob a Apache License 2.0.
Desenvolvido com 🧠 + ☕ por SnaX Company
Model tree for SnaX-Company/NexMOSHA
Unable to build the model tree, the base model loops to the model itself. Learn more.