Wav2Vec2 Large XLSR 53 Arabic Quran (Fine-Tuned)
Ce modèle est une version fine-tunée de jonatasgrosman/wav2vec2-large-xlsr-53-arabic sur le dataset rabah2026/Quran-Ayah-Corpus,
Il est spécialisé pour la reconnaissance vocale du Coran (Tajweed & Murattal) et supporte l'écriture Uthmani (incluant les caractères spéciaux comme ٱ et ٰ).
Utilisation
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
import torch
import librosa
model_id = "rabah2026/wav2vec2-large-xlsr-53-arabic-quran-v_final"
processor = Wav2Vec2Processor.from_pretrained(model_id)
model = Wav2Vec2ForCTC.from_pretrained(model_id)
# Chargement audio (16kHz obligatoire)
audio, sr = librosa.load("verset.mp3", sr=16000)
inputs = processor(audio, sampling_rate=16000, return_tensors="pt", padding=True)
with torch.no_grad():
logits = model(inputs.input_values).logits
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
print(transcription)
Performance
- WER (Word Error Rate) : ~4% sur 10000 echantillons des réciteurs connus et ~6% sur les reciteurs non connus.
- Segmentation : Précision alignée pour le découpage verset par verset peut depasser 99%, tous depands de votre script de segmentation
- Downloads last month
- 1,060