Wav2Vec2 Large XLSR 53 Arabic Quran (Fine-Tuned)

Ce modèle est une version fine-tunée de jonatasgrosman/wav2vec2-large-xlsr-53-arabic sur le dataset rabah2026/Quran-Ayah-Corpus,

Il est spécialisé pour la reconnaissance vocale du Coran (Tajweed & Murattal) et supporte l'écriture Uthmani (incluant les caractères spéciaux comme ٱ et ٰ).

Utilisation

from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
import torch
import librosa

model_id = "rabah2026/wav2vec2-large-xlsr-53-arabic-quran-v_final"

processor = Wav2Vec2Processor.from_pretrained(model_id)
model = Wav2Vec2ForCTC.from_pretrained(model_id)

# Chargement audio (16kHz obligatoire)
audio, sr = librosa.load("verset.mp3", sr=16000)

inputs = processor(audio, sampling_rate=16000, return_tensors="pt", padding=True)

with torch.no_grad():
    logits = model(inputs.input_values).logits

predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]

print(transcription)

Performance

  • WER (Word Error Rate) : ~4% sur 10000 echantillons des réciteurs connus et ~6% sur les reciteurs non connus.
  • Segmentation : Précision alignée pour le découpage verset par verset peut depasser 99%, tous depands de votre script de segmentation
Downloads last month
1,060
Safetensors
Model size
0.3B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Space using rabah2026/wav2vec2-large-xlsr-53-arabic-quran-v_final 1