Wav2Vec2 Large XLSR 53 Arabic Quran (Fine-Tuned)

Ce modèle est une version fine-tunée de jonatasgrosman/wav2vec2-large-xlsr-53-arabic sur le dataset rabah2026/Quran-Ayah-Corpus,

Il est spécialisé pour la reconnaissance vocale du Coran (Tajweed & Murattal) et supporte l'écriture Uthmani (incluant les caractères spéciaux comme ٱ et ٰ).

Utilisation

from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
import torch
import librosa

model_id = "rabah2026/wav2vec2-large-xlsr-53-arabic-quran-v_final"

processor = Wav2Vec2Processor.from_pretrained(model_id)
model = Wav2Vec2ForCTC.from_pretrained(model_id)

# Chargement audio (16kHz obligatoire)
audio, sr = librosa.load("verset.mp3", sr=16000)

inputs = processor(audio, sampling_rate=16000, return_tensors="pt", padding=True)

with torch.no_grad():
    logits = model(inputs.input_values).logits

predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]

print(transcription)

Performance

WER (Word Error Rate) : ~4% sur 10000 echantillons des réciteurs connus et ~6% sur les reciteurs non connus.
Segmentation : Précision alignée pour le découpage verset par verset peut depasser 99%, tous depands de votre script de segmentation

Downloads last month: 1,060

Safetensors

Model size

0.3B params

Tensor type

F32

rabah2026
/

wav2vec2-large-xlsr-53-arabic-quran-v_final

Wav2Vec2 Large XLSR 53 Arabic Quran (Fine-Tuned)

Utilisation

Performance

Space using rabah2026/wav2vec2-large-xlsr-53-arabic-quran-v_final 1