使用Facebook wav2vec2-xls-r-300m模型和mozilla-foundation common_voice_8_0乌尔都语数据集的自动语音识别https://huggingface.co/kingabzpro/wav2vec2-large-xls-r-300m-Urdu
传说 |
---|
DVC托管文件 |
Git管理文件 |
度规 |
阶段文件 |
外部文件 |
传说 |
---|
DVC托管文件 |
Git管理文件 |
度规 |
阶段文件 |
外部文件 |
在自动语音识别(ASR)项目中,我正在mozilla基础的common_voice_8_0乌尔都语数据集上微调Facebook的wav2vec2-xls-r-300m模型。
注意:乌尔都语数据集仅限于3小时的数据,不足以获得更好的结果。
我花了一段时间才明白我错过了什么。WER和训练损失并没有减少。所以,我开始专注于文本处理和超参数优化。为了达到最先进的状态,我用200来训练模型时代
哪个花了4个小时4个V100S gpu(OVH云)。最后,我使用ngrams语言模型增强了wav2vec2模型。最终的结果大大提高了56来46回答。
这个模型是一个微调版本的facebook / wav2vec2 - xls r - 300 m在common_voice数据集。您可以轻松地从源代码下载数据集,并使用HuggingFace加载数据集数据集图书馆。
我们在评估集上得到了以下结果:
使用以下命令克隆存储库FastDS并使用requirment.txt
文件。
cd乌尔都- asr - sota pip install -r requirements.txt
最后,运行命令转录乌尔都语音频文件。
from datasets import load_dataset, Audio from transformers import pipeline model =" model " data = load_dataset(" data ", "ur", split="test", delimiter="\t") def path_adjust(batch): batch["path"] =" data /ur/clips/" + str(batch["path"]) return batch data = data.map(path_adjust) sample_iter = iter(data. data. dat)。cast_column(“路径”,音频(sampling_rate = 16 _000)))样本下(sample_iter) asr = =管道(“语音识别”,模型(模型)预测= asr(样本(“路径”)(“数组”),chunk_length_s = 5, stride_length_s = 1)预测# = >{“文本”:“ابیہونگینلمحاتانکھاردلمیںمیںفوثکریلیااجائ'}
运行评估无法推进V8
与分裂测试
,您可以将命令复制并传递到终端。
注意:您不需要下载数据集和模型来运行评估。一切都由FastDS处理。
python3 eval.py——model_id Model——dataset Data——config ur——split test——chunk_length_s 5.0——stride_length_s 1.0——log_outputs .py
或
运行简单的shell脚本
bash run_eval.sh
结合乌尔都语模型,提高了模型的性能。要了解ngram,请查看本教程:Boosting Wav2Vec2 with n-grams in Transformers。
注意:您可以使用更好的语言数据集来提高模型性能。
要达到最先进的状态,请遵循以下步骤:
注意:在运行ngram notebook或eval.py之前,请安装
kenlm
和pyctcdecode
包。
PIP安装https://github.com/kpu/kenlm/archive/master.zip pyctcdecode
您可以看到使用语言模型的明显优势。有了语言模型,WER从56减少到46。
没有LM | 与LM |
---|---|
56.21 | 46.37 |
的数据文件夹包含你的
文件夹,其中有TSV和音频文件。的模型包含检查点、语言模型和标记器。的Eval结果含有LM结果和不含LM结果。
<根目录> | .-自述文件。md | .- Data/ | .- Model/ | .- Images/ | .- Sample/ | .- gradient / | .- Eval Results/ | .- With LM/ | .- Without LM/ | ... .- notebook. .Ipynb | .- run_eval.sh | .- eval.py
我只是添加了HuggingFace Spaces远程到应用程序
分支并使用DVC提取模型文件。读了博客以了解更多关于使用DVC在空间上部署Gradio应用程序的信息。
注意:Gradio的源代码可在应用程序分支。我不能把它归并到
主
由于README.md中的元数据。
试试HuggingFace Spaces上的web应用吧乌尔都语- asr - sota梯度应用程序
我想接触社区,让这个项目开源。如果您有任何建议或错误报告,请随时打开问题或创建拉取请求。
我正在寻找在以下领域的贡献:
所有有上述贡献的贡献者将被列在贡献者章节。
这个项目是HuggingFace的成果鲁棒语音识别挑战。我是拥有四个最先进的ASR模型的获奖者之一。
看看这些模型,如果你会说英语,就测试一下。我很想听到你的反馈。
该数据集属于公有领域,CC-0许可证和型号如下apache - 2.0。
数据引用
@inproceedings{Common Voice: 2020,作者= {Ardila, R. and Branson, M. and Davis, K. and Henretty, M. and Kohler, M. and Meyer, J. and Morais, R. and Saunders, L. and Tyers, F. and Weber, G.},标题= {Common Voice: A massii - multilingual Speech Corpus},书名={第十二届语言资源与评价会议论文集(LREC 2020)},页数={4211—4215},年份= 2020}
模型的引用
@article {DBLP:期刊/ corr / abs - 2111 - 09296,作者={阿伦先生和王Changhan安德罗斯岛Tjandra Kushal Lakhotia和前童镇徐宁海县从天而降Goyal Kritika辛格和帕特里克·冯·滚筒Yatharth Saraf胡安·皮诺和阿列克谢Baevski亚历克西斯Conneau和迈克尔Auli}, title = {{XLS-R:} Self-supervised大规模跨语言的演讲表示学习},杂志= {corr},体积= {abs / 2111.09296} = {2021}, url = {https://arxiv.org/abs/2111.09296}, eprinttype = {arXiv},eprint = {2111.09296}, timestamp = {Mon, 22 Nov 2021 16:44:07 +0100}, biburl = {https://dblp.org/rec/journals/corr/abs-2111-09296.bib}, bibsource = {dblp计算机科学参考书目https://dblp.org}}
新闻p或要查看以前的文件或,n或查看下一个文件
在提交中注释e2f5996ee7在分支主
6个月前 过时的我欢迎大家的贡献和建议。所以,让他们继续来。
在提交中注释e2f5996ee7
1个月前 过时的我拿到了17%的分数,离SOTA还有很远的距离。