使用Facebook wav2vec2-xls-r-300m模型和mozilla-foundation common_voice_8_0乌尔都语数据集的自动语音识别https://huggingface.co/kingabzpro/wav2vec2-large-xls-r-300m-Urdu

类型: 数据集 模型 任务: 转移学习 数据域: 音频 框架: pytorch
6个月前
a61ebcbc62
评估和降价
6个月前
8 eac35edd0
App添加到文档中
6个月前
73年d6051127
第一个测试
6个月前
73年d6051127
第一个测试
6个月前
73年d6051127
第一个测试
6个月前
b9df3647ca
最初的承诺
6个月前
73年d6051127
第一个测试
6个月前
fcf4b33ce2
V100S gpu
6个月前
a61ebcbc62
评估和降价
6个月前
de1a0f3d8c
Sota结果
6个月前
de1a0f3d8c
Sota结果
6个月前
de1a0f3d8c
Sota结果
6个月前
bce33889c3
改变了需求
6个月前
28739914 e3
eval编辑
6个月前
数据管道
传说
DVC托管文件
Git管理文件
度规
阶段文件
外部文件

README.md

你必须登录才能发表评论。登录

乌尔都语自动语音识别最先进的解决方案

封面

在自动语音识别(ASR)项目中,我正在mozilla基础的common_voice_8_0乌尔都语数据集上微调Facebook的wav2vec2-xls-r-300m模型。

注意:乌尔都语数据集仅限于3小时的数据,不足以获得更好的结果。

我花了一段时间才明白我错过了什么。WER和训练损失并没有减少。所以,我开始专注于文本处理和超参数优化。为了达到最先进的状态,我用200来训练模型时代哪个花了4个小时4个V100S gpu(OVH云)。最后,我使用ngrams语言模型增强了wav2vec2模型。最终的结果大大提高了5646回答。

模型Finetunning

在协作中打开

这个模型是一个微调版本的facebook / wav2vec2 - xls r - 300 mcommon_voice数据集。您可以轻松地从源代码下载数据集,并使用HuggingFace加载数据集数据集图书馆。

我们在评估集上得到了以下结果:

  • 损失:0.9889
  • 答案:0.5607
  • Cer: 0.2370

快速启动

使用以下命令克隆存储库FastDS并使用requirment.txt文件。

cd乌尔都- asr - sota pip install -r requirements.txt

最后,运行命令转录乌尔都语音频文件。

from datasets import load_dataset, Audio from transformers import pipeline model =" model " data = load_dataset(" data ", "ur", split="test", delimiter="\t") def path_adjust(batch): batch["path"] =" data /ur/clips/" + str(batch["path"]) return batch data = data.map(path_adjust) sample_iter = iter(data. data. dat)。cast_column(“路径”,音频(sampling_rate = 16 _000)))样本下(sample_iter) asr = =管道(“语音识别”,模型(模型)预测= asr(样本(“路径”)(“数组”),chunk_length_s = 5, stride_length_s = 1)预测# = >{“文本”:“ابیہونگینلمحاتانکھاردلمیںمیںفوثکریلیااجائ'}

评估命令

运行评估无法推进V8与分裂测试,您可以将命令复制并传递到终端。

注意:您不需要下载数据集和模型来运行评估。一切都由FastDS处理。

python3 eval.py——model_id Model——dataset Data——config ur——split test——chunk_length_s 5.0——stride_length_s 1.0——log_outputs .py

运行简单的shell脚本

bash run_eval.sh

语言模型

结合乌尔都语模型,提高了模型的性能。要了解ngram,请查看本教程:Boosting Wav2Vec2 with n-grams in Transformers

注意:您可以使用更好的语言数据集来提高模型性能。

要达到最先进的状态,请遵循以下步骤:

  • 为语言模型获取合适的乌尔都语文本数据
  • 用KenLM构建n-gram
  • 将n-gram与经过微调的Wav2Vec2检查点结合起来

注意:在运行ngram notebook或eval.py之前,请安装kenlmpyctcdecode包。

PIP安装https://github.com/kpu/kenlm/archive/master.zip pyctcdecode

Eval结果

您可以看到使用语言模型的明显优势。有了语言模型,WER从56减少到46。

没有LM 与LM
56.21 46.37

目录结构

数据文件夹包含你的文件夹,其中有TSV和音频文件。的模型包含检查点、语言模型和标记器。的Eval结果含有LM结果和不含LM结果。

<根目录> | .-自述文件。md | .- Data/ | .- Model/ | .- Images/ | .- Sample/ | .- gradient / | .- Eval Results/ | .- With LM/ | .- Without LM/ | ... .- notebook. .Ipynb | .- run_eval.sh | .- eval.py

压力梯度的应用

我只是添加了HuggingFace Spaces远程到应用程序分支并使用DVC提取模型文件。读了博客以了解更多关于使用DVC在空间上部署Gradio应用程序的信息。

注意:Gradio的源代码可在应用程序分支。我不能把它归并到由于README.md中的元数据。

试试HuggingFace Spaces上的web应用吧乌尔都语- asr - sota梯度应用程序

压力梯度

贡献指南

我想接触社区,让这个项目开源。如果您有任何建议或错误报告,请随时打开问题或创建拉取请求。

我正在寻找在以下领域的贡献:

  • 添加语言模型
  • Webapp / API
  • 降噪音频
  • 文本处理
  • 拼写错误
  • Hyperparameters优化
  • 300 epoch & 64 Batch Size的训练
  • 改进的语言模型
  • 贡献乌尔都语ASR音频数据集

所有有上述贡献的贡献者将被列在贡献者章节。

稳健语音识别挑战2022

这个项目是HuggingFace的成果鲁棒语音识别挑战。我是拥有四个最先进的ASR模型的获奖者之一。

看看这些模型,如果你会说英语,就测试一下。我很想听到你的反馈。

赢家

参考文献

许可证

该数据集属于公有领域,CC-0许可证和型号如下apache - 2.0

引用

数据引用

@inproceedings{Common Voice: 2020,作者= {Ardila, R. and Branson, M. and Davis, K. and Henretty, M. and Kohler, M. and Meyer, J. and Morais, R. and Saunders, L. and Tyers, F. and Weber, G.},标题= {Common Voice: A massii - multilingual Speech Corpus},书名={第十二届语言资源与评价会议论文集(LREC 2020)},页数={4211—4215},年份= 2020}

模型的引用

@article {DBLP:期刊/ corr / abs - 2111 - 09296,作者={阿伦先生和王Changhan安德罗斯岛Tjandra Kushal Lakhotia和前童镇徐宁海县从天而降Goyal Kritika辛格和帕特里克·冯·滚筒Yatharth Saraf胡安·皮诺和阿列克谢Baevski亚历克西斯Conneau和迈克尔Auli}, title = {{XLS-R:} Self-supervised大规模跨语言的演讲表示学习},杂志= {corr},体积= {abs / 2111.09296} = {2021}, url = {https://arxiv.org/abs/2111.09296}, eprinttype = {arXiv},eprint = {2111.09296}, timestamp = {Mon, 22 Nov 2021 16:44:07 +0100}, biburl = {https://dblp.org/rec/journals/corr/abs-2111-09296.bib}, bibsource = {dblp计算机科学参考书目https://dblp.org}}
提示!

新闻p要查看以前的文件或,n查看下一个文件

评论

我欢迎大家的贡献和建议。所以,让他们继续来。

我拿到了17%的分数,离SOTA还有很远的距离。

加载……