Hacktoberfest 21' -解锁40个开源音频数据集
回到博客主页

Hacktoberfest 21' -解锁40个开源音频数据集

十月已经过去了DagsHub Hacktoberfest的挑战.当宣布挑战的时候,我们并没有想到我们几乎到达了终点40个新的音频数据集,可在DagsHub上公开使用并可解析!我们的社区创造了奇迹,在如此短的时间内完成了如此惊人的努力,向我们致以崇高的敬意。也,数字海洋GitHub,GitLab组织这次活动。

今年我们的贡献集中在音频领域。为此,我们改进了DagsHub的音频目录功能。现在,你可以收听DagsHub上的样本,而不需要在本地下载任何东西。对于每个样本,您可以获得额外的信息,如波形、光谱图和文件元数据。最后但并非最不重要的是,数据集是由DVC进行版本控制的,这使得它很容易改进并可以随时使用。

交互式音频预览(DagsHub)

为了让音频从业者更容易找到他们正在寻找的数据集,我们收集了Hacktoberfest对这篇文章的所有贡献。我们有来自7种(!)不同语言、不同领域和来源的数据集。如果您对这里所缺少的数据集感兴趣,请让我们知道,我们会确保添加它。

尽管长达一个月的虚拟节日已经结束,我们仍然欢迎对开源数据科学的贡献。雷竞技技官网下载如果你想丰富DagsHub上托管的音频数据集,我们很乐意在这个过程中支持你!请联系我们的不和频道了解更多详情。

2022年Hacktoberfest见


动作情感言语动态数据库

行为情感语音动态数据库(AESDD)是一个公开的语音情感识别数据集。它包含了希腊语言中表现情感的话语。它主要分为两大类,一类包含行为情感言语的话语,另一类控制自发情感言语。您可以通过以下方式对该数据集进行贡献提交情感演讲的录音该网站。它们将被验证并公开提供,用于非商业研究目的。

阿拉伯语语音语料库

阿拉伯语语音语料库已被开发作为博士工作的一部分Nawar Halabi南安普顿大学.语料库是用南地中海阿拉伯语(大马士革口音)用专业录音棚录制的。合成语音作为使用这个语料库的输出产生了高质量的,自然的声音。

法语表达语言

这些数据是用法语表演的表达性讲话,100个短语有多种版本/重复(3到5次),以四种社会态度:友好的、疏远的、主导的和诱惑的。该研究得到了法国Ph2D/IDF MoVE项目的支持,该项目研究的是言语态度的建模及其在表达会话代理中的应用,并得到了法兰西岛地区的资助。这个数据库已经导致了出版为2020年在东京举行的演讲韵律大会做准备。有关更详细的说明,请参阅研究文章

音频MNIST

此存储库包含用于解释和解释深度神经网络的代码和数据音频信号分类.该数据集由来自60个不同说话者的30000个语音数字(0-9)音频样本组成。此外,它保存audioMNIST_meta.txt,它提供了每个说话者的性别或年龄等元信息。

bave:阿拉伯语的基本声音情感

基本阿拉伯语声音情绪数据集(bave)包含7个阿拉伯语单词拼写在不同的情绪水平记录在音频/wav格式。每个单词都记录在三个情绪层次上,如下所示:

  • 0级-说话者表达的情绪很低。这和感觉疲倦或情绪低落类似。
  • 1级-说话者表达中性情绪的“标准”水平。
  • 2级-说话者正在表达高度的积极或消极情绪。
  • 由:Kinkusuma
  • 原始数据集

鸟音频检测

这个数据集是由机听实验室来自伦敦玛丽女王大学,与IEEE信号处理学会.它包含了在真实的生物声学监测项目中收集的数据集和一个客观的、标准化的评价框架。的freefield1010在DagsHub上有来自世界各地现场录音的超过7000个节选,由FreeSound项目,然后标准化研究。这个集合在地点和环境上非常多样化。

CHiME-Home

CHiME-Home数据集是一个带注释的家庭环境音频记录的集合。这些录音最初是为协调项目.在CHiME-Home数据集中,基于一组与声环境中的声源相关的7个标签,4秒音频块每个都与多个标签相关联。

CMU-Multimodal SDK

CMU-MOSI是多模态情绪分析的标准基准。它特别适合训练和测试多模态模型,因为大多数关于多模态时间数据的最新工作都在他们的论文中使用这个数据集。它包含了超过1000位演讲者、250个主题和6种情绪(快乐、悲伤、愤怒、恐惧、厌恶、惊讶)的65小时注释视频。

CREMA-D:众包情感多模态演员)

CREMA-D是来自91位演员的7,442个原始片段的数据集。这些片段来自48名男演员和43名女演员,年龄在20到74岁之间,来自不同的种族和民族(非裔美国人、亚洲人、高加索人、西班牙人和未指明)。演员们从精选的12句话中选出台词。这些句子使用了六种不同的情绪(愤怒、厌恶、恐惧、快乐、中性和悲伤)和四种不同的情绪水平(低、中、高和未指明)。参与者根据综合视听演示、单独播放视频和单独播放音频对情绪和情绪水平进行评级。由于需要大量的评级,这项工作是众包的,共有2443名参与者对90个独特的剪辑、30个音频、30个视频和30个视听进行了评级。

孩子们的歌

儿童歌曲数据集是一个用于歌唱声音研究的开源数据集。该数据集收录了一位韩国职业流行女歌手演唱的50首韩语和50首英文歌曲。每首歌都记录在两个单独的键,结果总共200个音频记录。每个音频记录都配有MIDI转录和歌词注释,在字素级和音素级都有。

设备和产生的语音

衣冠楚楚的(设备和产生的语音)数据集是在现实环境中,专业制作的演播室语音录音和在普通消费设备(平板电脑和智能手机)上录制的相同语音的一致版本的集合。它有15个版本的音频(3个专业版本和12个消费设备/现实环境组合)。每个版本包含大约4个半小时的数据(20位演讲者每人约14分钟)。

深深声乐的特点

后者是一个人类非语言声音数据集,由来自1419位演讲者的56.7小时的短剪辑组成,由韩国公众众包。此外,数据集还包括年龄、性别、噪音水平和说话质量等元数据。这个repo只包含723个语句(约占整个语料库的1%),并且可以在下面免费使用CC BY-NC-ND 4.0.要在更严格的许可下访问完整的数据集,请联系deeplyinc

EMODB

EMODB数据库是一个免费的德语情感数据库。创建的数据库通信科学研究所柏林工业大学。10位专业发言人(5男5女)参与数据记录。该数据库总共包含535个话语。EMODB数据库包含七种情绪:愤怒、无聊、焦虑、快乐、悲伤、厌恶和中性。数据以48 khz采样率记录,然后向下采样到16 khz。

EMOVO语料库

EMOVO语料库数据库是由6位演员的声音建立的,他们分别演奏了14个句子,模拟了六种情绪状态(厌恶、恐惧、愤怒、喜悦、惊讶、悲伤)和中性状态。这些情绪在大多数与情感言语相关的文献中都是众所周知的。录音是用专业设备在Ugo Bordoni基金会实验室

ESC-50:环境声音分类

ESC-50数据集是2000份环境音频记录的标记集合,适用于环境声音分类的基准方法。该数据集由5秒长的记录组成,组织成50个语义类(每个类有40个示例),松散地分为5个主要类别:

  • 动物。
  • 自然声景和水声。
  • 人类交际的声音。
  • 室内/国内的声音。
  • 外观/城市噪音。

本数据集中的片段是从公共现场记录中手工提取的Freesound.org项目.数据集被预先安排为五个折叠以进行比较交叉验证,确保来自同一原始源文件的片段包含在单个折叠中。

EmoSynth:情感合成音频

EmoSynth是一个包含144个音频文件的数据集,大约5秒长,430 KB大小,40名听众根据他们在效价和唤醒维度上的感知情绪对其进行了标记。它有基于“效价”和“唤醒”维度的音频分类元数据。

爱沙尼亚语情感语料库

爱沙尼亚情感演讲团(EEKK)是一个成立于爱沙尼亚的语言学院在“2006-2010年爱沙尼亚语技术支持”国家方案框架内。该语料库包含1234个爱沙尼亚语句子,表达愤怒、快乐、悲伤或中性的句子。

Flickr 8k音频字幕语料库

Flickr 8k音频字幕语料库包含40000个语音音频字幕。wav音频格式,包含在原始语料库中的训练、开发和测试片段中的每个标题都有一个。音频在16000赫兹采样,16位深度,并以Microsoft WAVE音频格式存储。

“格罗斯”:俄罗斯ASR

“格罗斯”是适合语音研究的俄语语料库。该数据集主要由在众包平台上手工标注的录制音频文件组成。音频的总时长约为1240小时。

JL语料库

新西兰英语的情感演讲。这个语料库是通过保持4个长元音的均匀分布来构建的。语料库有五种次要情绪和五种主要情绪。二级情感在人机交互(HRI)中很重要,其目的是模拟人类和机器人之间的自然对话。

LJ的演讲

一个公共领域的语音数据集,由13100个短音频剪辑组成,单个说话者朗读7本非虚构类书籍中的段落。每个片段都提供了转录。剪辑的长度从1秒到10秒不等,总长度约为24小时。这些文本出版于1884年至1964年之间,目前在公共领域。音频录制于2016- 2017年LibriVox项目而且也属于公共领域。

SNSD女士

该数据集包含大量的清洁语音文件和各种环境噪声文件。wav在16khz采样的格式。它提供了在各种信噪比(SNR)条件下混合干净语音和噪声的配方,以生成一个大型的、有噪声的语音数据集。信噪比条件和数据小时数可根据应用需求进行配置。

公共领域的声音

各种各样的声音都可以用于物体检测研究。数据集很小(543MB),按格式分为子目录。音频文件的长度从5秒到5分钟不等。

RSC:来自《RuneScape Classic》的声音

从缓存中提取RuneScape经典声音wav(反之亦然)。Jagex使用Sun的原始版本.au声音格式,无头,8位,u律编码,8000hz pcm样本。这个模块可以将原始声音从声音档案中解压为带头was,并将新的was重新压缩(+重采样)到档案中。

语言口音档案

这个数据集包含2140个语音样本,每个样本来自不同的说话者阅读同一篇阅读文章。会说话的人来自177个国家,有214种不同的母语。每个说话的人都在用英语说话。

语音命令数据集

该数据集(1.4 GB)包含来自数千名不同人士的6.5万段30个短单词的一秒长话语,由公众会员通过AIY网站提供。这是一套一秒的. wav音频文件,每个包含一个英语口语单词。

多伦多情感演讲套装

西北大学听觉测试第6号被用来制造这些刺激。两名女演员(年龄分别为26岁和64岁)背诵了一组200个目标词,以“说这个词_____”为主题,并录制了描述七种情绪(愤怒、厌恶、恐惧、快乐、惊喜、悲伤和中性)的录音。总共有2800个刺激物。

乌尔都语

乌尔都语数据集包含从乌尔都语脱口秀中收集的乌尔都语的情感话语。书中有400种表达四种基本情绪的话语:愤怒、快乐、中性和情绪。有38位演讲者(27位男性,11位女性)。该数据来自YouTube。

幼虫:各种强烈的情感和情感的发声

情感与情绪语料库的变强度发声是由一组人类非言语情感发声组成的。整套录音包括1085个音频文件,由11位演讲者表达三种积极的情感状态(成就/胜利、性愉悦和惊讶)和三种消极的情感状态(愤怒、恐惧、身体疼痛)。每个参数都从低到高的情绪强度变化。

自由语音数字数据集

一个简单的音频/语音数据集,由语音数字的录音组成wav文件在8 khz。这些录音都经过了剪裁,因此在开始和结束时几乎没有声音。

LEGOv2语料库

这个口语对话语料库包含了卡耐基梅隆大学于2006年和2007年在CMU Let’s Go (LG)系统中捕获的互动。它基于LG系统的原始日志文件。347个对话,9083个系统用户交流;情绪分为垃圾情绪、非愤怒情绪、微愤怒情绪和非常愤怒情绪。

MUSDB18

多音轨音乐数据集,用于音乐源分离。MUSDB18有两个版本,压缩版和未压缩版(HQ)。

  • MUSDB18-包含150首不同风格的全轨歌曲,包括立体声混音和原始来源,分为训练子集和测试子集。
  • MUSDB18-HQ-未压缩版本的MUSDB18数据集。它由150首不同风格的全轨歌曲组成,包括立体声混音和原始来源,分为训练子集和测试子集。
  • 由:Kinkusuma
  • 原始数据集

声音的性别

VoxCeleb数据集(7000+独特的说话者和话语,3683名男性/ 2312名女性)。VoxCeleb是一个视听数据集,由人类讲话的短片段组成,从上传到YouTube的采访视频中提取。VoxCeleb包含来自不同种族、口音、职业和年龄的演讲者的演讲。

标签

近红外光谱Barazida

数据科学家@ DAGsHub

太棒了!您已经成功订阅。
太棒了!接下来,完成签出以获得完全访问权限。
欢迎回来!您已经成功登录。
成功!您的帐户已完全激活,您现在可以访问所有内容。