仅这两个数据集就有大约1.5万个小时的标记音频数据

2019-02-21 作者:黄金华   |   浏览(136)

亚马逊的Alexa可按照语音判定你需要的选择,可是人工智能(AI)却可以感知你是否生气。麻省理工学院媒体尝试室的分支机构Affectiva的声联网系统,,可在短短1.2秒内从音频数据中判别出你的恼怒。无论是什么语言,这个时间恰好高出人类感知恼怒所需的时间。

AI可判别人类的恼怒

Affectiva的研究人员在Arxiv.org上最新颁发的一篇论文中描写了这一现象(“从声音表征中转移进修,用于语音中的恼怒检测”)。它成立在语音和面部数据的基本上,并成立相关的感情档案。本年,该公司与Nuance相助开拓了一种车载人工智能系统,可以从摄像头的反馈中检测驾驶员疲惫的迹象。在2017年12月,它推出了语音API,该API利用语音识别成果,诸如大笑、恼怒等情绪,以及音量、音调、速度和搁浅。

论文的配相助者写道:“操作深度进修网络的气力举办感情识此外一个重要问题是,深度网络所需的大量数据,与小局限的语音数据之间的不匹配。颠末练习的恼怒检测模子提高了机能,并能很好地归纳综合各类行为,从而激发情绪言语的数据集。另外,我们提出的系统具有较低的延迟,合用于及时应用。”

什么是声联网?

SoundNet(声联网)由一个卷积神经网络(一种凡是用于阐明视觉图像的神经网络)构成,它在视频数据集长举办练习。为了让它识别言语中的恼怒情绪,研究小组首先汇集了大量的普通音频数据——200万段视频,可能仅仅相当于一年多的时间——利用另一种模子生成的ground truth。然后,他们利用一个更小的数据集IEMOCAP对其举办微调,该数据集包括12个小时的带注释的视听感情数据,包罗视频、语音和文本转录。

为了测试人工智能模子的通用性,该团队评估了它的英语练习模子用于汉语普通话语言的感情数据(普通话感情语料库,简称MASC),他们的陈诉说,它不只很好地推广到英语语音数据,并且对汉语数据也很有效——尽量机能略有下降。

201901290924472498.jpg

图片来历:图虫创意

AI可识别语音感情模子

研究人员说,他们的乐成证明白一种“有效的”和“低延迟的”语音感情识别模子,可以通过转移进修获得显著改进。转移进修是一种技能,它操作人工智能系统在之前标注过的样本的大数据集上练习,在一个数据稀疏的新规模中引导练习——在这种环境下,人工智能系统能通过练习分类一般声音。

这一功效是有但愿的,因为尽量感情语音数据集很小,并且获取起来也很昂贵,可是大量的自然声音事件数据集是可用的,好比用于练习SoundNet的数据集或谷歌的音频集。仅这两个数据集就有约莫1.5万个小时的标志音频数据。“恼怒分类有许多有用的应用,包罗对话界面和社交呆板人、交互式语音应答系统、市场研究、客户署理评估和培训,以及虚拟现实和加强现实。”

他们把开拓其他大型民众语料库的事情留给了将来,并为相关的语音任务练习人工智能系统,好比识别其他范例的感情和感情状态。相信,在将来AI将发挥更多的浸染,你认为将来的AI还能应用在哪些规模呢?

原标题:Affectiva’s AI hears your anger in 1.2 seconds