乐鱼官网入口·构建下一代ASR:语音情感辨认运用程序
乐鱼·体育中国官方入口

手表

PRODUCTS

乐鱼官网入口·构建下一代ASR:语音情感辨认运用程序

2021-09-10 15:24:12 来源:乐鱼·体育中国官方入口 作者:乐鱼登录客户端 56
分享到:

  CTI论坛(编译/老秦):在2021年冬天出书的《语音技能》(Speech Technology)中,我评论了语音情感辨认(SER)的潜在运用事例及其增强客户体会的才能(“

  ”)。现在,让咱们持续评论SER的应战,以及怎么构建下一代SER运用程序。

  作为一个范畴,SER已有20多年的前史,但与自动语音辨认(ASR)比较,SER相对较新。今日,由于人工智能在该范畴的运用,ASR现已实在起飞。另一方面,SER的速度较慢,由于与ASR不同,用于练习AI模型的数据适当有限。

  传统的SER数据集要么是效果的,要么是诱导的。扮演数据集是由付费艺人用特定的情感说出固定的短语创立的。诱导数据集比这些稍有改善,经过让演讲者观看特定的片段或让他们幻想特定的状况,能够引发某些心情。这些数据集是稀少的,咱们今日所想象的那种SER用例需要在交互式对话中进行自动情感检测;在这些数据集上练习的人工智能模型在实际国际中不会很好地作业。在预界说/有限心情的语音片段上练习和测验的SER体系将无法在实际运用中处理自发语音。

  请注意,约束条件不是实在国际充溢情感的语音的可用性,而是对数据进行注释/符号以创立标准化数据集。与其他类型的数据(例如图画)比较,符号语音的情感内容或许愈加片面。这就引出了下一个问题:语音情感建模。

  语音情感建模,即怎么表达嵌入语音中的情感,既杂乱又要害。传统的办法之一是将语音情感建模为愤恨、不信任、惊骇、高兴、哀痛或中性的首要类别之一。与根据离散类别的办法比较,机器学习更倾向于根据维度的办法。在前者中,运用了语音的声学特征,包含言语和非言语。能够运用声响(光谱信息、能量)、韵律(语调、强度、节奏)等技能特征的组合来练习SER模型。

  非言语发声,如笑、叹息、呼吸和犹疑/暂停,包含用于心情检测的有用信号。咱们还需要考虑非心情性条件,这些条件与声响听起来怎么有关,例如疲惫、伤风、喝酒或其他物质。面向顾客的SER运用有必要处理多种言语、跨文化语音形式、远场声学、说话人辨认、集体动力学、语音转化等问题。

  虽然咱们在这里评论的是SER,但任何其他非语音头绪(如视觉信息)也能够作为模型的输入。例如,在某些场景中,音频和视频内容都或许可用。语音文本自身能够运用自然言语处理(NLP)进行剖析。除了字面上的解说,NLP有或许帮忙发现挖苦或诙谐。

  所有这些都表明晰具有高质量数据的重要性。数据集的丰富性将决议SER的功能。机器学习技能在这里扮演着重要人物:

  半监督学习技能可用于符号数据。在这里,人类研究人员符号一小部分数据,并让算法符号语料库的其余部分。

  这种办法的一个扩展是自动学习,在这种学习中,有一个人在循环中,以进步自动标签的质量。在自动学习中,假如算法对其数据分类的可信度较低,它会将语音数据路由到人工注释器。

  组成语音数据可运用少数实在语音生成,可运用生成对立网络(GAN)等技能使其挨近实在语音质量。

  搬运学习是指将常识从一个环境运用到另一个环境,或许是有用的。示例包含运用成人心情模型进行儿童心情辨认练习,或运用非语音音频(如音乐)练习SER模型。

  总归,语音情感辨认是一个杂乱的范畴,包含言语和非言语、上下文乃至视觉的许多活动部分。机器学习和人工帮忙将在下一代SER运用中发挥重要效果。


乐鱼官网入口·构建下一代ASR:语音情感辨认运用程序 上一篇:语音辨认技能在智能家居中的运用 下一篇:尖端语音辨认专家Daniel Povey:新一代Kaldi可大幅下降收听语音词错误率 年末或将应用于一切小米AIoT产品