(资料图)

近日,奇富科技机器人团队论文《Eden-TTS:一种简单高效的非自回归“端到端可微分”神经网络的语音合成架构》(Eden-TTS: A Simple and Efficient Parallel Text-to-speech Architecture with Collaborative Duration-alignment Learning)被全球语音与声学顶级会议INTERSPEECH 2023接收。此次自研成果入选,代表着国际学术界对奇富科技在语音信号领域研究实力的极高认可。

INTERSPEECH是由国际语音通讯协会(International Speech Communication Association, ISCA)创办的语音信号处理领域顶级旗舰国际会议,是全球最大的综合性语音信号处理盛会,在国际上享有盛誉并具有广泛的学术影响力。历届INTERSPEECH会议都备受全球各地语音语言领域人士的广泛关注。

TTS技术当前主要应用于电销机器人、视频面审机器人、智能客服等人机交互场景和语音合成场景,它能把文本内容快速地转化为高质量、流畅自然的语音,从而实现更加智能、更有人性化的人机交互。文本音素和音频帧之间的对齐(alignment)学习是非自归TTS模型的最关键技术之一。现有的非自回归语音合成模型大多数需要引入外部alignment信息作为学习目标。在实际应用场景中,文本与语音的alignment是很难准确获得的,甚至是不能获得的,这极大地限制了此类方法的应用。另外,也有少数无需外部alignment的方法提出,然而这些方法大多不是端到端可微分的神经网络模型,存在构建困难,训练过程复杂,训练效率低等问题。

奇富科技的论文研究成果为需要文本转语音的应用场景提供了创新的解决方案,提出了一种端到端可微的非自回归神经网络语音合成模型架构。基于文本音素时长与alignment的密切关系,论文提出了一种简单高效的alignment学习方式:首先采用一种新的energy-modulated 注意力机制得到guided alignment,然后利用guided alignment计算音素的时长信息,最后通过音素的时长信息构建monotonic alignment。本方法无需外部的alignment信息,无需引入额外的alignment损失函数。

对业务提效而言,奇富科技的研究成果具有易训易用、音质高超、合成快速的优势。

这种端到端可微的方法使得各个模块可以方便地替换为各种类型的神经网络模块,从而具有良好的扩展性和稳定性。相比于主流的自回归模型,推理速度提升了10倍以上,能够满足实时语音合成的需求。

该方法也令合成语音更好听、更生动、更像真人,大大提升了语音交互的听觉感受。根据进行的多人MOS评测,该方法的MOS分值达到了4.32分(满分为5分),合成语音的自然流畅程度接近于目前最优的自回归模型,显著优于同类型的非自回归模型。

此外,与同类型方法相比,该方法可以节约50%以上的训练时间,显著提升模型训练效率。

奇富科技在对话机器人领域有着和业务同步的先发优势,在语音技术上,一直坚持投入、坚持自研。就在两个月前,奇富科技另一篇音频论文《基于多粒度Transformer的多模态情绪识别》(Multilevel Transformer for Multimodal Emotion Recognition)被第48届IEEE声学、语音与信号处理国际会议(IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2023)接收。

“我们很高兴在理解用户、优化表达方面取得了关键性的成果。随着奇富GPT对于公司各业务层的重构,我们已经极大提升了对于用户在文本上的理解能力,从语音到文本,再从文本回到语音,更好的识别是为了更好的表达和输出,我们将持续投入,用前沿技术重塑用户体验。”奇富科技首席算法科学家费浩峻表示。

推荐内容