过去十年,语音AI从实验室走向运用,语音搜索、交互早已融入日常。本文将带你一览达摩院语音AI技能创新全景,一起感想熏染能听、会说、懂你的语音AI。
当你在家中与智能音箱进行交互对话,当你利用天猫超市或菜鸟裹裹,接到机器人打来的配送确认及回访电话,当你利用淘宝高德优酷等App进行语音搜索,当你听到数字人动听的话语及各种悦耳的视频配音……这些背后,都是语音 AI 技能的运用。
AI的很多研究方向,都和人的感知干系。如果说打算机视觉对应的是眼睛,语音AI做的便是耳朵和嘴巴——耳朵是语音识别,把语音转成笔墨,嘴便是语音合成,把笔墨转针言音。语音 AI 作为人工智能运用的核心技能之一,在过去十年的韶光里持续进步,从实验室研究走向了实际运用和代价创造阶段,并不断解锁新场景,将此前做不了、做不好的技能变得能做,且体验越来越好。
不仅如此,语音 AI 技能已经开始寻衅并办理一系列更难的运用课题。正如 Google voice search 解锁了手机上的语音搜索;Apple Siri 解锁了语音助理;Amazon Echo 解锁了远场语音交互……达摩院语音实验室判断,下一个语音技能解锁的场景将会是对“人-人”语音互换进行剖析,并产生智能,完成对当前“人-机”任务完成式的语音交互的升级。
本日,我们与大家一起来分享达摩院语音 AI 技能创新全景,包括语音识别声学模型和根本框架、说话人区分、语音合成声学模型和声码器、口语措辞处理、联合优化的声学前端等多方面的研究和运用进展。一起感想熏染能听、会说、懂你的语音AI。
一、能听:技能创新之语音识别根本算法研究在语音识别的场景下,拾音质量是一个很关键的成分。早期桌面语音听写的时期,常日须要戴一个耳麦讲话,现在手机可以在稍远间隔准确识别,智能音箱又可以做到更大间隔。但这些的条件是,周边不会有太多的噪声,而且这些场景都是单人的,都是跟机器去完成一个单独的任务——要么是听写,要么是想点一首歌。但如果加了很多别的成分,准确率就会逐渐低落,说话场所的不同、空间大小的差异、说话人的多寡、感情语种语速的交杂,各种声音在空间内不断反射产生混响,再加上环境本身带来的噪音,对机器识别来说是极大的寻衅。
对我们人类来说,“谁在什么韶光说了什么话”非常好识别,由于我们不仅能靠灵敏的耳朵区分不同音色、判断声音方位,还能看到说话人的肢体在动,同时大脑不断用知识储备剖析着话语,但对付语音识别而言,如何使机器也具备这些智能呢?
1.1 语音识别根本框架UNIVERSAL-ASR语音识别根本框架过去几十年,基于稠浊框架的语音识别系统一贯是学术界和工业界主导框架,其系统包括独立优化的声学模型(Acoustic Model,AM)、措辞模型(Language Model,LM)、发音词典(Lexicon)和解码器,系统构建流程繁芜。
近几年,端到端语音识别(End-to-End,E2E)成为了学术研究热点。端到端语音识别通过一个网络建模语音识别系统,不仅简化了系统构建繁芜度,而且通过联合优化预期可以得到更好的建模效果。阿里巴巴语音实验室结合上一代 DFSMN 网络构造和学术界盛行的 Transformer 创新性提出了 SAN-M 网络构造,并且提出了 Streaming Chunk-Aware Multihead Attention(SCAMA)流式 Attention 机制构建了新一代的端到端语音识别框架,显著提升语音识别系统性能。
日益丰富的业务需求,不仅哀求识别效果精度高,而且哀求能够实时地进行识别。一方面,离线语音识别系统具有较高的识别准确率,但无法实时的返回解码笔墨结果,并且,在处理长语音时,随意马虎发生解码重复,且高并发解码超时等问题;另一方面,流式系统能够低延时实时进行语音识别,但由于短缺下文信息,流式语音识别系统的准确率不如离线系统,在流式业务场景中,为了更好的折中实时性与准确率,每每采取多个不同时延的模型系统。
为了知足差异化业务场景对打算繁芜度、实时性和准确率的哀求,常用的做法是掩护多种语音识别系统,例如,CTC 系统、E2E 离线系统、SCAMA 流式系统等。在不同的业务场景利用不同的模型和系统,不仅会增加模型生产本钱和迭代周期,而且会增加引擎以及做事支配的掩护本钱。
因此,阿里巴巴语音实验室创新性地提出和设计了离线流式一体化语音识别系统--UNIVERSAL ASR,同时具有高精度和低延时的特点,不仅能够实时输出语音识别结果,还可在说话句尾用高精度的解码结果改动输出,与此同时,UNIVERSAL ASR 采取动态延时演习的办法,替代了之前掩护多套延时流式系统的做法。通过设计 UNIVERSAL ASR 语音识别系统,我们将之前多套语音识别系统架构统一为一套系统架构,一个模型知足所有业务场景,显著的降落了模型生产和掩护本钱。
图1 UNIVERSAL-ASR语音识别根本框架
UNIVERSAL ASR 模型构造如上图所示,包含离线语音识别部分和流式语音识别部分。个中,离线与流式部分通过共享一个动态编码器(Encoder)构造来降落打算量。流式语音识别部分是由动态时延 Encoder 与流式解码器(Decoder)构成。动态时延 Encoder 采取时延受限可控影象单元的自把稳力(LC-SAN-M)构造;流式 Decoder 采取动态 SCAMA 构造。离线语音识别部分包含了降采样层(Sride Conv)、Big-Chunk Encoder、文本 Encoder 与 SCAMA Decoder。为了降落刷新输出结果的尾点延时,离线识别部分采取大 Chunk 流式构造。个中,Stride Conv 构造是为了降落打算量。文本 Encoder 增加了离线识别的语义信息。为了让模型能够具有不同延时下进行语音识别的能力,我们创新性地设计了动态时延演习机制,使得模型能够同时知足不同业务场景对延时和准确率的哀求。
根据业务场景特色,我们将语音识别需求大致分为3类:
低延迟实时听写:如电话客服,IOT语音交互等,该场景对付尾点延迟非常敏感,常日须要用户说完往后立马可以得到识别结果。流式实时听写:如会议实时字幕,语音输入法等,该场景不仅哀求能够实时返回语音识别结果,以便实时显示到屏幕上,而且还须要能够在说话句尾用高精度识别结果刷新输出。离线文件转写:如音频转写,视频字幕天生等,该场景不对实时性有哀求,哀求在高识别准确率情形下,尽可能快的转录笔墨。为了同时知足上面3种业务场景需求,我们将模型分成3种解码模式,分别对应为:fast、normal 和 offline 模式,在模型支配阶段,通过发包指定该次语音识别做事的场景模式和延时配置。这样,通过 UNIVERSAL ASR 系统,我们统一了离线流式语音识别系统架构,提高模型识别效果的同时,不仅缩小了模型生产本钱和迭代周期,还降落了引擎以及做事支配掩护本钱。更多技能细节可以参考我们的技能论文:
https://arxiv.org/pdf/2010.14099.pdf
中英自由说近几年来,端到端语音识别 (End-to-End ASR) 技能在单语种任务上已经取得了比较好的效果,通过UNIVERSAL ASR 统一离线和流式识别系统架构进一步提升了流式场景的识别率,但在多语种混说 (Code-Switch) 场景下效果还不是很空想,比如中英文混说——“借你的ipad给我看下paper”,当溘然切换到另一个语种时识别率会发生大幅低落,比如中文 ASR 溘然碰着纯英文识别。
拿中英文识别来说,效果不理想的很大缘故原由是中英文混说数据比较稀缺,标注本钱也比较高,中/英单语数据的直接稠浊演习对纯中文和纯英文的识别效果会产生一定的负面影响。如何利用海量的中/英文单语种数据和少量的中英文混说数据提升中英自由说免切换识别效果成为工业界和学术界的研究热点。
针对中英文自由说识别问题,我们借鉴了稠浊专家系统 (Mixture of Experts) 的思想。在端到端语音识别模型中,对中文和英文分别设计了一个子网络,每个子网络被称为专家,末了通过门控模块对每个专家网络的输出进行加权。同时为了减少模型参数量,中、英文子网络采取底层共享,高层独立的办法。通过这样的办法,使模型在中文、英文、中英文混说场景下都能取得比较好的效果。进一步我们结合达摩院语音实验室自研的 SAN-M 网络,打造了达摩院语音实验室新一代的端到端中英自由说语音识别系统。在不须要语种信息的条件下,用一个模型担保纯中文和纯英文相对付单语模型的识别性能基本不降,并且大幅度提升中英文混说场景下的识别性能。
图2 中英自由说系统框架图
方言自由说通用的中文语音识别系统对普通话的识别准确率已靠近人类水平。但当一个中文识别系统碰着重口音或者方言的时候,识别效果会产生灾害性地低落。紧张的缘故原由是方言的发音和普通话有差异,会涌现同音异字的情形。以是针对每一种方言,我们都会单独演习一个方言模型,这样又会导致我们须要掩护多个方言模型,同时无法通过一个模型识别多种方言,且有的方言数据量稀疏,不利用其他方言数据中的共有信息而单独演习这个方言模型的效果不尽人意。
针对这个问题,我们借鉴了中英文自由说模型的方案,对每一种方言设计一个专家网络,同时考虑到每种方言的发音相似性,我们增加了一个共享的专家网络来学习方言之间的共性。和中英文自由说模型类似,末了通过一个门控模块对每个专家网络的输出进行加权。
考虑到方言种类比较多,每个专家网络通过大略的两层线性层来建模。进一步我们结合达摩院语音实验室自研的 SAN-M 网络,打造了达摩院语音实验室新一代的端到端方言自由说语音识别系统。在不须要供应方言id的情形下,用一个模型识别十四种常用方言,并且担保纯中文相对付单语模型的识别性能基本不降。
图3 方言自由说系统框架图
1.2 鸡尾酒会问题“鸡尾酒会问题”(cocktail party problem)是语音识别领域困扰人已久的学术难题。鸡尾酒会问题是指在多人自由交谈的场景,须要高精度识别出每个说话人所讲的内容。当前通用的语音识别系统可以高精度的识别单个说话人的语音,但是当场景中同时存在多个说话人自由交谈时候,语音识别系统识别性能就会涌现明显的低落。
会议场景是一个范例的多人自由交谈的场景。探索鸡尾酒会问题的工业级办理方案,对付解锁会议场景的语音AI具有主要浸染。针对鸡尾酒会问题,语音团队从语音识别根本框架(上文已阐述),M2MeT 国际寻衅,混叠语音检测技能和说话人日志技能等方面展开了技能探索。
M2MeT国际寻衅赛语音识别(Automatic Speech Recognition)、说话人日志(Speaker Diarization)等语音处理技能的最新发展引发了浩瀚智能语音的广泛运用。会议场景是语音技能运用中最有代价、同时也是最具寻衅性的场景之一。由于这样的场景包含了丰富的讲话风格和繁芜的声学条件,须要考虑到重叠语音、未知的说话人数量、大型会议室中的远场旗子暗记、噪音和混响等寻衅成分。然而,该领域的发展一贯以来由于缺少大型公开真实会议数据而受到制约。由于会议转录涉及繁芜的处理过程,因此必须仔细网络和标注更丰富的信息,如说话人身份、语音高下文、开始/结束韶光等,所有这些信息都须要准确的标注,这既昂贵又耗时。针对这个困扰学术界的数据问题,达摩院语音实验室制作和开源了 AliMeeting 语料库。该语料库包含120小时真实记录的中文会议数据,包括8通道麦克风阵列采集的远场数据以及每个参会者的耳机麦克风采集的近场数据。
M2MeT 关注的是真实的线下多人会议场景,包括 speaker diarization 和 multi-talker ASR 两个子任务。M2MeT 已被吸收为 ICASSP 2022 Signal Processing Grand Challenge。有关 M2MeT 国际寻衅赛的信息可以参考我们的竞赛论文M2MeT。
竞赛网址:
https://www.alibabacloud.com/zh/m2met-alimeeting
基线系统框架:
https://github.com/yufan-aslp/AliMeeting
混叠语音检测技能会议场景是一个范例的多人自由交谈的场景,存在一个普遍的征象是多人同时说话造成的混叠语音。这种混叠语音的存在对付后续语音增强,语音识别等任务都造成了很大的寻衅。
针对混叠语音检测问题,我们提出了两个技能方案:
1)联合声学特色和空间特色的混叠语音检测技能(论文);
2)BeamTransformer: 基于麦克风阵列的Transformer构造(论文)。
如图4是我们提出的混叠语音检测的系统框图。不同于过往的只利用单通道的音频旗子暗记进行混叠语音检测,我们的研究探索了实际录制的8通道语音旗子暗记,利用旗子暗记处理供应的声源空间信息和音频声学信息联合建模来进行混叠语音检测。详细包含如下三个核心模块:
波束形成和声源定位:对付原始8通道阵列旗子暗记我们首先采取阵列旗子暗记处理算法来得到声源空间信息和增强的语音旗子暗记。语音分割:对付增强后的语音旗子暗记,我们采取基于神经网络的语音端点检测模型来将语音分割成短的片段。同时切分的韶光戳也会用于声源空间分布频谱的切分。混叠语音检测:我们探索采取神经网络来进行混叠语音检测,验证了不同的输入特色对付系统性能的影响。图4 混叠语音检测系统框图
针对基于神经网络的混叠语音检测问题,我们提出了两种网络构造,分别称之为 Two-Stream DFSMN 和 BeamTransformer。
图5 基于Two-stream DFSMN的混叠语音检测
Two-stream DFSMN的构造如图5所示。它由声学编码器、空间编码器、联合编码器、池化层和 softmax 输出层组成。 声学和空间编码器分别用于将声学和空间特色转换为深层表征。 他们的输出会经由拼接,然后输入到联合编码器里,进一步通过池化层将序列压缩成单个表征。除了常日采取的均值池化层,我们进一步提出了一种基于自把稳力机制的池化层。并在会议数据集上进行了实验验证,结果显示联合音频和空间信息的混叠语音检测比较基线基于音频的检测方法可以得到明显的性能提升。干系论文揭橥于 INTERSPEECH 2021.
图6 基于 BeamTransformer 的混叠语音检框图
我们还提出一种基于麦克风阵列旗子暗记的 Transformer 构造, 如图6所示,通过 CDDMA Beamformer 分离后的多路 Beam,经由重新组合,在掌握 transformer 参数量的条件下,形成空间信息互补最大化。该构造能够有效检测出空间中的重叠语音旗子暗记,并在检测的同时完针言音的分离。
说话人日志技能说话人日志(Speaker Diarization,SD)系统的目标是办理“谁在什么韶光说话”的说话人识别问题,是一种可以广泛运用于客服、会议等多轮对话场景的语音技能。现有的干系技能可大致分为两类,一类是基于分割聚类的传统方法,另一类则是基于深度神经网络的端到端方法。传统方法的局限性在于无法处理说话人在韶光上的重叠;而端到真个方法则须要预先设定说话人数量,并且不能过多(常日6人以下)。
针对现有方法存在的上述问题,我们提出了基于嵌入码的说话人日志模型(Speaker Embedding-aware Neural Diarization,SEND)。该模型通过动态掩护说话人嵌入码影象单元的数量,提高了对说话人数量的灵巧性,既能够应对较多的说话人也不须要提前设定说话人数量;其余,通过幂集编码将重叠语音的说话人日志任务由多标签预测问题重新建模为单标签分类问题,大大提高了对重叠语音的说话人识别率。我们还利用语音中丰富的语义信息,将所提出的方法进行扩展,进一步提高了模型的识别性能。
图7 基于嵌入码的说话人日志系统
如图7所示,所提出的说话人日志系统 SEND 紧张包含四个部分,分别是语音编码器 Speech Encoder、说话人嵌入码编码器 Speaker Encoder、相似度打算 Similarity Calculation 以及后处理网络 Post-Net。个中相似度打算模块对每一帧的语音编码和每个说话人的编码打算两两之间的相似度,得到相似度矩阵,随后将其送入后处理网络对不同说话人之间的关联性进行建模。为理解决阈值选择的问题,我们利用幂集(Power set)将各个说话人的独立语音活动进行编码,得到不同说话人组合的唯一独热标签。利用幂集编码及其反函数,即可直接得到每一帧语音对应的说话人,从而增加了对不同说话人重叠的灵巧处理能力,也避免了繁琐的阈值选择问题。
图8 带有文本信息的SEND说话人日志系统
为了利用语音中的语义信息,我们利用 ASR 识别出的文本将所提出的方法进一步扩展。如图8所示,首先通过文本编码器 Text Encoder 将词嵌入码进行编码,随后采取把稳力机制将声学信息与每个字的文本信息进行对齐,得到包含声学和语义多种信息的稠浊编码。通过打算稠浊编码和说话人编码之间的内积,即可得到每个字和每个人之间的相似度,再将相似度矩阵通过后处理网络即可得到每个字对应的说话人,终极能够回答“谁在什么时候说了什么”的问题。我们分别在合成数据集和会议数据集上进行了实验验证,结果显示所提出的基于说话人嵌入码的说话人日志系统比较于基线可以得到明显的性能提升,而引入识别文本作为语义信息能够更进一步提升模型的识别性能。干系论文: https://arxiv.org/pdf/2111.13694.pdf
二、能听:技能创新之说话人干系在多人会议场景中,说话人区分的任务最为繁芜。如何在说话人数量未知的情形下,降落噪声的影响,并做到对每一个说话人的定位、追踪、聚类以及对每句话发言韶光的精确定位,在技能上面临诸多寻衅。
2.1 基于多通道会议场景的Speaker Diarization任务传统的单通道 speaker diarization 任务在繁芜的多人会议场景中,一贯难以取得空想的分离效果。如,在 DIHARD I、DIHARD II 的比赛中,表现最好的系统缺点率也均在20%-30%以上。除此以外,单通道 diarization 在两个说话人接得比较紧的时候,难以找到准确的切分时候,从而导致大量的丢失首字或者尾字的情形。较差的切分准确率和说话人ID准确率使得目前该技能无法达到商业运用的需求。
对此,我们提出了一种基于麦克风阵列的多通道 speaker diarization 系统,利用麦克风阵列得到 SRP-PHAT 空间相位信息,利用 SRP-PHAT 进行空间声源定位。除此以外,我们还加入了基于神经网络的 VAD 模块,Overlap 检测模块,说话人 segmentation 模块。在此根本上,我们提出的 embedding+空间信息+韶光信息的 AHC 聚类算法,大幅度提升了会议场景下的 speaker diarization 性能。
从下面两表中可以看出,与传统的单通道说话人聚类算法比较,我们的系统将切分准确率从40%-50%旁边,提升至99%以上(Table 1)。同时,将 DER 从23.17%降落至5.22%,达到可商用级别的哀求。
2.2 喧华环境下的说话人自适应噪声过滤及说话人识别
喧华的背景噪声会给说话人任务带来明显的性能低落,如:在带有背景音乐的短视频、直播、电影电视剧、或者在背景环境喧华的录音中进行说话人识别,一贯都是研究领域中的一大难题。
我们针对这一寻衅,提出了一种针对说话人嵌入场景的说话人自适应噪声过滤机制。对带有噪声的音频前辈行一次说话人嵌入提取,利用说话人嵌入向量和演习好的声源分离 mask 得到去噪后的子空间特色,再在该子空间特色的根本上得到更加准确的说话人嵌入向量。在实现这个别系的过程中,难点包括在说话人嵌入场景下没有参考音频以及空想掩码,无法按照一样平常的声源分离系统中的办法进行演习。
对此,我们可利用当前音频作为自身的参考音频,假设原始的说话人嵌入已经有了一定的噪声鲁棒性,通过端到端演习共同优化,放弃基于空想掩码的演习办法。除此之外,我们还可以进一步提出两个优化点,一是考虑到 D-TDNN 和声源分离模型 Conv-TasNet 之间的相似性,我们直接合并这两个模型,共享参数。二是考虑到我们不须要还原干净音频,将频谱图掩码更换成特色图掩码。
在 VoxCeleb 的实验中,加入噪声过滤模块的系统在等缺点率上相对降落了25%旁边,而打算开销仅增加了15%旁边,取得了单系统1.2% EER的空想效果。
2.3 基于图神经网络的说话人无监督演习
无监督或自监督学习在说话人识别任务上的主要性正逐渐增加,个中无监督聚类技能的浸染愈发明显。在现实中常日有大量的无标注数据,来自于会议或多人谈论等常见的语音场景。一个有效的无监督聚类技能可以帮助我们在无需额外标注本钱的情形下充分发挥出数据量的上风。
图神经网络 Graph Convolutional Network(GCN)近年来正在得到越来越多的关注。由于其在学习节点的链接性规律上有突出的表现,可以在无监督聚类中发挥出一定上风。
因此我们提出了一种基于图神经网络 GCN 的说话人特色半监督学习方法。对付说话人 embedding,通过构建子图进行演习打标的办法,快速扩充数据,在公开数据集 Voxceleb 上取得了与已知 ground truth label 相似的性能。
三、会说:技能创新之语音合成
合成真实、自然、富有表现力的声音,一贯是语音合成技能的追求和目标。当你连续听一段韶光,仍旧无法觉得到是机器在说话时,就意味着该款合针言音是较为成功的。
3.1 高表现力声码器——HIFI-TTS声码器作为语音合成系统中的一个主要模块,卖力将分外设计的中间表征(文本措辞学特色/声学特色)转换为波形旗子暗记,直接影响着合成音频的音质。近年来,随着深度学习技能在语音合成中的运用,基于神经网络的声码器被广泛利用,从 wavenet、wavernn 到 LPCNet,每一次声码器技能的进步都推动了全体语音合成系统的升级,带来了体验的提升。
高采样率、高音质是高表现力语音合成的一个体现。已有的自回归声码器方案在面对高采样率、高音质情形下存在着合成效果和效率的问题,在学界非自回归声码器的研究进展启示下,我们在达摩院新一代 KAN-TTS 根本上、结合业界盛行的Hifi-GAN声码器,进行了一些技能、系统链路上的改进,提出可以高效支持高采样率、高音质的语音合成 HIFI-TTS 系统。
模型Hifi-TTS 引入基于天生对抗网络(GAN)的连续变量建模。不同于先前采取交叉熵演习的离散变量建模的 wavenet,wavernn,LPCNet,引入 Discriminator 区分真实录音/天生声音的分布来辅导声码器(Generator)的演习。模型通过 MSD 建模语音中旗子暗记的平稳特性,通过 MPD 建模语音中不同频率身分的周期特性,从而达到对声音更好的还原效果。为支持48k高采样率的声音天生,对 Discriminator, Up-Net, MRF 的构造进行相应改造,使其在48k采样率下有更稳定的合成效果。效果新一代 HIFI-TTS (48k) 系统在 CMOS 测评中均超过了线上 (16k)系统,在 HIFI 专业测评中 CMOS 均匀提升0.3,在普通众包测评中 CMOS 均匀提升0.08,展现出更好的音质和表现力体验。
发音人
(F: female, M: male)
测试环境
HIFI-TTSCMOS gain
F1
HIFI专业测评
+0.42
M1
HIFI专业测评
+0.19
F2
普通众包测评
+0.14
F3
普通众包测评
+0.085
F4
普通众包测评
+0.085
M2
普通众包测评
+0.085
M3
普通众包测评
+0.085
M4
普通众包测评
+0.03
系统设计声码器 (vocoder)-on-GPU 的异构方案。不同于先前逐点天生的自回归声码器,新一代非自回归声码器可支持并行天生。并行天生效率更高,更适宜发挥 GPU 本身的打算上风,从而提高全体语音合成系统的实时性。非自回归声码器流式方案。通过声码器的 chunk 机制和声学模型 (Acoustic Model) 相合营,在显存占用、运行效率上优于非流式方案, 可支持 HIFI-TTS 系统在 GPU 下的高效流式做事。3.2 高表现力声学模型语音合成技能发展迅速,越来越多的语音合成系统被提出,使得合成的语音更加自然和流畅。即便如此,合成的语音在韵律上和真人还有明显差距。因此,很多研究职员提出多少种方法来对语音中的韵律建模,从而使得合成的语音进一步靠近真人。一样平常来说,韵律身分包含:基频、能量和时长。
已有的韵律建模方法存在一些问题:
1)由于基频提取不准,导致韵律建模效果差;
2)不同韵律身分预测是用不同模型分别预测,而实际上这些韵律身分之间存在关联性;
3)有限的 TTS 数据对付多样的韵律分布建模不敷。针对这些问题,我们提出了高表现力声学模型——ProsoSpeech,模型构造图如下:
系统和结果
见图(a),ProsoSpeech 紧张包含:音素编码网络(Phoneme Encoder)、词编码网络(Word Encoder)、长度规整模块(Length Regulator)、解码网络(Decoder)、韵律编码网络(Prosody Encoder)和隐蔽韵律矢量预测网络(LPV Predictor)。输入的文本序列被转换成音素序列和词序列,然后通过音素编码网络和词编码网络得到措辞学特色表示H_ling。然后,基于H_ling和H_spk(H_spk是可演习的矢量),目标梅尔谱(mel-spec)的低频部分通过韵律编码网络得到隐蔽韵律矢量(LPV)。末了,H_ling、H_spk和隐蔽韵律矢量拼接在一起,送入后续的长度规整模块和解码网络得到预测的梅尔谱。
通过 latent prosody vector 的提取和预测,MOS 可以得到3.65->3.85(人声4.08)的提高,整体韵律更平滑顺畅。干系论文可见:
https://arxiv.org/abs/2202.07816
四、懂你:技能创新之SLP根本算法研究我们在“人-机”对话时,会有特定的语句表达,比如我们会字正腔圆地问天猫精灵:本日景象怎么样?,进行问询式的互动。而在“人-人”互换式的口语互动中,会常有语气词、重复、随意修正表达句式等情形,技能难点包括带感情的自然语音识别、对口语化表达的语音识别和语义理解。
4.1 口语措辞处理(SLP)如何让语音识别的笔墨更具有可读性和可用性,是语音实验室持续考虑的问题,为此我们先容在联合文本和音素表征学习、区分式自学习的标点技能、自适应滑窗的篇章分割技能、基于池化的长文本建模技能、基于掩码的关键词抽取技能等方面的进展。
4.2 联合文本和音素表征学习在用于口语理解 (SLU) 的传统级联架构中,已经不雅观察到自动语音识别(ASR)缺点可能会危害自然措辞理解的性能。端到端 (E2E) SLU 模型已经提出用单个模型将语音输入直接映射到所需的语义,从而减轻 ASR 缺点传播。最近,针对这些 E2E 模型已经探索了预演习技能。
我们提出了一种联合文本和音素预演习的表征学习方法,可以利用音素信息来提升口语措辞理解任务对付 ASR 缺点的鲁棒性。我们探索了音素标签作为一种高层次的语音特色,设计和比较了基于条件掩码措辞模型目标和句间关系目标的预演习方法。我们也探索了却合文本和音素信息在模型finetune的有效性。在 Fluent Speech Commands 和 SNIPS 两个公开数据集上的实验结果表明,提出的方法可以显著提升基线模型效果以及口语措辞理解任务对语于ASR缺点的鲁棒性。
之前的事情一样平常通过 Multiple ASR hypothesis 和 end-to-end SLU 两类方法来缓解 ASR 缺点对下贱任务造成的缺点累积。Multiple ASR hypothesis 方法的缺陷是增加ASR解码的繁芜性和延时,以及并不是所有的ASR系统都能产生高质量的 multiple ASR hypotheses。End-to-end SLU 的缺陷是业务上常日利用的是级联系统,架构改造大,冷启动和掩护难度大。我们的方法是在传统级联架构下,只利用 ASR 1-best,从而提升 NLU 的性能。我们比较系统地探索利用发音特色(音素)来提升 SLU 对 ASR 缺点的鲁棒性,包括在预演习阶段学习文本音素联合表征和在 finetune 阶段领悟发音特色。预演习阶段学习文本音素联合表征的示意图如下所示:
我们进一步剖析告终合文本和音素表征学习后,词向量表征发生的变革。我们选择来自 FSC 开拓集(ASR 1-best WER 36.7)词频最高的20个稠浊词布局 retrieval 任务,比较不同预演习模型词向量的 Mean Reciprocal Rank (MRR)。实验创造口语预演习模型可以显著缩短表征空间中声学稠浊词的间隔(MRR 0.1012 -> 0.1591),从而达到提升ASR缺点鲁棒性的效果。效果实验图如下图所示:
更多技能细节可以参考我们的 INTERSPEECH 2021 技能论文:
Pre-training for Spoken Language Understanding with Joint Textual and Phonetic Representation Learning
https://www.isca-speech.org/archive/pdfs/interspeech_2021/chen21g_interspeech.pdf
4.3 区分式自学习的标点技能标点预测任务对付提升 ASR 输出文本的可读性和提升下贱自然措辞处理任务的效果起到至关主要的浸染。然而,要想取得好的标点预测效果,每每须要大量标注的口语文本,这每每是耗费大量人力物力的。
我们提出了一种区分式 self-training 方法,即加权丢失和区分性标签平滑的方法,来利用无标注的口语文本数据。加权丢失是指利用不同的权重丢失来联合人工标签数据和伪标签数据。区分性标签平滑是指考虑到人工标签数据和伪标签数据噪声程度不同,采取不同超参的标签平滑技能来处理人工标签数据和伪标签数据。全体自学习的流程图如下所示:
模型采取基于Transformer的序列标注框架,如下图所示:
在英文公开数据集 IWSLT2011 和一个内部中文数据集上,实验表明我们提出的方法可以进一步提升很强的基线模型,包括 BERT, RoBERTa 和 ELECTRA。其余,提出的区分式 self-training 方法相较经典 self-training 方法的效果有一定提升。我们在 IWSLT 2011 公开数据集上得到了新的 SOTA,有1.3 F1的绝对提升。
更多技能细节可以参考我们的INTERSPEECH2021技能论文:
Discriminative Self-training for Punctuation Prediction
https://www.isca-speech.org/archive/pdfs/interspeech_2021/chen21d_interspeech.pdf
4.4 自适应滑窗的篇章分割技能随着在线会议、在线教诲等形式的遍及,越来越来的记录音视频会由自动语音识别 (ASR) 系统转录为记录文档。但是原始的 ASR 转写稿,短缺话题、段落等构造性分割注释,大大降落了其可读性和利用代价。对口语长篇章转写文档进行自动化的段落分割标注,可以很大程度提高文章可读性和下贱 NLP 任务(例如择要和机器阅读理解)在该语料上的性能。
我们提出了一种结合自适应滑动窗口机制的序列构造化分割模型,同时还探索利用音频信息提高模型效果的方法。我们的方法大幅度提高口语文档构造化分割的准确性和效率,音频信息的利用也显著提高了系统对口语长篇章文档中 ASR 缺点的鲁棒性。比较基线模型,我们的模型在效果方面提升超过4%,同时将推理效率缩减为原来的1/6。模型构造和推理机制如下图所示:
更多技能细节可以参考我们的 IEEE ASRU 2021技能论文:
Sequence Model with Self- adaptive Sliding Window for Efficient Spoken Document Segmentation
https://arxiv.org/abs/2107.09278
4.5 基于池化的长文本建模技能基于 Transformer 的模型在各种 NLP、视觉和语音任务中取得了巨大的成功。然而,Transformer 的核心,即自把稳力机制,相对付序列长度具有二次韶光和内存繁芜度,这阻碍了基于 Transformer 的模型在长序列上的运用。
目前已经提出了许多方法来缓解这个问题,例如稀疏把稳机制、低秩矩阵近似和可扩展内核,以及自把稳力的 token 稠浊替代方案。我们提出了一种新的池化网络 (PoNet),用于在具有线性繁芜度的长序列中稠浊 token。我们设计了多粒度池化和池化领悟来捕获不同级别的高下文信息并将它们与 token 的交互结合起来。在 Long Range Arena(LRA)基准测试中,PoNet 显著优于 Transformer 并实现了具有竞争力的准确性,同时在 GPU 上丈量的所有序列长度上仅比最快的模型 FNet 慢一点。我们还对 PoNet 的迁移学习能力进行了系统研究,并不雅观察到 PoNet 在 GLUE 基准测试中达到了 BERT 95.7% 的准确率,相对付 FNet 赶过 4.5%。综合溶解剖析证明了设计的多粒度池化和池化领悟在长序列中的 token 稠浊的有效性以及为 PoNet 设计的预演习任务的有效性,以学习可转移的高下文化措辞表示。
PoNet 模型的示意图如下所示,我们设计了多粒度池化和池化领悟来仿照不同级别的 token 交互。多粒度池化在每个子层中包含三种类型的池化,从粗粒度到细粒度。全局聚合(Global Aggregation,GA)将全体序列的信息聚合到一个 token 中。GA包含两阶段,第一阶段用均匀池化以得到粗略的全局表示,第二阶段用交叉把稳力以得到更准确的全局表示。段最大池化(Segment max-pooling,SMP)捕获段落或句子级别的信息。局部最大池化(Local Max-pooling,LMP)捕获更主要的局部信息。这三个池化被领悟以产生多粒度池化块的输出特色。然后通过残差连接,这个输出特色被进一步聚合到每个 token 中。
更多技能细节可以参考我们揭橥在ICLR2022的技能论文
PoNet: Pooling Network for Efficient Token Mixing in Long Sequences
https://openreview.net/pdf?id=9jInD9JjicF
4.6 基于掩码的关键词抽取技能关键短语提取 (KPE) 自动提取文档中供应核心内容、简明择要的短语,这有利于下贱信息检索和 NLP 任务。先前最前辈的方法根据候选关键短语的学习表示与文档之间的相似性来选择候选关键短语。由于序列长度之间的差异导致关键短语候选的表示与文档之间的不匹配,它们在长文档上的性能低落。在这项事情中,我们提出了一种新的基于无监督嵌入的 KPE 方法,即掩码文档嵌入排名 (MDERank),通过利用掩码策略并根据源文档和掩码文档嵌入之间的相似性对候选者进行排名来办理这个问题。我们通过提出一种新的自监督比拟学习方法进一步开拓了面向 KPE 的 BERT (KPEBERT) 模型,该方法比普通 BERT 更兼容 MDERank。对六个 KPE 基准的综合评估表明,所提出的 MDERank 优于最前辈的无监督 KPE 方法,均匀提高了 1.80 F1@15。MDERank 进一步受益于KPEBERT,总体上比 SIFRank 均匀提高了 3.53 F1@15。
传统的方法通过技能 phrase 和 document 之间的语义间隔来抽取关键词,我们称这些方法为 Phrase-Document(PD)方法。PD 方法有两个紧张缺陷:
1)由于文档常日比候选 KP 长得多,并且常日包含多个 KP,因此 PD 方法很难可靠地丈量它们在潜在语义空间中的相似性。因此,PD 方法自然倾向于更长的候选 KP,如下表中的示例所示,该例子显示了短语文档 (PD) 方法更方向提取较长候选关键短语。个中提取的关键短语按排名顺序显示,与人工标签匹配的关键词标记为赤色。
2)PD 方法中候选 KP 的嵌入是在没有高下文信息的情形下打算的,因此进一步限定了后续相似性匹配的有效性。
我们提出了一种新的基于无监督嵌入的 KPE 方法,用 Masked Document Embedding Rank (MDERank) 表示,以办理 PD 方法的上述缺陷。MDERank 的架构如下图所示。MDERank 的基本思想是关键短语在文档的语义中起着重要的浸染,如果它从文档中消逝,就会导致文档语义的重大变革。我们提出的方法可以被视为 Document-Document 方法,它办理了 Phrase-Document 方法的两个弱点:
1)由于原始文档和掩码文档的序列长度相同,比较它们在语义空间中的相似性更故意义和可靠。
2)掩码文档的嵌入是根据足足数目标高下文信息打算的,因此可以利用 SOTA 高下文化表示模型(如 BERT)可靠地捕获语义。
更多技能细节可以参考我们揭橥在Findings of ACL 2022 的技能论文:
MDERank: A Masked Document Embedding Rank Approach for Unsupervised Keyphrase Extraction
https://aclanthology.org/2022.findings-acl.34.pdf
五、技能创新之联合优化声学前端在语音AloT场景运用中,语音交互系统须要在设备反应、噪声滋扰、房间混响等多种不利声学影响下,进行语音唤醒和识别等交互操作。业界一样平常采取由多个算法模块形成算法系统来应对,但算办法模块各自收敛到其目标函数的最优解后,并不能代表整体系统性能也达到了最优。与算法级联架构不同,联合优化声学前端则是端到端从系统的角度去设计和优化算法,以不同声学条件下端到真个唤醒率等指标为优化目标,采取统一的建模方法提升反应肃清、声源分离、去混响和语音唤醒的整体算法性能,在远场语音模组、智能电视、智能音箱和智能座舱等人机交互产品中可以不断打破技能边界,为用户带来更好更便捷的交互体验。
在面向远场语音交互的前端旗子暗记处理方面, 我们已经构建了以盲源分离理论为核心的统一框架:将声源分离、解混响和反应肃清统一在盲源分离理论框架下,统一了目标函数和优化策略。这一技能路线的出发点是针对消费类电子设备高性能、低本钱和低功耗的需求特点,其性能较各模块独立优化进一步提高,请参考:
Na, Yueyue, et al. "Joint Online Multichannel Acoustic Echo Cancellation, Speech Dereverberation and Source Separation." Interspeech, 2021.
https://arxiv.org/abs/2104.04325
对付远场前端处理来说,目前最难的场景包括极低信噪比(-10dB以下)或多人同时滋扰(或称鸡尾酒会场景,信干比一样平常在0dB或更低)。盲源分离算法一定程度上对多人同时滋扰的情形已经有了较好的分离效果,在某头部教诲平板品牌商的人声分离算法测评中,达摩院2mic方案也被认为是业内最佳的。在本年度,我们则重点攻坚了以扫地机器人为代表的极低信噪比场景,详细来说因此阵列旗子暗记处理与语音唤醒的联合优化为切入点,加强了声学-语音一体化培植,形成统一前端处理平台,这一思想可由下图来示意:
其紧张的内容有:
5.1 自适应麦克风阵列旗子暗记处理随着神经网络(NN)技能的发展,目前越来越多的研究方向于利用全NN模型的方法来实现端到真个语音增强和关键词检测。端到真个系统由于具有统一的目标函数,以是有望取得较好的整体性能。但是在实际运用中,设备所面临的环境是多种多样的。基于全NN的端到端方案虽然在与其匹配的场景中能够取得较好的性能,但是其缺陷在于无法在实际利用过程中进行自适应调度,以是当碰着与演习过程不匹配的场景时模型的性能将会显著降落。其余,低算力、低存储的嵌入式运用中也限定了模型的规模、从而限定了整体的性能。
基于自适应麦克风阵列旗子暗记处理的语音增强技能,其优点就在于能随着利用场景的变革对旗子暗记处理算法作出自适应更新,从而保持语音增强系统的在线最优性能。同时,由于自适应旗子暗记处理算法所占用的打算和存储资源较小,以是非常适宜低资源嵌入式系统上的运用。
5.2 引入关键词mask进一步提升在极低信噪比和散射噪声场景下的唤醒性能传统的基于波束形成或盲源分离的语音增强方法,实在质在于在目标声源处形成主瓣,在点声源滋扰处形成零点,从而提升目标声源的信噪比。但是,在某些极低信噪比、散射噪声的运用处景中,由于麦克风阵列孔径、麦克风数目、打算繁芜度等条件的限定,传统基于旗子暗记处理的语音增强方法并不敷以有效的实现噪声抑制。
为了填补传统方法的不敷,我们研发了基于深度学习的语音增强方案,基于旗子暗记处理的传统方法级联基于深度模型的后滤波模块,使得语音增强的性能得到了进一步提升。
干系技能论文请参考:
Wang, Ziteng, et al. "NN3A: Neural Network supported Acoustic Echo Cancellation, Noise Suppression and Automatic Gain Control for Real-Time Communications." arXiv preprint arXiv:2110.08437 (2021).
https://arxiv.org/abs/2110.08437
5.3 完善的多通道远场数据仿照工具, 可在演习阶段引入完备的数据匹配要在演习阶段实现完备的数据匹配,首先须要多通道、长音频数据仿照功能的支持。这样才能利用与实际处理中相同的语音增强前端来处理多通道数据,并且担保长音频的自适应旗子暗记处理算法有足够的数据收敛,达到正常的语音增强性能。我们用于关键词检测模型演习的数据仿照工具除了能够大批量仿照多通道、长音频的功能之外,该工具还支持了安静、点声源滋扰、反应、散射噪声场景的仿照,以及这些场景的各种组合。在数据仿照的根本上,我们还形成了从音源到特色的 pipeline 工具的培植,使得演习阶段实现完备的数据匹配成为可能。
5.4 基于关键词检测模型的多路信息领悟和通道选择机制,提升关键词检测性能,降落打算量目前语音增强前端输出的多是多通道的、增强后的旗子暗记,在这类多路输出的系统中,一样平常性的做法是在每路前端输出后面都接一个单路的关键词检测模块,任何一起模块中检测到关键词即算唤醒。之后通过事宜领悟和通道选择模块统一上报唤醒事宜并选择上云音频通道。这种组合而成的系统虽然暂时知足了多通道的运用需求,但个中仍旧存在一些缺陷:首先是虚警问题,由于多路旗子暗记中虚警发生的概率可以近似认为是相互独立的,以是每增加一个通道,虚警就比单通道的关键词检测近似增加一倍;第二是打算量问题,每增加一个通道,关键词检测的打算量也随之增加一倍;第三是增加了系统的繁芜性,由于各路关键词检测上报事宜的机制也是相互独立的,以是常常会发生信噪比高的通道后唤醒的情形,以是须要繁芜的缓存和等待逻辑来对事宜和数据进行同步。
为了填补上述不敷,我们开拓了关键词检测模型的多路信息领悟机制,即只在模型的第一层影象单元上做多路推理,之后将推理结果利用 max pooling 操作进行领悟。同时,max pooling 的选择结果又能揭示最佳通道的选择结果。此种架构同时办理了上述虚警、打算量、同步性的缺陷,进一步提升了整体性能。
5.5 推理阶段的前后端反馈联动传统的语音增强+关键词检测的系统采取顺序级联的架构,语音增强模块为后续的关键词检测模块供应信噪比较高的语音,但是关键词检测模块并不能供应信息赞助前级模块实现更好的语音增强。剖析关键词检测模块的构造可以创造,通过解码器可以知晓组成关键词的各个发音单元在音频流中的存在概率,进而得到关键词存在概率。该信息可以作为一种自顶向下的监督信息,见告前级模块哪些数据是关键词检测模块方向的,哪些是不须要的。以是,除了原架构中的前馈机制之外,我们还建立了关键词存在概率的反馈机制,用于辅导前级模块进行更高效的语音增强。
以上算法的性能上风在以扫地机器人为代表的高难度场景中得到了验证。
干系技能论文请参考:
Na, Yueyue, et al. "JOINT EGO-NOISE SUPPRESSION AND KEYWORD SPOTTING ON SWEEPING ROBOTS." ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2022.
https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=9747084
Dianwen Ng, et al. "CONVMIXER: FEATURE INTERACTIVE CONVOLUTION WITH CURRICULUM LEARNING FOR SMALL FOOTPRINT AND NOISY FAR-FIELD KEYWORD SPOTTING." ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2022.
https://arxiv.org/abs/2201.05863
对行进间的扫地机器人直接进行语音交互操作所面临的问题是高自噪、大反应、移动远场和低算力,每一项都具有超出一样平常家居智能硬件产品的难度。基于旗子暗记处理和唤醒的联合优化算法方案,我们与天猫精灵共同互助推出高性能木星模组,有效地办理了以上问题,大幅提升了移动高噪场景下的语音交互效果,在业界树立了新标杆。初版6mic算法支持了业界首款语音交互扫地机;通过旗子暗记处理和唤醒的联合优化,唤醒率较语音增强+多路关键词检测的基线系统相对提升近10%,且虚警率低落了30多倍,关键词检测模块的打算量相对低落50%多,并经离线验证mic个数降为3/4mic时,性能低落幅度也在可接管范围之内,进一步提升了性价比和降落装置难度。经内部严谨的比拟测试,经由算法升级某客户的唤醒率指标在相同噪声声压级下均高于后期涌现的竞品。
这一思想进而也可以引入视觉信息来赞助提升音频盲源分离在繁芜交互场景下的鲁棒性 ,从而可形成完全的多模交互前端处理方案。
5.6 面向嵌入式低资源的旗子暗记处理与神经网络极致加速有别于数据中央等大规模、高算力场景,声学前端所运用的 Tiny 方向则聚焦于低功耗、高性价比等特性,须要充分利用软硬一体的加速技能。以语音唤醒为例,采取蒸馏和裁剪等模型演习压缩、基于 TVM 的神经网络编译图优化、RISC-V 指令集以及语音领域干系的工程实践,在2022年AI基准测试 MLPerf™ Tiny Benchmark 的嵌入式语音唤醒场景中,我们提交的方案较好地平衡了推理任务中的准确率与延时,担保准确率90.7%最高的情形下耗时最短。可参考技能论文:
https://mp.weixin.qq.com/s/yBdjQmRZq7NfKmodYC-bWQ
达摩院语音实验室的软硬一体联合优化技能,让反应肃清、盲源分离、语音降噪和语音唤醒等高繁芜度端侧语音AI前沿算法,在资源极致严苛的嵌入式芯片上得以实现,算法内存开销低至1M字节,运行功耗低于100mW,从而可以为客户整机降落一半以上的模组成本,并依然保持高性能的算法体验。
在算法输出形态上,我们也形成了下图所示的前端处理平台: 包括旗子暗记处理、唤醒和 VAD 在内的一体化建模算法、算法嵌入式平台优化和配套演习工具, 此工具包为 Mind 声学前端算法对外输出的基本形态。
设备端侧语音AI工具包构造框架图
在语音AI不断解锁新场景的进程中,下一代语音AI与过往语音运用最大的差异在于:从过去更强调人与机器之间的语音交互,变为未来对人与人之间语音互换的剖析和智能化运用。
会议场景“人-人”语音互换,集众技能寻衅于一身,将会是牵引语音技能进一步发展打破的绝佳试验田,须要从硬件、旗子暗记处理、语音、语义等多方面共同发力。达摩院语音实验室正沿着此方向进行探索,我们希望用前辈的技能,来率先解锁对会议场景的智能化运用难题。