Alexa语音识别:RNN-T与说话人识别新突破

📅 发布时间:2026/7/3 16:58:28 👁️ 浏览次数:
Alexa语音识别:RNN-T与说话人识别新突破
作为专注于语音技术的最大规模会议Interspeech 长期以来一直是展示来自某机构Alexa的自动语音识别ASR最新研究的舞台。今年Alexa研究人员在会议上发表了12篇ASR论文。RNN-T ASR系统架构图。Xt表示当前声学信号帧。Yu-1表示与前一帧对应的输出子词序列。来源“Efficient minimum word error rate training of RNN-transducer for end-to-end speech recognition”其中一篇论文《Speaker identification for household scenarios with self-attention and adversarial training》报告了语音团队在说话人识别方面的最新创新即识别在给定时间点多个可能的说话人中哪一位在说话。另外两篇论文——《Subword regularization: an analysis of scalability and generalization for end-to-end automatic speech recognition》和《Efficient minimum word error rate training of RNN-transducer for end-to-end speech recognition》——探讨了如何提高使用循环神经网络转换器RNN-T架构的语音识别器的质量。Alexa ASR负责人在Interspeech的主题演讲中强调了这两个领域——说话人识别和RNN-T在ASR中的应用——作为Alexa科学团队近年来取得快速进展的领域。说话人识别说话人识别系统使语音代理能够将内容个性化地推送给特定客户通常依赖循环神经网络或卷积神经网络这两种网络都能跟踪语音信号在短时间跨度内的一致性。在《Speaker identification for household scenarios with self-attention and adversarial training》中某机构应用科学家Ruirui Li及其在某机构、加州大学洛杉矶分校和圣母大学的同事转而使用注意力机制来识别语音信号中更长期的一致性。在接收序列输入的神经网络如语音处理器中注意力机制决定序列中的哪些其他元素应影响网络对当前元素的判断。语音信号通常被划分为帧这些帧表示在短时间内不同声音频率下的功率集中度。对于给定的发声Li及其同事的模型将每一帧表示为自身和话语中所有其他帧的加权和。权重取决于帧之间频率特性的相关性相关性越大权重越大。这种表示法的优点在于捕捉每帧传达的说话者声音的独特属性同时抑制那些单个帧特有的、不太能代表说话者整体声音的偶然属性。这些表示传递给一个神经网络该网络在训练过程中学习哪些属性是说话者身份的最佳指标。最后该网络的序列输出每帧一个被平均在一起以生成整个话语的快照。将这些快照与存储的配置文件进行比较以确定说话者的身份。Li及其同事还使用了一些其他技巧来提高系统的可靠性例如对抗训练。在测试中研究人员将他们的系统与四个先前的系统进行了比较发现其说话人识别的准确率全面更高。与四个基线中表现最好的相比该模型在训练数据中包含其话语的说话者上识别错误率降低了约12%在新遇到的说话者上识别错误率降低了约30%。RNN-T架构另一对论文探讨了如何提高使用日益流行的循环神经网络转换器RNN-T架构的语音识别器的质量。RNN-T按顺序处理输入序列使得每个输入对应的输出都考虑了其之前的输入和输出。一系列可能的输入语音子词分割以及每种分割的概率。来源《Subword regularization: an analysis of scalability and generalization for end-to-end automatic speech recognition》在ASR应用中RNN-T接收声学语音信号的帧并输出文本——即子词或单词组件的序列。例如对应于口语单词subword的输出可能是子词sub和_word。训练模型输出子词可以保持网络规模较小也使模型能够处理不熟悉的输入模型可能能够将不熟悉的输入分解为熟悉的组件。在该架构中时间t的输入当前输入语音帧传递给编码器网络该网络提取对语音识别有用的声学特征。同时当前不完整的输出子词序列传递给预测网络其输出指示序列中下一个子词可能的语义属性。这两个表示当前帧的编码和下一个子词可能的语义属性传递给另一个网络该网络基于这两个表示确定输出序列中的下一个单词。新进展《Subword regularization: an analysis of scalability and generalization for end-to-end automatic speech recognition》由应用科学家Egor Lakomkin及其在某机构的同事撰写研究了模型中子词的正则化即强制提高单词分割为子词时的一致性。在实验中研究人员表明在训练过程中使用同一语音转录的多种分割可以将基于5000小时语音数据训练的模型的ASR错误率降低8.4%。《Efficient minimum word error rate training of RNN-transducer for end-to-end speech recognition》由应用科学家Jinxi Guo及其六位在某机构的同事撰写研究了用于此类RNN-T ASR系统的一种新颖的损失函数训练期间的评估标准。在实验中它将系统的错误率降低了3.6%至9.2%。对于每个输入RNN-T输出多个可能的解决方案假设并按概率排序。在ASR应用中RNN-T通常经过训练以最大化分配给输入语音正确转录的概率。然而训练好的语音识别器的评判标准是其词错误率即犯错误误解、遗漏或错误插入的比率。Jinxi Guo及其同事研究了直接训练RNN-T ASR系统以最小化词错误率的有效方法。这意味着对于每个训练样本最小化最有可能的假设的预期词错误。但计算这些假设的概率并不像听起来那么简单。这是因为完全相同的输出子词序列可以以不同的方式与输入帧序列对齐例如一个输出序列可能将同一个子词识别为比另一个输出序列早一帧或晚一帧开始。计算一个假设的概率需要对其所有对齐方式的概率求和。解决这个问题的暴力方法在计算上是不切实际的。但Guo及其同事建议使用前向-后向算法该算法利用对齐之间的重叠存储可重复使用的中间计算结果。结果是一种计算效率高的算法能够使各种RNN-T模型的错误率降低3.6%至9.2%。FINISHED更多精彩内容 请关注我的个人公众号 公众号办公AI智能小助手或者 我的个人博客 https://blog.qife122.com/对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号网络安全技术点滴分享