一致之音：基于再利用模型的旅行语音助手设计

Aug, 2021

一致之音：基于再利用模型的旅行语音助手设计

With One Voice: Composing a Travel Voice Assistant from Re-purposed Models

Shachaf Poran, Gil Amsalem, Amit Beka, Dmitri Goldenberg

TL;DR本文研究了语音助手的建立过程，比较了采用专门构建的机器学习模型和再利用现有模型的方法的性能和开发工作量，并分享了基于数据驱动的实施决策及其预期成果。

Abstract

voice assistants provide users a new way of interacting with digital products, allowing them to retrieve information and complete tasks with an increased sense of control and flexibility. Such products are comprised of several →

发现论文，激发创造

语音助手支持探索性搜索的挑战

本文研究了设计能更好的支持探索性搜索的语音助手的四个挑战，并强调了解决这些挑战对于开发更智能的语音助手至关重要。

Mar, 2020

利用通用依存关系重新训练DistilBERT作为语音购物助手

本文基于特定领域数据，对沃尔玛的语音购物助手重训练了经过精简的BERT语言模型，并注入了统一的句法依存关系来进一步提高模型性能，最终在四项下游任务中观察到了高达1.31%的平均性能提升。

Mar, 2021

面向通用语音助手的端到端口语理解

本文介绍了一种基于可预训练的差分可训练模型和使用 Transformer 的层次化系统的语音识别模型，旨在提高其在商用语音助理中的应用性能。实验表明，与基准系统相比，在一些神经网络模型和数据集之上达到了较好的表现。在对数据进行了重新标注并进行了人工评估后，本文提出的方法的语义准确率得到了大幅提高，这显示出本文提出的方法在商用语音助理中的应用价值。

Jun, 2021

智能个人助理中未处理话语的两阶段语音应用推荐系统

本文提出了一种两阶段的简短目录筛选-重新排序推荐系统来匹配第三方语音应用程序到未处理的语音请求，并展示了从基线规则系统收集的观察数据如何构建新系统，以及曝光偏差如何产生离线和人类评估之间的差异，最后提出了两种重新标记方法来处理不完整的基础事实，并缓解曝光偏差。我们通过大量离线实验展示了该系统的有效性。此外，我们展示了在线A/B测试结果，显示用户满意度显著提升。

Oct, 2021

语音助手系统中的查询扩展和实体加权查询重构检索

本文提出了一种新的查询扩展和实体加权方法，利用实体目录中的实体关系改进查询重构性能，实验发现该方法相比不使用查询扩展和加权的基准模型，特别是在前10个结果中，精度有6%的提高，在使用查询扩展和加权的其他基准模型中，精度有5%以上的提高。

Feb, 2022

虚拟助手中口语信息查询的建模：开放问题、挑战和机遇

讨论语音交互虚拟助手中的建模问题与挑战，提出了信息检索方法和研究可以应用于提高虚拟助手语音识别质量的机会，并简要概述了语音识别中当前的问题和挑战。

Apr, 2023

重写剧本：为语音交互适应文本指令

语音助手面临指导复杂任务的困境，阅读书面指示的方法存在局限性。本研究观察了12位参与者使用先进的语音助手在家烹饪，发现目前的方法导致了九个挑战，包括隐藏整体情况、提供过多信息以及无法传达信息。通过语音转化书面指示为口头交流形式，提出了八种改进方式，并展望了自然语言处理的现代进展如何帮助智能代理有效地指导用户完成复杂任务。

Jun, 2023

语音助手的追问建议通过语音提示

通过使用序列到序列的转换器，我们研究了语音助手的采用、声控搜索和查询建议等相关主题，并提供了一种有效的方法来生成紧凑且自然的语音暗示。

Oct, 2023

虚拟助手语音实体知识查询的服务器端重评分

通过在服务器端对口语信息领域查询使用各种类型的语言模型（N-gram词语模型、子词神经模型）进行重计算，结合在设备上和服务器端的信号，通过整合各种服务器端语言模型相比仅在设备上执行ASR，证明了在各种实体中心查询子群体中提高了23%-35%的字词错误率（WER）。此外，通过多个从头开始训练的服务器端语言模型的模型融合最有效地结合了每个模型的互补优势，并将领域特定数据所学到的知识集成到VA ASR系统中。

Nov, 2023

无需指导训练数据的端到端语音助手的蒸馏

本研究解决了现有语音助手在音频与文本建模中信息丢失和复杂性增加的问题。我们提出了一种新的训练方式，使用文本仅模型的响应作为自我监督，有效地消除了对标注响应的需求。研究表明，该蒸馏语音助手（DiVA）在回答问题、分类和翻译等任务中表现出色，并在用户偏好上超越了现有最先进模型，显示出巨大的潜在影响。

Oct, 2024