- 基于 Transformer 的语音识别 N-Best 重新评分和重写模型
声助助手越来越多地使用设备上的自动语音识别(ASR)以确保速度和隐私。然而,由于设备上的资源限制,涉及复杂信息领域的查询通常需要搜索引擎进一步处理。针对这种应用,我们提出了一种新颖的基于 Transformer 模型的能够通过并行地探索 N - Sonos 语音控制偏倚评估数据集:语音助手中人口统计偏倚评估的方法论
该研究引入了 Sonos Voice Control Bias Assessment Dataset,一个包含控制人口统计学标签的大型数据集,通过针对音乐领域的语音助手请求(1,038 名说话者,166 小时,170k 音频样本,9,040 - 周到之物:用小型语言模型构建以人为本的智能设备
提出了 thoughtful things 这种设备,利用轻量级本地语言模型执行操作并解释行为,以解决智能设备使用的复杂性和语音助手的局限性。
- 在产品问答中识别购物意图用于主动推荐
语音助手在电子设备中广泛使用,但如何让语音助手主动向用户提供建议尚未得到充分关注。本文针对电子商务领域中的购物产品问题进行了研究,通过识别用户的购物需求,语音助手能够提供产品或交易建议,提升购物体验。通过使用用户的购物历史数据,我们提出了一 - 通过自监督预训练实现噪声鲁棒的关键词检测
使用自我监督学习(SSL)预训练算法 Data2Vec 可以提高关键词识别(KWS)模型在嘈杂环境下的鲁棒性。
- 文化敏感性与语音助理的未来联想
通过在线共拟研究,探索了在非西方背景下(如日本)共设计语音助手的价值,并强调文化差异对话语、社交互动和对技术的态度的敏感性。提供了针对日本和英语为主的美国背景的设计指南,以及行为辅助技术设计和学术研究中多元文化的机遇。
- EMNLP语音助手的追问建议通过语音提示
通过使用序列到序列的转换器,我们研究了语音助手的采用、声控搜索和查询建议等相关主题,并提供了一种有效的方法来生成紧凑且自然的语音暗示。
- 智能家居助手的意图检测和槽位填充:孟加拉和锡尔赫提语的数据集和分析
我们的研究通过引入首个全面的数据集,针对正式孟加拉语、口头孟加拉语和锡尔赫蒂语中的意图检测和槽填充,总计 984 个样本,涵盖 10 个独特的意图。分析表明,大型语言模型在处理数据不足的下游任务方面具有鲁棒性。GPT-3.5 模型在口头孟加 - 高阶 DeepTrails:*Trails 的统一方法
分析人类行为在不同环境中具有优势,理解和描述人类行为有助于改进和优化基础设施和用户界面。本文通过使用一阶马尔可夫链捕捉行为的数学特征,提出使用自回归语言模型分析整个序列的方法,以建模高阶序列依赖,解决现有方法中丧失信息和局限性的问题,并在合 - 幽灵声:黑盒,查询有效的音频对抗攻击通过分秒级音素注入
通过优化梯度估计,PhantomSound 在几分钟内极大提高了黑盒攻击的查询效率,成功地攻击了语音助手并绕过了真实场景中的生物特征检测机制。
- 重写剧本:为语音交互适应文本指令
语音助手面临指导复杂任务的困境,阅读书面指示的方法存在局限性。本研究观察了 12 位参与者使用先进的语音助手在家烹饪,发现目前的方法导致了九个挑战,包括隐藏整体情况、提供过多信息以及无法传达信息。通过语音转化书面指示为口头交流形式,提出了八 - 健壮口语理解的多模态音文结构
本文研究了基于现有自然语言理解模型的语音助手中由自动语音识别误差引起的性能损失,并提出一种多模态语言理解模块,利用自监督学习从语音和文本模态中获取特征,最终通过对音频信号和文本传输进行编码来获得更好的性能。
- 5IDER: 统一查询重写,用于引导,意图延续,语篇失连,实体延续和修复
本文提出了一种非自回归查询重写体系结构,可以处理多轮会话中的转向、意图携带、语言不流畅、实体携带和修复等五种任务,同时具有较高的性能优势。
- 基于转录器的流式语音识别中的自适应上下文偏置
提出了一个基于上下文感知的变形器转录方法的自适应上下文偏置方法,通过使用有偏的编码器和预测器嵌入来执行流媒体预测,动态地开关偏差列表,以适应个性化和常见情况,实验证明相对于基线,它可以在常见情况下减少 WER 和 CER 达到 6.7%和 - ACL通过语义重构在口语问答中回答未解决的问题
该研究分析了口头问答中的常见问题,并提出了一种基于语言学方法的 “语义问题改写” 模型,该模型通过修复、句法重塑和泛化等操作,使难以回答的问题变得易于回答,大幅提高了语音助手的准确性。
- 高效多模态神经网络用于无触发词语音助手
本研究提出了一种基于神经网络的音频手势多模式融合系统,用于改进语音助手在智能手表等低功耗设备上的使用,包括精确唤醒、适应性强、可部署性好、且提高了资产开发的效率。
- 论语境之间的论述:对话 AI 中扩展语用学焦点的需求
本文提出会话的摘要,即一篇文章对话的内容,是当代对话人工智能的普遍局限性,它升华了语用学考虑,探讨了会话摘要和其他会话人工智能应用面临的几个挑战,并阐述了语用学的重要性。我们引用了相关的理论工作,并使用所谓的 “明星句子” 来说明这个问题, - 2022 年大规模多语言自然语言理解工作坊和竞赛
本文介绍了一个三阶段的方案,旨在解决自然语言理解中多语言系统的限制,并推进 NLU 技术发展。该方案发布了一个包含 52 种语言数据集的 Multilingual Amazon SLU 资源包,并组织了 Massively Multilin - 默认双语:语音助手和代码切换在创建双语用户体验中的作用
本文旨在探讨如何通过支持多种语言识别和语音输出的代码切换喜好以促进双语用户的更加包容和改进的用户体验。
- AI 实体解析中低成本相关性生成和评估度量
本文提出了一种低成本的实体解析框架,通过使用用户的隐式和显式反馈信号生成特征,生成相关数据集来测量实体解析性能,并引入了一组度量标准来准确地测量 ER 系统在各个维度上的表现。这些度量标准提供了很大的可解释性,可以深入挖掘和识别 ER 问题