对话逻辑推理中的上下文口语理解记忆巩固
我们提出了一个统一的面向对象的时间学习框架,用于多视角三维检测和跟踪任务。通过构建一个循环学习机制以提高多视角表示学习的鲁棒性,使模型预测的信息能够向后传播,从而减小历史帧中与目标无关的区域的响应,降低污染未来帧的风险并提高时间融合的对象感知能力。我们进一步根据循环学习模型,针对跟踪问题定制了一个面向对象的关联策略。所提出的循环学习方法和关联模块共同构成了一个新颖而统一的多任务框架。在 nuScenes 上的实验证明,所提出的模型在检测和跟踪评估上相对于不同设计(如基于密集查询的 BEVFormer,基于稀疏查询的 SparseBEV 和基于 LSS 的 BEVDet4D)的基线模型都取得了一致的性能提升。
Jul, 2024
Spoken Language Understanding (SLU) 的关键组成部分是将语音转化为语义分析,以便进行任务执行。本研究介绍了 PRoDeliberation,一种利用基于连接主义时间分类的解码策略和降噪目标来训练稳健的非自回归思考模型的新方法。我们展示了 PRoDeliberation 实现了并行解码的延迟降低(比自回归模型提高 2-10 倍),同时保持了修正自回归思考系统的自动语音识别(ASR)误识别的能力。此外,我们进一步展示了降噪训练的设计使得 PRoDeliberation 能够克服小型 ASR 设备的限制,并对系统的每个组件的必要性进行了分析。
Jun, 2024
提出了一种多级多粒度的语音语义理解(SLU)框架 MMCL,应用对比学习在话语级、槽位级和词级三个层级上,实现意图和槽位之间的互相引导,通过对公开的多意图 SLU 数据集的实验结果和进一步分析,证明了模型取得了新的最先进结果,在 MixATIS 数据集上的整体准确率相比之前最好的模型提高了 2.6 个百分点。
May, 2024
该研究介绍了 MSNER,一个多语种语音语料库,用于命名实体识别,并提供了用于训练、验证和评估的数据集,同时推出了一个高效的标注工具。
May, 2024
通过使用语言理解(SLU)的联合模型进行意图分类和槽位填充是一项关键任务。本文介绍了使用半自动方法获取增强版本的 MEDIA 数据集并利用联合模型对意图分类和槽位填充进行了实验的初步结果。
Mar, 2024
本研究提出了一种新颖的跨任务保护用户隐私的口语理解模型,通过利用隐藏层分离技术,将用户信息仅分布在特定部分的隐藏层中并移除其他类型信息,从而实现隐私安全的隐藏层。为了在效率和隐私之间取得良好的平衡,引入了一种新的模型预训练机制,即联合对抗训练,以进一步增强用户隐私。实验证明,该方法能将语音识别和身份识别攻击的准确性降低至随机猜测水平,同时对口语理解性能影响较小。
Mar, 2024
通过将长对话历史压缩为最少损失的会话关注点(conv-attn sinks),我们的方法大幅减少了计算复杂度,并分别设计了短期记忆重构(SMR)和长期记忆激活(LMR)的学习策略,使得该方法在对话任务中优于强基线,并实现了 4 倍加速和 18 倍内存使用减少。
Mar, 2024
基于对话上下文和选定的外部知识生成一致且吸引人的响应的知识驱动对话系统,引入了一种具有连贯性和吸引力的主题转换(CET2)框架,以模拟选择与对话上下文一致且提供充足的主题发展知识的主题转换。CET2 框架考虑了多个因素,包括从对话上下文到下一个主题的有效转换逻辑和可用知识候选项之间的系统比较。在两个公共基准测试上的广泛实验表明,CET2 在知识选择方面具有更好的优势和更好的泛化能力。精细粒度知识选择准确性的分析还表明,CET2 可以在对话中更好地平衡主题蕴含(上下文连贯性)和发展(知识多样性),优于现有方法。
Mar, 2024