对话逻辑推理中的上下文口语理解记忆巩固

ACLJun, 2019

对话逻辑推理中的上下文口语理解记忆巩固

Memory Consolidation for Contextual Spoken Language Understanding with Dialogue Logistic Inference

He Bai, Yu Zhou, Jiajun Zhang, Chengqing Zong

TL;DR本研究提出了一种新的对话逻辑推理（DLI）任务，在多任务框架中共同巩固上下文记忆和 SLU 模型，实验结果表明各种领先的上下文 SLU 模型可以从我们的方法中获益，尤其是在槽填充方面。

Abstract

dialogue contexts are proven helpful in the spoken language understanding (SLU) system and they are typically encoded with explicit memory representations. However, most of the previous models learn the

dialogue contexts spoken language understanding context memory dialogue logistic inference multi-task framework

发现论文，激发创造

循环就业者：面向多视角 3D 检测和跟踪的对象感知时序表示学习

我们提出了一个统一的面向对象的时间学习框架，用于多视角三维检测和跟踪任务。通过构建一个循环学习机制以提高多视角表示学习的鲁棒性，使模型预测的信息能够向后传播，从而减小历史帧中与目标无关的区域的响应，降低污染未来帧的风险并提高时间融合的对象感知能力。我们进一步根据循环学习模型，针对跟踪问题定制了一个面向对象的关联策略。所提出的循环学习方法和关联模块共同构成了一个新颖而统一的多任务框架。在 nuScenes 上的实验证明，所提出的模型在检测和跟踪评估上相对于不同设计（如基于密集查询的 BEVFormer，基于稀疏查询的 SparseBEV 和基于 LSS 的 BEVDet4D）的基线模型都取得了一致的性能提升。

Jul, 2024

PRoDeliberation：面向端到端口语理解的并行强化沟通

Spoken Language Understanding (SLU) 的关键组成部分是将语音转化为语义分析，以便进行任务执行。本研究介绍了 PRoDeliberation，一种利用基于连接主义时间分类的解码策略和降噪目标来训练稳健的非自回归思考模型的新方法。我们展示了 PRoDeliberation 实现了并行解码的延迟降低（比自回归模型提高 2-10 倍），同时保持了修正自回归思考系统的自动语音识别（ASR）误识别的能力。此外，我们进一步展示了降噪训练的设计使得 PRoDeliberation 能够克服小型 ASR 设备的限制，并对系统的每个组件的必要性进行了分析。

Jun, 2024

多层次多粒度对比学习驱动口语理解

提出了一种多级多粒度的语音语义理解（SLU）框架 MMCL，应用对比学习在话语级、槽位级和词级三个层级上，实现意图和槽位之间的互相引导，通过对公开的多意图 SLU 数据集的实验结果和进一步分析，证明了模型取得了新的最先进结果，在 MixATIS 数据集上的整体准确率相比之前最好的模型提高了 2.6 个百分点。

May, 2024

基于对比学习和一致性学习的神经噪声通道模型在口语理解中的应用

基于语音识别的自然语言理解方法和两阶段的对比一致性学习模型能够提高在不同噪声环境下的自动语音识别的鲁棒性。

May, 2024

MSNER：一个用于命名实体识别的多语言语音数据集

该研究介绍了 MSNER，一个多语种语音语料库，用于命名实体识别，并提供了用于训练、验证和评估的数据集，同时推出了一个高效的标注工具。

May, 2024

大型语言模型在扩展口语理解系统到新语言方面的应用

介绍了一种使用大型语言模型进行机器翻译的流水线，用于扩展语音助手系统的口语理解模型，提高了多语言场景和设备本地场景下的整体准确率。

Apr, 2024

法语口语语义理解新任务的 MEDIA 基准评估

通过使用语言理解（SLU）的联合模型进行意图分类和槽位填充是一项关键任务。本文介绍了使用半自动方法获取增强版本的 MEDIA 数据集并利用联合模型对意图分类和槽位填充进行了实验的初步结果。

Mar, 2024

隐私保护的端到端口语言理解

本研究提出了一种新颖的跨任务保护用户隐私的口语理解模型，通过利用隐藏层分离技术，将用户信息仅分布在特定部分的隐藏层中并移除其他类型信息，从而实现隐私安全的隐藏层。为了在效率和隐私之间取得良好的平衡，引入了一种新的模型预训练机制，即联合对抗训练，以进一步增强用户隐私。实验证明，该方法能将语音识别和身份识别攻击的准确性降低至随机猜测水平，同时对口语理解性能影响较小。

Mar, 2024

流式对话：通过最小损失的长上下文压缩实现长时间对话学习

通过将长对话历史压缩为最少损失的会话关注点（conv-attn sinks），我们的方法大幅减少了计算复杂度，并分别设计了短期记忆重构（SMR）和长期记忆激活（LMR）的学习策略，使得该方法在对话任务中优于强基线，并实现了 4 倍加速和 18 倍内存使用减少。

Mar, 2024

CET2: 模拟主题转换以实现连贯和引人入胜的基于知识的对话

基于对话上下文和选定的外部知识生成一致且吸引人的响应的知识驱动对话系统，引入了一种具有连贯性和吸引力的主题转换（CET2）框架，以模拟选择与对话上下文一致且提供充足的主题发展知识的主题转换。CET2 框架考虑了多个因素，包括从对话上下文到下一个主题的有效转换逻辑和可用知识候选项之间的系统比较。在两个公共基准测试上的广泛实验表明，CET2 在知识选择方面具有更好的优势和更好的泛化能力。精细粒度知识选择准确性的分析还表明，CET2 可以在对话中更好地平衡主题蕴含（上下文连贯性）和发展（知识多样性），优于现有方法。

Mar, 2024