LLM 在口语对话中的稳健性研究
本研究针对自然语言理解模型在实际对话系统的应用中容易出现的波动和变化问题,提出了一种模型无关的工具箱LAUG,涵盖语言变体,语音特性和噪声扰动三个方面的四种数据增强方法,揭示了现有模型中的严重鲁棒性问题,提供了一种使用LAUG生成的增强数据集来促进语言理解测试鲁棒性的方法。
Dec, 2020
研究口语任务导向对话状态跟踪和基于知识的对话建模,提出使用已有数据集不足的问题,借助n-best语音识别假设,改善任务绩效,并说明现有模型在口语数据方面存在不足,研究结果呈现有利于基于语音的任务导向对话系统的基准测试数据集。
Sep, 2021
通过我们的工具包 CheckDST,我们进行了标准化和全面的 DST 诊断,发现了不同类别的 DST 模型具有明显的优势和劣势,生成模型更适用于语言多样性,而基于跨度分类的模型对不可见实体更具鲁棒性,我们还发现了各个模型的失败模式,并通过预微调过程改善了生成模型的分布偏差问题。
Dec, 2021
本文介绍了我们在 DSTC-10 上构建对话模型的方法。为缩小口头和书面数据之间的差距,我们采用了大量数据扩增策略,包括人工误差注入和文本转语音转换。我们改良了预训练语言模型,并对每个子任务应用了集成算法,以训练稳健的口头对话模型。我们的方法在官方评估中排名第三,在最终的正式人类评估中排名第二。
Mar, 2022
本研究旨在研究大型语言模型在多轮任务和与外部数据库交互方面的能力,发现在显式信仰状态跟踪方面,它们表现不如专门的任务特定模型,但是如果给出正确的插槽值,它们表现出将对话引导到成功结局的能力,并且在有真实信仰状态分布或域内示例的情况下,这种能力得到了改进。
Apr, 2023
研究通过结合当前评估模型的优势与新建立的提示性大语言模型的范式,提出了一种新颖的框架,以实现对对话的鲁棒性和多语言性评估能力,并在多个基准测试中取得了最先进的成果,并在DSTC11轨道4“开放领域对话系统的自动评估指标”中分别在鲁棒性和多语言任务中名列前茅,证明了提示性大语言模型的评估能力。
Aug, 2023
研究了大型语言模型(LLMs)在人机对话中的回应生成任务中的限制及不同对话类型下的LLM适应技术的评估方法,发现没有普遍适用的最佳适应技术,包括人工评估以避免自动测量引起的不准确预期和结果。
Jun, 2024
本研究解决了大型语言模型(LLMs)在生成对话系统回应时置信度估计的关键问题,旨在减少幻觉现象并防止过度依赖。通过探索多种置信度估计方法,提出了一种量化模型不确定性的创新方法,显著提高了针对任务导向对话系统的对话状态跟踪的可靠性。研究结果表明,对开权重模型进行微调可提升置信度得分的校准性能。
Sep, 2024
该研究针对基于大型语言模型的对话系统在输出时信心估计的缺乏问题,提出了一套全面的方法评估和利用模型的不确定性,以改善对话状态追踪的可靠性。研究发现,开放权重模型的微调可以显著提升信心分数的校准效果,从而提高模型性能和决策准确性。
Sep, 2024