使用大型语言模型预测对话中的不确定性：成交与否（或谁知道）？

Feb, 2024

使用大型语言模型预测对话中的不确定性：成交与否（或谁知道）？

Deal, or no deal (or who knows)? Forecasting Uncertainty in Conversations using Large Language Models

Anthony Sicilia, Hyunwoo Kim, Khyathi Raghavi Chandu, Malihe Alikhani, Jack Hessel

TL;DR有效的对话者必须考虑他人的不确定目标、信念和情绪，但是即使是最好的人类对话者也无法完美地预测对话的轨迹。我们提出了 FortUne Dial，对长期存在的 “对话预测” 任务进行了扩展：不仅评估准确性，还使用了具有不确定性意识的度量标准，有效地使个别实例中可以放弃预测。我们研究了语言模型在代表对话结果不确定性方面的两种方式（内部使用分数，直接使用标记），并提出了改进这两种表示的校准的微调策略。在八个困难的谈判语料库上的实验证明，我们提出的微调策略（传统的监督策略和离线策略增强学习策略）能够使规模较小的开源模型与其体积为 10 倍的预训练模型竞争。

Abstract

Effective interlocutors account for the uncertain goals, beliefs, and emotions of others. But even the best human conversationalist cannot perfectly anticipate the trajectory of a dialogue. How well can language models<

interlocutors uncertainty language models conversation forecasting calibration

发现论文，激发创造

依赖不可靠之处：语言模型不愿表达不确定性的影响

AI 与人类交互时，自然语言作为默示接口，需要全面地传达语言模型关于回复的不确定性。研究发现，现有的语言模型在回答问题时无法表达不确定性，导致高错误率。人类在实验中过分依赖于语言模型生成的回复，而且存在对不确定性回复的偏见。因此，该研究提出设计建议和缓解策略，以应对人类与语言模型互动中的新一套安全危害。

Jan, 2024

驾驭灰色地带：语言模型中的过度自信和不确定表达

本文探究了语言模型在解释和生成不确定表达时的行为，并发现当模型以确定性的语言输出时，模型的准确性会有所下降。这些结果突显了建立有能力解释和生成可信任的不确定表达的语言模型的挑战。

Feb, 2023

用语言模型区分可知与不可知

通过大型语言模型中的线性探针和无监督方法，研究确定性认知不确定性与随机认知不确定性的可行性，为多样化实际场景中模型置信度提供更详细的指标。

Feb, 2024

大型语言模型能否以准确的文字表达其内在不确定性？

大型语言模型通常无法准确表达其内在的不确定性，因此需要更好的对齐以提高其可信度。

May, 2024

会话偏离的动态预测

自动预测公开在线对话中的偏离度可提供早期干预机会。我们将预训练语言编码器应用于此任务，并尝试将训练范式从静态转换为动态以增加预测范围。该方法在高质量数据环境下表现出更长平均预测范围，但在低质量数据环境下动态训练会传播噪音并对性能产生负面影响。

Oct, 2021

审慎沉默还是愚蠢闲谈？对大型语言模型对未知问题的响应的研究

这项研究系统地调查了大型语言模型在缺乏先验知识以生成有意义回答的情况下常出现的产生杜撰和幻觉的问题，旨在探讨如何教导这些模型主动和可靠地表达不确定性。研究发现，在处理无法回答问题的同时，通过针对训练数据中缺失信息设计的对抗性问答基准测试，经过指令微调和来自人类反馈的强化学习后的大型语言模型表现明显优于未经处理的模型。此外，通过提取不确定度表达的方法得到的结果并不始终与大型语言模型直接回答问题的自信程度一致。因此，我们呼吁进一步研究如何教导大型语言模型主动和可靠地表达不确定性。

Nov, 2023

通过利用不确定性感知型上下文学习提高大型语言模型的可靠性

通过引入一种不确定性感知的上下文学习框架，我们改进了大规模语言模型的响应质量，并过滤掉具有较高不确定性的答案，从而提高了模型的准确性。

Oct, 2023

审慎行事：大型语言模型下的不确定性测量的探索性研究

从不确定性的角度进行的风险评估研究表明不确定性估计方法可用于揭示大型语言模型的预测风险，并可能发现由该模型生成的有错误的程序。

Jul, 2023

思考的不确定性：不确定性感知规划增强大型语言模型中的信息搜索

通过模拟、激励和奖励机制，引入了一种名为不确定性思考（UoT）的算法来提高大型语言模型在主动寻求信息方面的能力。在医学诊断、故障排除和 '20 个问题 ' 游戏的实验中，UoT 相较于直接提示的方式，在成功完成任务的速度上平均提高了 57.8%，同时也提高了任务完成所需的效率（即问题数量的减少）。

Feb, 2024

引入 “预测话语” 用于对话式数据科学

通过自然对话，智能代理能够协助用户进行预测任务，而无需深入了解机器学习过程，本文通过引入一种名为预测话语的新概念并聚焦于从这些话语中准确解读用户预测目标，将任务作为一个槽填充问题，然后采用两种零样本方法解决槽填充任务，即实体抽取和问答技术，我们通过三个经过精心构建的数据集进行实验证明了我们雄心勃勃的目标的可行性，并展示了实体抽取和问答技术在解读预测话语中的有效性。

Sep, 2023