本研究使用 UNLI 数据集测试自然语言处理模型对概率表述的预测能力,构建了基于概率推理的数据集来测试模型的推理能力,并发现对自然语言处理模型进行微调能提高模型的性能。
Nov, 2022
该论文评估了语言和视觉 - 语言模型的可靠性,并提出了新的日本不确定场景数据集以及测量校准误差的方法。结果表明,语言和视觉 - 语言模型都存在较高的校准误差,并且大部分时间都表现出过度自信,说明其对不确定性估计的能力较弱。此外,研究还发展了回归任务的提示方法,并证明视觉 - 语言模型在生成均值 / 标准差和 95% 置信区间时存在校准不良。
May, 2024
本文探究了语言模型在解释和生成不确定表达时的行为,并发现当模型以确定性的语言输出时,模型的准确性会有所下降。这些结果突显了建立有能力解释和生成可信任的不确定表达的语言模型的挑战。
Feb, 2023
通过大型语言模型中的线性探针和无监督方法,研究确定性认知不确定性与随机认知不确定性的可行性,为多样化实际场景中模型置信度提供更详细的指标。
Feb, 2024
从不确定性的角度进行的风险评估研究表明不确定性估计方法可用于揭示大型语言模型的预测风险,并可能发现由该模型生成的有错误的程序。
Jul, 2023
语言模型相对于人类生成的文本是否准确地表达语言变异性,以及 GPT2、BLOOM 和 ChatGPT 在从统计层面上评估这种能力时的失调问题和预期校准误差的失效问题。
英语演讲者使用概率短语例如 'likely' 来传达关于事件概率或可能性的信息。人类参与者和 GPT4 模型在评估概率和模糊性方面具有较高的一致性,但在模糊性方面存在较大差异。
Oct, 2023
维护用户信任的关键是通过使用含糊概率,提高大型语言模型的置信度估计;此外,使用语言置信度和替代模型概率的组合方法在评估置信度时表现出色。
Nov, 2023
本文证明了 GPT-3 模型可以学习在自然语言中表达关于自己答案的不确定性,并且能够在分布转移下保持中度校准,同时提供了证据表明 GPT-3 的校准能力依赖于与其答案的认识不确定性相关的预训练潜在表示。
May, 2022
使用大型语言模型(LLMs)进行多项选择题(MCQs)的实证研究表明,概率评估方法在生成预测方面存在内在局限性,与当前评估框架通常基于输出概率而非直接生成回应的计算限制相关,结果强调了 LLMs 评估方法的有效性和未来研究的启示。