探究神经语言模型对高概率词汇理解的能力

Nov, 2022

探究神经语言模型对高概率词汇理解的能力

Probing neural language models for understanding of words of estimative probability

Damien Sileo, Marie-Francine Moens

TL;DR本研究使用 UNLI 数据集测试自然语言处理模型对概率表述的预测能力，构建了基于概率推理的数据集来测试模型的推理能力，并发现对自然语言处理模型进行微调能提高模型的性能。

Abstract

words of estimative probability (WEP) are expressions of a statement's plausibility (probably, maybe, likely, doubt, likely, unlikely, impossible...). Multiple surveys demonstrate the agreement of human evaluators

words of estimative probability human evaluators neural language processing models unli dataset probabilistic reasoning

发现论文，激发创造

大型语言模型的估计不确定性评估

用统计的方法对 GPT-4 等大型语言模型进行估测不确定性的研究发现，虽然 GPT-4 在一些英文词组中与人类的估测结果接近，但在涉及到性别角色和中文语境时存在差异，证明人类与大型语言模型的估测结果尚有较大难以弥合的差距。

May, 2024

用语言模型区分可知与不可知

通过大型语言模型中的线性探针和无监督方法，研究确定性认知不确定性与随机认知不确定性的可行性，为多样化实际场景中模型置信度提供更详细的指标。

Feb, 2024

语言引发的事件相关电位的贝叶斯建模

本文介绍了基于贝叶斯层级模型的方法，应用于神经和行为数据分析，特别是应用于事件相关电位 (ERP)，并通过一个以单词惊奇值和神经响应为例的实验数据进行了模拟和解释。

Jul, 2022

在协调游戏中使用概率短语：人类对 GPT-4 的对比

英语演讲者使用概率短语例如 'likely' 来传达关于事件概率或可能性的信息。人类参与者和 GPT4 模型在评估概率和模糊性方面具有较高的一致性，但在模糊性方面存在较大差异。

Oct, 2023

他眨眼还是点头？用于评估语言模型词语理解能力的挑战性基准测试

通过填空式洞察问题查询语言模型，以评估其获取的语言知识类型。现有的洞察数据集主要关注单词与实体之间的关系。本文提出 WDLMPro 直接使用单词的字典定义来评估单词的理解，并发现三种受欢迎的预训练语言模型难以匹配单词及其定义，这表明它们对许多单词的理解存在缺陷，新的洞察任务是一个具有挑战性的问题，可以帮助未来的 LMs 研究。

Feb, 2021

基于表达式相似性的数学问题检索器 MWPRanker

本文提出了一种用于检索类似数学单词问题（MWP）的混合方法，该方法参考将同样的操作序列用于解题，通过与语义相似性方法相比，展示了更好的效果。

Jul, 2023

视频与语言未来事件预测：下一步可能发生什么？

本文提供名为 VLEP 的视频和语言事件预测数据集，并探讨 AI 模型是否能够学习进行这样的多模态常识性下一个事件预测。研究表明，视频、对话和常识性知识对于此挑战任务很有用，并且与 VLEP 上高人类表现相比，我们的模型提供了一个良好的起点，但仍有大量的改进空间。

Oct, 2020

教授模型用语言表达不确定性

本文证明了 GPT-3 模型可以学习在自然语言中表达关于自己答案的不确定性，并且能够在分布转移下保持中度校准，同时提供了证据表明 GPT-3 的校准能力依赖于与其答案的认识不确定性相关的预训练潜在表示。

May, 2022

自然语言处理模型真的能够解决简单的数学问题吗？

该研究分析了现有的 NLP 求解器在解决低年级英语数学问题时的表现，指出现有求解器主要依赖于表面浅显的启发式策略。同时，研究提出了一个挑战数据集 SVAMP，并证明当前最优模型的表现还有很大的提升空间。

Mar, 2021

神经语言模型的结构弱点：被盗概率

本文研究了神经网络语言模型的内部偏差，并证明了嵌入空间中的概率上限与其凸壳边界上的单词相关。

May, 2020