探究神经语言模型对高概率词汇理解的能力
用统计的方法对 GPT-4 等大型语言模型进行估测不确定性的研究发现,虽然 GPT-4 在一些英文词组中与人类的估测结果接近,但在涉及到性别角色和中文语境时存在差异,证明人类与大型语言模型的估测结果尚有较大难以弥合的差距。
May, 2024
本文介绍了基于贝叶斯层级模型的方法,应用于神经和行为数据分析,特别是应用于事件相关电位 (ERP),并通过一个以单词惊奇值和神经响应为例的实验数据进行了模拟和解释。
Jul, 2022
英语演讲者使用概率短语例如 'likely' 来传达关于事件概率或可能性的信息。人类参与者和 GPT4 模型在评估概率和模糊性方面具有较高的一致性,但在模糊性方面存在较大差异。
Oct, 2023
通过填空式洞察问题查询语言模型,以评估其获取的语言知识类型。现有的洞察数据集主要关注单词与实体之间的关系。本文提出 WDLMPro 直接使用单词的字典定义来评估单词的理解,并发现三种受欢迎的预训练语言模型难以匹配单词及其定义,这表明它们对许多单词的理解存在缺陷,新的洞察任务是一个具有挑战性的问题,可以帮助未来的 LMs 研究。
Feb, 2021
本文提出了一种用于检索类似数学单词问题(MWP)的混合方法,该方法参考将同样的操作序列用于解题,通过与语义相似性方法相比,展示了更好的效果。
Jul, 2023
本文提供名为 VLEP 的视频和语言事件预测数据集,并探讨 AI 模型是否能够学习进行这样的多模态常识性下一个事件预测。研究表明,视频、对话和常识性知识对于此挑战任务很有用,并且与 VLEP 上高人类表现相比,我们的模型提供了一个良好的起点,但仍有大量的改进空间。
Oct, 2020
本文证明了 GPT-3 模型可以学习在自然语言中表达关于自己答案的不确定性,并且能够在分布转移下保持中度校准,同时提供了证据表明 GPT-3 的校准能力依赖于与其答案的认识不确定性相关的预训练潜在表示。
May, 2022
该研究分析了现有的 NLP 求解器在解决低年级英语数学问题时的表现,指出现有求解器主要依赖于表面浅显的启发式策略。同时,研究提出了一个挑战数据集 SVAMP,并证明当前最优模型的表现还有很大的提升空间。
Mar, 2021