MiQA: 多义问题推理基准

Oct, 2022

MiQA: A Benchmark for Inference on Metaphorical Questions

Iulia-Maria Comsa, Julian Martin Eisenschlos, Srini Narayanan

TL;DR本研究提出了一个基准来评估大型语言模型处理传统比喻的能力，并结合比喻检测和常识推理的先前孤立主题，要求模型在准确选择字面或隐喻文本之间作出推论。我们考察了最先进的预训练模型在二元选择任务中的表现，并发现小型和非常大型模型性能之间存在巨大差异，从机会之差到接近人类水平。我们还在生成模型的设置中分析了最大的模型，发现虽然接近人类性能，但需要仔细的多次提示。

Abstract

We propose a benchmark to assess the capability of large language models to reason with conventional metaphors. Our benchmark combines the previously isolated topics of metaphor detection and →

发现论文，激发创造

预训练语言模型中的隐喻：跨数据集和语言的探测和普适性研究

该研究使用多语言数据集探索预训练语言模型中所编码的隐喻性信息，结果显示这些模型的中间层主要包含了隐喻性知识，并且该知识在多语言和多数据集中具有泛化性。

Mar, 2022

基于心理学的思路链引导大型语言模型理解隐喻

本文使用思维导向提示将概率模型结构引入了大型语言模型的上下文学习中，以推断潜在变量并选择合适的隐喻释义，从而改进了模型的模仿能力。

Sep, 2022

SEED-Bench: 用生成理解评估多模态LLMs的基准

基于强大的大型语言模型（LLMs），最近的生成式多模态大型语言模型（MLLMs）作为一个关键的研究领域备受关注，展示了出色的理解和生成能力。本研究通过引入一个名为SEED-Bench的基准测试，解决了MLLMs生成理解的评估问题，该基准测试包含19K个准确的多项选择问题（是现有基准测试的6倍大），涵盖了12个评估维度，包括图像和视频模态的理解。我们开发了一个高级流程用于生成以特定评估维度为目标的多项选择问题，该流程整合了自动过滤和人工验证过程。由人类注释导出的带有真实选项的多项选择问题可以客观且高效地评估模型性能，在评估过程中无需人类或GPT的干预。我们进一步评估了18个模型在所有12个维度上的性能，涵盖了空间和时间的理解。通过评估结果揭示现有MLLMs的局限性，我们希望SEED-Bench为激发未来的研究提供见解。我们将建立并持续维护一个排行榜，为社区提供评估和研究模型能力的平台。

Jul, 2023

来自比喻背景的是最令人堕落的蛋糕好吃吗？回答是/否问题

通过研究问答模型对比喻文本的鲁棒性，本研究提出了一个包含1000个问答问题的数据集 FigurativeQA，展示了当回答含有比喻语境的问题时，基于BERT的问答模型相较于非比喻语境会出现性能下降的现象，同时进一步将比喻语境简化为非比喻语境有助于提高模型性能，研究发现基于链式思维提示的ChatGPT是最优模型，可以构建具有比喻语言理解能力的更鲁棒的问答模型。

Sep, 2023

WorldSense：大型语言模型中基于实例推理的合成基准测试

我们提出了WorldSense，这是一个用于评估LLMs在从简单实体排列的描述中进行简单推理时所能维持的隐式世界模型的程度的基准测试。我们在三个最先进的聊天LLMs（GPT3.5，GPT4和Llama2-chat）上运行我们的基准测试，并显示这些模型在只有三个对象时也会出错。此外，它们具有相当大的响应偏差，无论问题如何，它们都更喜欢特定的响应。错误甚至在思维链提示和上下文学习中仍然存在。最后，我们展示了虽然在类似问题上进行微调确实带来了可观的改进——在内部和超出分布范围内——但是微调的模型并没有超越约束问题空间的普适性。

Nov, 2023

SEED-Bench-2：多模态大型语言模型基准测试

我们提出了 SEED-Bench-2，这是一个综合评估多模态大型语言模型能力的基准测试，并通过对23个主要开源多模态大型语言模型的性能评估，揭示了现有模型的局限性。

Nov, 2023

人与机：重新思考自然语言模型的蕴涵验证

该研究通过比较人类和大型语言模型（LLMs）之间的推理判断的共性和差异，以及对三个类别（NLI、contextual QA和rationales）的多个数据集进行评估，揭示了LLMs在复杂推理环境中的多步推理上的优势和人类在简单推理方面的优势，并引入了一种经过精细调整的Flan-T5模型来提高自洽性，在三个多项选择问答数据集上平均提高了6%的性能。

Feb, 2024

Quiet-STaR: 语言模型能够自我教导在言语之前思考

在这篇论文中，作者提出了一种新方法Quiet-STaR，通过使语言模型能够生成每个标记的理由来解释未来的文本，以改进其预测能力，并在不需要对这些任务进行微调的情况下，在多个基准测试中取得了显著的改进。

Mar, 2024

MD-PK:通過提示學習和知識蒸餾進行隱喻檢測

通过知识蒸馏和提示学习，我们设立了一种为隐喻检测任务设计的提示学习模板，使得模型能够准确推断目标词的上下文含义，并使用先验知识的教师模型生成有意义的软标签，从而使得模型能够更好地应对数据稀疏性和过度自信的问题，并在多个数据集上取得了最新的实验结果。

Mar, 2024

语言模型中的概念和公正推理

我们提出了一个新的概念化框架，迫使模型在抽象问题上进行概念推理并在可验证的符号空间中生成解决方案，使用这个框架作为分析工具，我们发现现有的大型语言模型在概念推理方面存在不足，并通过引入可信的归纳信号来改善模型的概念推理性能，实验证明我们提出的技术使模型的概念推理性能提高了8%至11%，实现了一个更强大的推理系统，更少地依赖归纳偏见。

Mar, 2024