MiQA: 多义问题推理基准
该研究使用多语言数据集探索预训练语言模型中所编码的隐喻性信息,结果显示这些模型的中间层主要包含了隐喻性知识,并且该知识在多语言和多数据集中具有泛化性。
Mar, 2022
基于强大的大型语言模型(LLMs),最近的生成式多模态大型语言模型(MLLMs)作为一个关键的研究领域备受关注,展示了出色的理解和生成能力。本研究通过引入一个名为SEED-Bench的基准测试,解决了MLLMs生成理解的评估问题,该基准测试包含19K个准确的多项选择问题(是现有基准测试的6倍大),涵盖了12个评估维度,包括图像和视频模态的理解。我们开发了一个高级流程用于生成以特定评估维度为目标的多项选择问题,该流程整合了自动过滤和人工验证过程。由人类注释导出的带有真实选项的多项选择问题可以客观且高效地评估模型性能,在评估过程中无需人类或GPT的干预。我们进一步评估了18个模型在所有12个维度上的性能,涵盖了空间和时间的理解。通过评估结果揭示现有MLLMs的局限性,我们希望SEED-Bench为激发未来的研究提供见解。我们将建立并持续维护一个排行榜,为社区提供评估和研究模型能力的平台。
Jul, 2023
通过研究问答模型对比喻文本的鲁棒性,本研究提出了一个包含1000个问答问题的数据集 FigurativeQA,展示了当回答含有比喻语境的问题时,基于BERT的问答模型相较于非比喻语境会出现性能下降的现象,同时进一步将比喻语境简化为非比喻语境有助于提高模型性能,研究发现基于链式思维提示的ChatGPT是最优模型,可以构建具有比喻语言理解能力的更鲁棒的问答模型。
Sep, 2023
我们提出了WorldSense,这是一个用于评估LLMs在从简单实体排列的描述中进行简单推理时所能维持的隐式世界模型的程度的基准测试。我们在三个最先进的聊天LLMs(GPT3.5,GPT4和Llama2-chat)上运行我们的基准测试,并显示这些模型在只有三个对象时也会出错。此外,它们具有相当大的响应偏差,无论问题如何,它们都更喜欢特定的响应。错误甚至在思维链提示和上下文学习中仍然存在。最后,我们展示了虽然在类似问题上进行微调确实带来了可观的改进——在内部和超出分布范围内——但是微调的模型并没有超越约束问题空间的普适性。
Nov, 2023
我们提出了 SEED-Bench-2,这是一个综合评估多模态大型语言模型能力的基准测试,并通过对23个主要开源多模态大型语言模型的性能评估,揭示了现有模型的局限性。
Nov, 2023
该研究通过比较人类和大型语言模型(LLMs)之间的推理判断的共性和差异,以及对三个类别(NLI、contextual QA和rationales)的多个数据集进行评估,揭示了LLMs在复杂推理环境中的多步推理上的优势和人类在简单推理方面的优势,并引入了一种经过精细调整的Flan-T5模型来提高自洽性,在三个多项选择问答数据集上平均提高了6%的性能。
Feb, 2024
在这篇论文中,作者提出了一种新方法Quiet-STaR,通过使语言模型能够生成每个标记的理由来解释未来的文本,以改进其预测能力,并在不需要对这些任务进行微调的情况下,在多个基准测试中取得了显著的改进。
Mar, 2024
通过知识蒸馏和提示学习,我们设立了一种为隐喻检测任务设计的提示学习模板,使得模型能够准确推断目标词的上下文含义,并使用先验知识的教师模型生成有意义的软标签,从而使得模型能够更好地应对数据稀疏性和过度自信的问题,并在多个数据集上取得了最新的实验结果。
Mar, 2024
我们提出了一个新的概念化框架,迫使模型在抽象问题上进行概念推理并在可验证的符号空间中生成解决方案,使用这个框架作为分析工具,我们发现现有的大型语言模型在概念推理方面存在不足,并通过引入可信的归纳信号来改善模型的概念推理性能,实验证明我们提出的技术使模型的概念推理性能提高了8%至11%,实现了一个更强大的推理系统,更少地依赖归纳偏见。
Mar, 2024