引导 LLM 自欺：自动操纵机器阅读理解快捷触发器

EMNLPOct, 2023

引导 LLM 自欺：自动操纵机器阅读理解快捷触发器

Guiding LLM to Fool Itself: Automatically Manipulating Machine Reading Comprehension Shortcut Triggers

Mosh Levy, Shauli Ravfogel, Yoav Goldberg

TL;DR近期应用于机器阅读理解（MRC）系统的 LLMs 显示出了令人印象深刻的结果，但使用的快捷方式，即特征与真实标签表面相关的机制，已成为其可靠性的潜在威胁。我们从两个角度分析了问题：LLMs 作为编辑器，被引导编辑文本以误导 LLMs；LLMs 作为读者，根据编辑后的文本回答问题。我们引入了一个框架，指导编辑器在样本中添加可能的快捷方式触发器。使用 GPT4 作为编辑器，我们发现它能够成功编辑样本中欺骗 LLMs 的快捷方式触发器。分析 LLMs 作为读者，我们观察到即使是能力强大的 LLMs 也可以被快捷方式知识欺骗。令人惊讶的是，我们发现 GPT4 甚至被自己的编辑欺骗（F1 下降了 15%）。我们的发现凸显了 LLMs 对于快捷方式操作的固有脆弱性。我们发布了 ShortcutQA，这是一个由我们的框架生成的精选数据集，用于未来研究。

Abstract

Recent applications of llms in machine reading comprehension (MRC) systems have shown impressive results, but the use of shortcuts, mechan

llms machine reading comprehension shortcuts editor shortcutqa

发现论文，激发创造

机器阅读理解中推理捷径的测量与缓解调查

本综述论文探讨了自然语言处理中普遍存在的快捷学习问题，侧重于机器阅读理解领域，总结了已有的快捷学习测量和减轻方法，并提出了缺乏公共挑战集合和其他领域突出的快捷学习方法对 MRC 的两个主要关注点。

Sep, 2022

机器阅读理解模型为何学习捷径？

本文研究了机器阅读理解 (MRC) 模型的学习过程，发现在训练数据中存在大量的提供快捷解决方案的问题，并且 MRC 模型倾向于优先学习快捷问题，而后期训练中高比例的快捷问题会阻碍模型深入探索复杂的推理技能。

Jun, 2021

LLMs 能评分短答阅读理解题：适用于低收入国家的基础识字能力评估

利用生成型大型语言模型（即 GPT-4）有望可靠地评估短答阅读理解问题，并通过使用新的数据集和自动评分过程提供了改进基础扫盲教育的可能性。

Oct, 2023

LLM 能增强低资源阅读理解数据集吗？机遇和挑战

本文探讨了使用 GPT-4 作为人工标注的替代品来提供低资源阅读理解任务的性能，通过精细调节后的性能和标注成本的对比，这是对 LLMs 作为合成数据增广器用于 QA 系统的第一次分析，强调了这一独特的机遇和挑战，并提供了低资源数据集的增广版本，为生成数据集的评估提供了进一步的基准。

Sep, 2023

学习快速捷径：关于语言模型中自然语言理解的误导承诺

大型语言模型在自然语言处理领域取得了重要的性能提升，然而近期的研究发现，这些模型在执行任务时往往使用了捷径，导致性能看起来得到了提升，却缺乏泛化能力。这一现象给大型语言模型的自然语言理解评估带来了挑战。本文对该领域的相关研究进行了简明调查，并提出了对于捷径学习在语言模型评估中的影响的观点，特别是对于 NLU 任务。本文呼吁加大对捷径学习的研究力度，促进更加强大的语言模型的开发，并提高在实际场景中的 NLU 评估标准。

Jan, 2024

了解 LLMs 不知道的内容：一种简单有效的自我检测方法

提出了一种新颖的自我检测方法，通过扩展问题的文本表达并收集相应的答案，检测大型语言模型（LLMs）是否会产生虚假回答，证明了该方法在 LLM 效果上的有效性。

Oct, 2023

大型语言模型是否能胜任？一项实证研究评估 LLM 评分 K-12 教育中的简答题能力

这篇论文讨论了使用大型语言模型（LLMs）对开放文本短答案问题进行评分的实验，研究了不同组合的 GPT 版本和提示工程策略在标记真实学生答案时的性能表现，并发现 GPT-4 在这方面表现良好与人类级别接近。这一研究对于支持 K-12 教育中的低风险形成性评估任务具有重要意义。

May, 2024

GPT 能否重新定义医学认识？对生物医学机器阅读理解中的 GPT 进行评估

我们评估了 GPT 在四个封闭式生物医学机器阅读理解基准测试上的表现，提出了一种名为 Implicit Retrieval Augmented Generation（IRAG）的提示策略，该策略通过减少传统 RAG 设置中使用向量数据库检索重要部分的需求来解决 LLM 所固有的检索问题，并通过定性评估展示了该方法的自然语言生成输出。实验结果表明，我们的新提示技术在四个数据集中有两个取得了最佳效果，并在其余两个中排名第二。实验还表明，像 GPT 这样的现代 LLM，即使在零 - shot 设置中，也能胜过监督模型，从而在两个基准测试中取得了最新技术水平的成果。

May, 2024

使用 LLMs 生成具有不同可读性水平的教育材料

本研究介绍了分级文本生成任务，旨在将教育材料重写为特定可读性水平同时保持意义不变。通过零 - shot 和少量样本提示，我们评估了 GPT-3.5、LLaMA-2 70B 和 Mixtral 8x7B 在不同可读性水平上生成内容的能力。对 100 份处理过的教育材料进行评估，结果显示少量样本提示显著提高了可读性操作和信息保留的性能。LLaMA-2 70B 在实现所需难度范围方面表现更好，而 GPT-3.5 保持了原始意义。然而，手动检查还揭示出了诸如引入错误信息和不一致的编辑分布等问题。这些发现强调了进一步研究以确保生成的教育内容的质量的需求。

Jun, 2024

检测在计算机教育中生成的 LLM 文本：一个 ChatGPT 案例的比较研究

本文评估了 8 个公开可用的大型语言模型生成文本检测器的准确性，假阳性和弹性，并发现 CopyLeaks 是最准确的大型语言模型生成文本检测器，GPTKit 是减少假阳性的最佳大型语言模型生成文本检测器，而 GLTR 是最弹性的大型语言模型生成文本检测器。

Jul, 2023