利用大型语言模型的自我批判提示用于归纳教学

May, 2023

利用大型语言模型的自我批判提示用于归纳教学

Self-Critique Prompting with Large Language Models for Inductive Instructions

Rui Wang, Hongru Wang, Fei Mi, Yi Chen, Ruifeng Xu...

TL;DR本文提出了一种名为 INDust（Inductive Instructions）的挑战基准来评估大型语言模型（LLMs）是否能够抵抗用户提供的带误导性的指令，并提出了一种名为 Self-Critique prompting 的方法来防范 LLMs 误导用户。实验证明该方法在零样本和小样本环境下都能有效提升 LLMs 的对归纳指令的处理能力。

Abstract

Numerous works are proposed to improve or evaluate the capabilities of Large language models (LLMs) to fulfill user instructions. However, they neglect the possibility that user inputs may inherently contain incorrect information due to users' false beliefs or malicious intents. In thi

large language models inductive instructions self-critique prompting deception user inputs

发现论文，激发创造

你真的跟随我吗？评估大型语言模型的稳健性的对抗性指令

通过实验，我们揭示了先进的指令跟踪模型在抵御对抗性指令攻击方面的显著局限性，并且发现了指令调优模型容易过拟合于输入的指令短语而无法真正理解应该遵循哪些指令的问题。这突出了训练模型理解提示而非仅仅遵循指令短语并完成文本的挑战。

Aug, 2023

RefuteBench：评估大型语言模型的反驳指令跟随

该研究论文介绍了大型语言模型在接受用户反馈方面的问题，并提出了一个包括问答、机器翻译和电子邮件写作等任务的综合评估基准 RefuteBench。研究发现，大型语言模型倾向于自身内部知识，并且在对话过程中逐渐遗忘用户的反馈，而回归到自己的回复，通过召回和重复提示的方式可以提高模型响应用户反馈的能力。

Feb, 2024

LLM 的以指令为中心的回应有多 (不) 道德？揭示安全保护措施在有害查询中的脆弱性

在本研究中，我们探讨了大型语言模型（LLMs）在安全性和道德用途方面的一个日益关注的问题。尽管这些模型有潜力，但它们可能被各种复杂的方法欺骗，产生有害或不道德的内容，其中包括 “越狱” 技术和有针对性的操纵。我们的研究集中在一个特定的问题上，即 LLMs 在生成以指令为中心的响应（如伪代码、程序或软件片段）与普通文本相比，会出现多大程度的偏差。我们引入了 TechHazardQA 数据集来研究这个问题，该数据集包含应以文本和以指令为中心的格式（如伪代码）作答的复杂查询，旨在识别出导致不道德响应的触发器。我们查询了一系列 LLMs，包括 Llama-2-13b、Llama-2-7b、Mistral-V2 和 Mistral 8X7B，并要求它们生成文本和以指令为中心的响应。我们以有害性评分指标以及 GPT-4 和人类的判断作为评估。总体而言，我们观察到要求 LLMs 生成以指令为中心的响应会在各个模型中使不道德响应的生成增加约 2-38%。作为额外的目标，我们还研究了使用 ROME 技术进行模型编辑的影响，这进一步增加了产生不良内容的倾向。具体而言，要求编辑后的 LLMs 生成以指令为中心的响应会在不同模型之间使不道德响应的生成增加约 3-16%。

Feb, 2024

CRITIC：大型语言模型可通过工具交互式批评进行自我修正

该论文介绍了一种称为 CRITIC 的框架，旨在通过外部反馈来提高大型语言模型的性能和自我完善能力，具体包括对问题回答、代码合成和削减有害内容等方面的基准测试，而这种框架的作用类似于人类交互工具的方式。

May, 2023

利用 LLM 中的提示克服复杂教育文本数据中的不平衡

本文研究了如何利用具有断言的大型语言模型（LLMs）来缓解教育数据集中的不平衡问题，结果显示，与传统的机器学习（ML）模型相比，具有断言的 LLMs 在认知参与水平上明显优于传统模型，并且针对特定子集的敏感性研究表明，将断言加入到 LLM 中可提高其性能约 11.94%。

Apr, 2024

INDICT：安全性和实用性的内部对话生成代码

LLMs 被用于 align with 自然语言指令以满足使用者的意图和要求，但在实践中，LLMs 在安全与效用之间的微妙平衡变得愈发具有挑战性。为此，本研究提出了 INDICT 框架，通过内部对话协同系统为 LLMs 提供安全和有益的指导，其中包括安全导向评论家和有益性导向评论家的对话分析。在 8 个不同任务、8 种编程语言和 5 个基准测试上评估了 INDICT，使用了参数为 7B 至 70B 的 LLMs，并观察到我们的方法在安全和有益性分析方面提供了高水平的批评，显著提高了输出代码的质量（所有模型中绝对改进率为 10%）。

Jun, 2024

自动生成和排序黑盒语言模型的自动指导

LLMs 可以通过遵循自然语言指令来完成各种任务，但是指令的质量会对 LLMs 的性能产生极大影响。本文提出了 Auto-Instruct 方法，通过生成多样化的候选指令并使用基于训练过的 575 个 NLP 任务的评分模型进行排序，自动提高 LLMs 的指令质量。在 118 个领域外任务的实验证明，Auto-Instruct 超越了人工编写的指令和现有 LLM 生成的指令的基线。此外，我们的方法还具有显著的泛化能力，即使对于没有被纳入其训练过程的其他 LLMs 也同样有效。

Oct, 2023

在教育和评估应用中探索提示式大型语言模型的能力

利用大语言模型在现代教育领域创新的机会，通过研究提问型大语言模型、语法错误解释和人力资源面试评估，揭示了大语言模型在改变教育实践中的潜力和限制。

May, 2024

指令归纳：从少量样本到自然语言任务描述

该研究论文证明使用 in-context learning 可让大型语言模型显式推断潜在任务，通过自然语言生成指令，InstructGPT 的表现达到了人类的 65.7％，建议指令感应可能是一种学习范例。

May, 2022

Ada-Instruct: 为复杂推理调整指令生成器

通过对开源 LLMs 进行微调，我们引入了 Ada-Instruct，一种自适应指令生成器。我们的结果表明，通过仅使用十个样本对开源 LLMs 进行微调，可以生成分布一致的长指令，用于复杂的推理任务。我们在不同的应用中进行了实证验证，包括代码补全、数学推理和常识推理，结果显示 Ada-Instruct 相对于基本模型、当前自我指导方法和其他最先进模型具有优势。

Oct, 2023