在指令调优过程中的零样本泛化：相似性和粒度的见解

Jun, 2024

在指令调优过程中的零样本泛化：相似性和粒度的见解

Zero-Shot Generalization during Instruction Tuning: Insights from Similarity and Granularity

Bingxiang He, Ning Ding, Cheng Qian, Jia Deng, Ganqu Cui...

TL;DR使用多种度量标准首次证明了指导调整过程中的零样本泛化是一个基于相似性的从训练数据到测试数据的在实例级别上的推理表现，我们的分析有助于推动对指导调整过程中零样本泛化的理解，并为更加对齐的 LLMs 的发展做出贡献。

Abstract

Understanding alignment techniques begins with comprehending zero-shot generalization brought by instruction tuning, but little of the mechanism has been understood. Existing work has largely been confined to the

alignment techniques zero-shot generalization instruction tuning data similarity continual learning

发现论文，激发创造

跨语言零射击泛化在指令调整中的深度探索

通过跨语言调整指令和数据获取方法，研究表明对未知任务的指令调优在英文和韩文方面都取得了显著的改善效果，与单语指令调优相当甚至有些任务超过，强调了在指令调优过程中通过跨语言数据获取的相关性和语言一致性的重要性。

Jun, 2024

精调语言模型是零 - shot 学习器

通过对自然语言指令模板中的 60 个自然语言处理任务进行调整，我们将一个 137B 预训练语言模型调整为 FLAN 并在未看见的任务数据上进行评估，结果表明，通过指令调整，可以大大改善它在未看见任务上的性能并在 20 个任务上超越了 175B GPT-3 的零样本性能。

Sep, 2021

模型是否真的学会遵循指令？一项关于指令调整的经验研究

本文分析了模型在指令调优过程中如何利用指令，并对比了模型在不同指令下的表现。结果显示，指令调优的表现提升可以来自学习表面模式，例如识别输出格式和猜测。因此，本研究提出了迫切需要更加可靠的指令调优方法和评估。

May, 2023

大型语言模型的指令调优中的零 - shot 跨语言转移

在多语种环境下，我们对指令调优进行了系统研究，发现跨语言转移成功的关键在于超参数调整和足够的训练数据，虽然英文训练的大型语言模型能够生成其他语言的正确、全面和有帮助的回答，但其可信度较低且可能偶尔出现流畅性错误。

Feb, 2024

零样本神经机器翻译中一致性的达成

通过将多语言翻译问题重新构造为概率推理，定义了零 - shot 一致性的概念；引入了一种基于一致性约束的训练方法，鼓励模型在辅助语言中生成等效的平行句子翻译，最终我们测试了多种公共的零 - shot 翻译基准数据集，并证明基于一致性约束训练的 NMT 模型通常会在无监督翻译任务上取得 2-3 BLEU 的提高，而在监督翻译任务上的性能不会降低。

Apr, 2019

评估语言模型的零样本鲁棒性

本研究提出了一种简单的方法来提高指导微调模型的鲁棒性，即通过引入 “软提示” 嵌入参数并优化这些参数来最大化语义等效说明的表示之间的相似性。

Jun, 2023

指令调整能提高 LLMs 的一致性吗？

说明指令调整对模型的一致性有积极影响，提高了零样本性能、思维连贯性和价值对齐，并通过对事实记忆的机制分析解释了这些改进。

Apr, 2024

远程学习：重新思考有限监督下的广义零样本学习

本文提出了基于产品专家公式和 A UD 模块的零样本和少量样本归纳学习框架，利用来自非数据类的未标记采样来提高任意数量学习的泛化能力，并证明了该模型适用于有限监督场景下的广义零样本模型。

Jul, 2021

对比教学调节

指令调优是一种改善大型语言模型对未知任务性能的有前途的方法。然而，当前的大型语言模型在面对未知指令时表现出有限的稳健性，当相同的指令以稍微变形或语言风格变化的形式表达时会生成不一致的输出。这种行为表明大型语言模型对文本变化的稳健性和对未见指令的泛化能力存在缺陷，可能引发不可靠性问题。基于此，我们提出了对比指令调优，该方法通过最大化语义上等效的指令实例对的隐藏表示之间的相似性，最小化不同语义的实例对之间的相似性。为了促进这一方法，我们通过改写任务指令来扩充现有的 FLAN 集合。在 PromptBench 基准测试上的实验证明，对比指令调优（CoIN）能够使大型语言模型在字符、词、句子和语义级别上对未知指令的稳健性得到持续提升，平均准确率提高了 2.5%。

Feb, 2024

指导事项对于特定任务的指导调优中的简单而有效的任务选择方法

指导调优通过仅利用指导信息来识别相关任务，并另外学习元数据集的独特指导模板风格，提高任务选择准确性，从而改进了性能。

Apr, 2024