上下文对齐：在微调之前与简单语言模型聊天

Aug, 2023

上下文对齐：在微调之前与简单语言模型聊天

In-Context Alignment: Chat with Vanilla Language Models Before Fine-Tuning

Xiaochuang Han

TL;DRVanilla pretrained language model achieves improved alignment through in-context learning without changing model weights, resulting in comparable performance to strong baselines with alignment fine-tuning.

Abstract

In this note, we explore inference-time alignment through in-context learning. We consider a vanilla pretrained language model Llama-2 before any fine-tuning and retrieve an average of 9 →

inference-time alignment in-context learning pretrained language model demonstration alignment model weights

发现论文，激发创造

通过微调和上下文学习引导大型语言模型进行机器翻译

通过使用适配器进行微调，我们可以改善大型语言模型在机器翻译方面的性能，并减少训练参数量，同时保持微调模式的效果，解决了少样本学习和过度生成的问题。

Oct, 2023

大型语言模型程序

通过使用嵌入式算法来扩展预训练语言模型的能力，作者提出了一种证据支持的问答方法来展示这种方法的优势，相比于传统的 fine-tuning 方法，该方法获得了 6.4％的改进。

May, 2023

有监督的知识提升大语言模型在上下文学习中的表现

通过提示工程，大型语言模型（LLMs）展示了在上下文学习中的新兴能力。最近在大规模生成模型方面的进展进一步扩展了它们在实际语言应用中的使用。然而，在自然语言理解和问题回答方面，提高 LLMs 的泛化能力和准确性的关键挑战仍未得到充分探索。

Dec, 2023

通过合成反馈对齐大型语言模型

本研究提出了一个新的框架，利用奖励建模 (RM) 方法和模拟高质量演示来进行对齐语言模型的训练，避免了对已对齐的 LLMs 的依赖，这种方法的结果是，我们的模型 ALMoST 在对 InstructGPT 或人工注释指令训练的开放源代码模型中表现良好，我们的 7B 大小的模型在使用 GPT-4 作为评判员的 A /B 测试中表现优异，平均获胜率约为 75％。

May, 2023

LIMA: 对齐更少即更好

通过 LIMA 的实验，本研究发现几乎所有大型语言模型的知识都是在预训练阶段中学习的，只需要有限的指导训练数据就足以教导模型产生高质量的输出。

May, 2023

使用大型语言模型评估聊天的三种方法

本文通过三种不同的方法，基于大型语言模型（LLMs）对于 ChatGPT 响应的逐轮质量进行预测，并使用动态少量样本来改善基准，并分析了其他两种方法的性能并提出未来研究的改进。研究表明，Llama 2 模型正在缩小 ChatGPT 和开源 LLMs 之间的性能差距，但发现 Llama 2 模型不能像 ChatGPT 那样从少量样本中受益。

Aug, 2023

OpenAssistant Conversations -- 大型语言模型对齐的民主化

研究大规模语言模型的发布与使用，利用调整技术进行优化以改善使用性，此文介绍 OpenAssistant Conversations 数据库的发布，使用该人类生成的、人类注释的数据集进行训练后得到了全新的软件 OpenAssistant。相对于 ChatGPT，OpenAssistant 的答复被用户更青睐，其发布的代码和数据完全遵循宽松许可证，可供研究者使用。

Apr, 2023

基于语言模型上下文调整的元学习

通过将调整和预测转化为简单的序列预测问题，我们提出了 'in-context tuning' 方式来解决 NLP 中的元学习问题，并在两个文本分类任务组合上对其进行了基准测试。在所有模型尺寸上，相对于梯度下降调整模型的一阶 MAML，我们的方法更好地利用了 LM 的归纳偏差，在 BinaryClfs 上绝对 AUC ROC 评分提高了 6％。与不调优的 'in-context learning' 相比较，'in-context tuning' 直接通过元训练从 'in-context' 中学习。在 BinaryClfs 上，'in-context tuning' 将平均 AUC-ROC 分数提高了 10％，并且减少了关于示例顺序的方差 6 倍，示例选择 2 倍。

Oct, 2021

大型语言模型隐含主题模型：解释和寻找上下文学习的良好示范

本文从贝叶斯的角度出发，将大型语言模型视作主题模型，提出了一种从标注数据中选择最佳示范的算法，并在实际数据集中证明相对于随机选择基线，平均有 12.5% 的显著改进。研究表明，大型语言模型从示范中隐式地推断出潜在的概念变量。

Jan, 2023

HuixiangDou-CR：群聊中的共指消解

如何消除群聊中的代词引用？本文通过预处理 58k 条真实聊天数据并手动标注 2.3k 个问题，验证了该标注的可靠性；然后对从 0.5B 到 32B 参数范围内的 Qwen 模型进行微调，最佳版本 F1 得分提高了 29.07，确认了利用大型语言模型（LLM）进行下游自然语言处理（NLP）任务的可行性；我们的贡献是：1) 创建了以 alpaca 格式的有监督微调 (SFT) 训练数据，包括一组低秩适应 (LoRA) 权重；2) 开发了一种基于缩放定律原理获取高质量数据的方法；脚本、以 alpaca 格式的原始数据和实验跟踪已在 Github、HuggingFace 和 WandB 上开源；数据隐私经用户授权。

May, 2024