BabyStories: 强化学习能否教会婴儿语言模型写更好的故事？

Oct, 2023

BabyStories: 强化学习能否教会婴儿语言模型写更好的故事？

BabyStories: Can Reinforcement Learning Teach Baby Language Models to Write Better Stories?

Xingmeng Zhao, Tongnian Wang, Sheri Osborn, Anthony Rios

TL;DR本研究探讨了基于有限训练数据预训练的语言模型中，通过人类反馈进行强化学习的影响，研究结果表明，对于较大的模型，在进行强化学习后，在叙事任务中表现更好。这些发现强调了有限数据条件下对语言模型进行强化学习微调的潜在益处，提高其在维持叙事焦点和连贯性方面的能力，并更好地遵循初始指令。

Abstract

language models have seen significant growth in the size of their corpus, leading to notable performance improvements. Yet, there has been limited progress in developing models that handle smaller, more human-like datasets. As part of the BabyLM shared task, this study explores the imp

language models reinforcement learning human feedback gpt-2 fine-tuning

发现论文，激发创造

通过自然语言以人工反馈聚合大规模语言模型数据对齐

通过模型中人类反馈的学习，改进大型语言模型（LLMs）的输出与人类期望的一致性，利用人类反馈信号中以响应对的排名形式的强化学习，研究使用自然语言反馈模型的数据效率，通过对 ChatGPT、BARD 和 Vicuna 等模型的反馈逐渐改进，提高了模型的响应质量。

Nov, 2023

个性化人类反馈的个性化语言建模

发展个性化语言模型的方法，结合用户模型和语言（或奖励）模型的学习目标，对个性化语言模型进行强化学习，以更好地满足用户偏好。

Feb, 2024

从人类偏好中微调语言模型

本文介绍了如何利用奖励学习将强化学习应用于自然语言任务中，旨在建立适用于现实世界任务的奖励模型。我们将奖励学习应用于四个自然语言任务（文本连续生成、摘要），取得了不错的结果，但模型可能会利用人类评估者的简单启发式规则。

Sep, 2019

利用人类反馈进行强化学习训练有益且无害的助手

应用偏好建模和强化学习的方法将语言模型优化为有帮助和无害的助手，对几乎所有的自然语言处理评估表现都有提高，与训练针对特定技能（如 Python 编程和摘要）的方法相容。通过迭代在线模式的训练，每周使用新的人类反馈数据更新偏好模型和强化学习策略，有效改进了数据集和模型。同时，研究了强化学习从人类反馈中学习的鲁棒性和重要性，提出了奖励和策略之间的 KL 散度平方根的近似线性关系。除此之外，对校准、竞争目标和 OOD 检测的使用进行了边缘分析，并将模型与人类作家进行了比较，并提供了使用最新相关工作中出现的提示的模型样本。

Apr, 2022

细粒度人类反馈为语言模型训练提供更好的奖励

本文介绍了 Fine-Grained RLHF 框架，可以对包含一定程度错误或无效信息的长文本提供细化的人类反馈进行训练，并实验表明使用该框架能够改善语言模型生成过程中生成虚假、有毒、无关的输出等问题。

Jun, 2023

回顾智慧让语言模型成为更好的指令跟随者

本文提出一种基于回顾性指令重新标注的新算法 HIR，通过训练模型使其与指令更好地对齐，以解决语言模型中指令对齐的问题，并从 12 个挑战性的 BigBench 推理任务中的表现证明 HIR 优于基线算法，并且即使超过了有监督微调。

Feb, 2023

使用生成对抗反馈来微调语言模型

研究探讨了使用生成对抗反馈的强化学习（RLGAF）方法，以弥补人类评估者的专业知识和生产力限制并帮助对齐大型语言模型（LLMs）的输出，从而为进一步实现 AI 对准提供了前景。

May, 2023

通过对比强化学习实现故事讲述的鲁棒性偏好学习

使用对抗式生成模型和强化学习算法，本论文提出了一种新型的人工智能故事生成系统，能够根据人类喜好和偏好生成自然语言故事。

Oct, 2022

通过自然语言反馈在目标条件下强化学习中的利用

通过使用自动生成的语言反馈以及改进的决策变压器架构，在强化学习中引入更丰富、更贴近人类反馈的方式可以改善智能体的泛化性能。

Dec, 2023

目标导向的故事生成：用强化学习增强生成式语言模型

本文介绍了两种自动化技术，基于深度强化学习和奖励塑造来控制计算机生成的故事的情节，其中一种利用 PPO 对现有的基于变压器的语言模型进行微调，以生成既能连续文本又能寻求目标的故事；而另一种从不断展开的故事中提取出一个知识图谱，由含有图形注意力机制的策略网络选择由语言模型生成的一个候选连续行。我们根据自动化指标和人类参与者对连贯性和整体故事质量的排名来报告与基线和消融情况的比较。

Dec, 2021