使用软 RLLF 在 LLM 中平衡探索与开发以提升否定理解

Mar, 2024

使用软 RLLF 在 LLM 中平衡探索与开发以提升否定理解

Balancing Exploration and Exploitation in LLM using Soft RLLF for Enhanced Negation Understanding

Ha-Thanh Nguyen, Ken Satoh

TL;DR通过在语言模型中保持探索和利用的有效平衡，我们利用来自逻辑反馈的强化学习方法（RLLF）提高了否定理解能力，从而改进了在复杂高风险领域中的语言模型。

Abstract

finetuning approaches in NLP often focus on exploitation rather than exploration, which may lead to suboptimal models. Given the vast sear

finetuning approaches exploration exploitation reinforcement learning from logical feedback (rllf)negation understanding

发现论文，激发创造

基于标签敏感奖励的增强学习在自然语言理解中的应用

通过引入标签敏感的奖励机制，增强了大规模语言模型在自然语言理解任务中的性能，相比有监督微调模型和基于增强学习的模型，平均性能提升分别为 1.54% 和 0.69%。

May, 2024

优化大型语言模型中的逻辑推理以促进法律应用

通过强化学习与逻辑反馈，加强语言模型在逻辑推理方面的能力，为处理复杂法律推理任务的大型语言模型的发展提供新的研究途径，并承认了语言与逻辑之间的基本联系。

Nov, 2023

RLSF: 强化学习来自符号反馈

我们提出了一种名为符号反馈强化学习（RLSF）的新型训练 / 微调范式，旨在增强 LLMs 的推理能力，并通过使用证明等符号工具来提供精确的奖励信号，从而从传统方法中克服了局限性。

May, 2024

利用细粒度反馈的强化检索在黑箱 LLM 中验证新闻断言

使用黑盒语言模型的精细反馈和增强检索，增强了新闻索赔事实验证的结果，并在真实世界的数据集上显著改进了强大的语言模型和非语言模型基线。

Apr, 2024

平衡增强、无害性和通用能力：通过直接 RLHF 提高对话式 LLMs

通过采用无害的来自人类反馈的强化学习方法，我们绕过了监督微调，直接应用于 Mistral，从而创建了 Mistral-Plus，它不仅保留了基础模型的通用能力，还显著增强了其对话能力，并大幅减少了有毒输出的生成。

Mar, 2024

通过细粒度自我反思实现强化学习（RLRF）：对齐和改进 LLMs

通过利用细致的反馈基于详细准则来改进 LLMs 的核心能力，我们提出了一种新颖的框架：反思性反馈强化学习。RLRF 采用自我反思机制来系统地探索和改进 LLM 的回答，并通过与有希望的回答一起使用 RL 算法来微调模型。我们在 Just-Eval、Factuality 和数学推理方面的实验证明了 RLRF 在超越表面层调整方面的功效和变革潜力。

Mar, 2024

利用大型语言模型的反馈加速机器人操控的强化学习

通过利用大型语言模型的及时反馈，Lafite-RL（语言代理反馈互动式强化学习）框架使强化学习智能体能够有效地学习机器人任务，实验结果表明，Lafite-RL 智能体在自然语言的简单提示设计下，通过大型语言模型的引导在学习效率和成功率方面优于基准模型，凸显了大型语言模型所提供的奖励的功效。

Nov, 2023

使用生成对抗反馈来微调语言模型

研究探讨了使用生成对抗反馈的强化学习（RLGAF）方法，以弥补人类评估者的专业知识和生产力限制并帮助对齐大型语言模型（LLMs）的输出，从而为进一步实现 AI 对准提供了前景。

May, 2023

通过自然语言以人工反馈聚合大规模语言模型数据对齐

通过模型中人类反馈的学习，改进大型语言模型（LLMs）的输出与人类期望的一致性，利用人类反馈信号中以响应对的排名形式的强化学习，研究使用自然语言反馈模型的数据效率，通过对 ChatGPT、BARD 和 Vicuna 等模型的反馈逐渐改进，提高了模型的响应质量。

Nov, 2023

通过两人博弈实现最佳 LLM 对齐

通过两个代理人之间的迭代互动，通过生成展现防御代理人弱点的提示并根据奖励模型的反馈改进回应，本文在安全场景中理论上证明了这种反复强化学习优化会收敛到由代理人引发的博弈的纳什均衡，并实验证明了在这样竞争环境中的学习不仅可以充分训练代理人，而且还可以提高对抗性和防御性代理人的泛化能力。

Jun, 2024