通过引入标签敏感的奖励机制,增强了大规模语言模型在自然语言理解任务中的性能,相比有监督微调模型和基于增强学习的模型,平均性能提升分别为 1.54% 和 0.69%。
May, 2024
通过强化学习与逻辑反馈,加强语言模型在逻辑推理方面的能力,为处理复杂法律推理任务的大型语言模型的发展提供新的研究途径,并承认了语言与逻辑之间的基本联系。
Nov, 2023
我们提出了一种名为符号反馈强化学习(RLSF)的新型训练 / 微调范式,旨在增强 LLMs 的推理能力,并通过使用证明等符号工具来提供精确的奖励信号,从而从传统方法中克服了局限性。
使用黑盒语言模型的精细反馈和增强检索,增强了新闻索赔事实验证的结果,并在真实世界的数据集上显著改进了强大的语言模型和非语言模型基线。
Apr, 2024
通过采用无害的来自人类反馈的强化学习方法,我们绕过了监督微调,直接应用于 Mistral,从而创建了 Mistral-Plus,它不仅保留了基础模型的通用能力,还显著增强了其对话能力,并大幅减少了有毒输出的生成。
Mar, 2024
通过利用细致的反馈基于详细准则来改进 LLMs 的核心能力,我们提出了一种新颖的框架:反思性反馈强化学习。RLRF 采用自我反思机制来系统地探索和改进 LLM 的回答,并通过与有希望的回答一起使用 RL 算法来微调模型。我们在 Just-Eval、Factuality 和数学推理方面的实验证明了 RLRF 在超越表面层调整方面的功效和变革潜力。
通过利用大型语言模型的及时反馈,Lafite-RL(语言代理反馈互动式强化学习)框架使强化学习智能体能够有效地学习机器人任务,实验结果表明,Lafite-RL 智能体在自然语言的简单提示设计下,通过大型语言模型的引导在学习效率和成功率方面优于基准模型,凸显了大型语言模型所提供的奖励的功效。
研究探讨了使用生成对抗反馈的强化学习(RLGAF)方法,以弥补人类评估者的专业知识和生产力限制并帮助对齐大型语言模型(LLMs)的输出,从而为进一步实现 AI 对准提供了前景。
May, 2023
通过模型中人类反馈的学习,改进大型语言模型(LLMs)的输出与人类期望的一致性,利用人类反馈信号中以响应对的排名形式的强化学习,研究使用自然语言反馈模型的数据效率,通过对 ChatGPT、BARD 和 Vicuna 等模型的反馈逐渐改进,提高了模型的响应质量。
通过两个代理人之间的迭代互动,通过生成展现防御代理人弱点的提示并根据奖励模型的反馈改进回应,本文在安全场景中理论上证明了这种反复强化学习优化会收敛到由代理人引发的博弈的纳什均衡,并实验证明了在这样竞争环境中的学习不仅可以充分训练代理人,而且还可以提高对抗性和防御性代理人的泛化能力。
Jun, 2024