学习生成比您的 LLM 更好的结果
基于大语言模型的自动生成反馈在智能辅导系统和在线学习平台中具有潜力来提高许多学生的学习效果,本文针对自动生成和评估反馈的问题,提出了数学反馈评估标准和反馈生成框架,通过强化学习优化反馈的正确性和一致性,并通过案例研究定性分析了生成和评估系统。
Mar, 2024
本文提出了一种名为 RL4F 的多智能体协作框架,该框架使用强化学习训练评论生成器,使其能够优化 GPT-3 模型的性能,从而改进模型的输出效果,并在三个数据集上展示了平均提高了约 5% 的文本相似性度量。
May, 2023
本论文探讨了如何将预先训练的大型语言模型与人类偏好相对齐,提出了一个基于强化学习的模型优化库以及一套基于奖励函数的人类偏好的语言生成任务评估基准,并展示了所提出的自然语言策略优化算法相比于以往的策略梯度方法在具有更好的稳定性和性能。
Oct, 2022
通过将强化学习与大型语言模型结合,研究了在开放性文本学习环境中增强代理的泛化能力,提出了三种代理类型:基于强化学习的代理、基于大型语言模型的代理和融合两者的混合代理,以提高代理的性能和泛化能力,并通过 PharmaSimText 提供的基准测试验证了研究成果。结果表明,基于强化学习的代理在任务完成方面表现出色,但在提问诊断问题方面有所欠缺;相反,基于大型语言模型的代理在提问诊断问题方面表现较好,但在完成任务方面表现较差;而混合的大型语言模型辅助强化学习代理能够克服这些限制,凸显了将强化学习和大型语言模型相结合在开放性学习环境中开发高性能代理的潜力。
Apr, 2024
我们提出了一种基于提示的长度控制方法,通过采用可训练或基于规则的奖励模型来影响大型语言模型的生成,从而实现长度可控的生成,该方法在广泛适用于类似 GPT 的大型语言模型的同时,显著提高了摘要任务中基于提示的长度控制的准确性。
Aug, 2023
探讨利用大型语言模型(LLMs)控制文本难度的问题,在不完全精通的终端用户环境中(如语言学习者),通过使用新颖框架评估了几种关键方法的效果,包括少样本提示、监督微调和强化学习(RL),使用 GPT-4 和 LLama2-7B、Mistral-7B 等开源替代品。我们的发现揭示了在使用基于提示的策略时,GPT-4 和开源模型之间存在很大的性能差距。然而,我们展示了如何通过精调和 RL 对齐的谨慎组合来弥合这一差距。我们最佳的模型,CALM(CEFR 对齐语言模型),在仅成本的一小部分下超越了 GPT-4 和其他策略的性能。我们通过小规模的人工研究进一步验证了我们结果的质量。
Jun, 2024
利用人类反馈的强化学习从 PPO 出发,ICE-GRT 在特定领域任务中展示了出色的能力,同时保持了通用任务性能,在小型模型中表现了分析能力的下降。
Jan, 2024
通过采用基于 RAG 的 RL 优化方法,使用信息熵损失函数构建了一个使用 FAQ 数据回答用户查询的聊天机器人,该模型在检索准确性和领域外查询检测方面表现显著优于通用公开嵌入模型,同时能实现成本节省和细微的准确性改善。
Jan, 2024
利用两级分层框架 RL-GTP,在具备高效能 coding 能力的慢速代理和执行编码任务的快速代理之间无缝融合,以高效地处理涉及复杂逻辑和精确控制的实体任务,并取得了在 Minecraft 游戏中以及指定的 MineDojo 任务上的优越表现。
Feb, 2024