reinforcement learning from ai feedback | BriefGPT

关键词reinforcement learning from ai feedback

搜索结果 - 4

应用 RLAIF 用于轻量级 LLMs 中的 API 使用的代码生成
使用 AI 反馈的强化学习（RLAIF）已在多个领域展示了巨大的潜力，包括减少 LLM 输出中的伤害、提升文本摘要以及数学推理等。本文引入了一个 RLAIF 框架，用于提高轻量级（小于 1B 参数）LLMs 的代码生成能力，特别关注需要编写
PDF8 days ago
你确定吗？重新排名：为更好的偏好数据集进行重复排名
通过使用强化学习从 AI 反馈 (RLAIF) 来训练大型语言模型 (LLM)，使模型输出更符合人类偏好。我们提出了重复排序方法，通过多次对相同响应进行评估并仅训练那些一致排名的响应。使用 62 种语言中的 2,714 个提示，我们从 7
PDFa month ago
HRLAIF：通过 AI 反馈在开放域强化学习中的有用性和无害性改进
通过使用 AI 反馈进行增强学习（RLAIF）在大型语言模型（LLM）训练的快速策略迭代阶段比通过人类反馈进行增强学习（RLHF）具有更短的注释周期和更低的成本，使其效率更高。本文提出了混合增强学习来自 AI 反馈（HRLAIF）方法，通过
PDF4 months ago
利用强化学习从 AI 反馈中优化大型多模态视频模型
大型语言模型对视频大型多模型的发展产生了影响。我们提出了一种新的多模态智能系统对齐策略，称为从 AI 反馈中的强化学习，通过提供详细的视频描述来丰富视频内容的理解，以改进视频和文本内容的对齐效果。我们的方法 VLM-RLAIF 在多种视频基
PDF5 months ago