BriefGPT.xyz
Ask
alpha
关键词
reinforcement learning from ai feedback
搜索结果 - 4
应用 RLAIF 用于轻量级 LLMs 中的 API 使用的代码生成
使用 AI 反馈的强化学习(RLAIF)已在多个领域展示了巨大的潜力,包括减少 LLM 输出中的伤害、提升文本摘要以及数学推理等。本文引入了一个 RLAIF 框架,用于提高轻量级(小于 1B 参数)LLMs 的代码生成能力,特别关注需要编写
→
PDF
8 days ago
你确定吗?重新排名:为更好的偏好数据集进行重复排名
通过使用强化学习从 AI 反馈 (RLAIF) 来训练大型语言模型 (LLM),使模型输出更符合人类偏好。我们提出了重复排序方法,通过多次对相同响应进行评估并仅训练那些一致排名的响应。使用 62 种语言中的 2,714 个提示,我们从 7
→
PDF
a month ago
HRLAIF:通过 AI 反馈在开放域强化学习中的有用性和无害性改进
通过使用 AI 反馈进行增强学习(RLAIF)在大型语言模型(LLM)训练的快速策略迭代阶段比通过人类反馈进行增强学习(RLHF)具有更短的注释周期和更低的成本,使其效率更高。本文提出了混合增强学习来自 AI 反馈(HRLAIF)方法,通过
→
PDF
4 months ago
利用强化学习从 AI 反馈中优化大型多模态视频模型
大型语言模型对视频大型多模型的发展产生了影响。我们提出了一种新的多模态智能系统对齐策略,称为从 AI 反馈中的强化学习,通过提供详细的视频描述来丰富视频内容的理解,以改进视频和文本内容的对齐效果。我们的方法 VLM-RLAIF 在多种视频基
→
PDF
5 months ago
Prev
Next