BriefGPT.xyz
Ask
alpha
关键词
language feedback
搜索结果 - 4
喊叫您的机器人:从语言纠正中实时改进
通过语言反馈不断改进高层策略,使机器人在复杂的、需要长程规划的任务中表现得更加出色,无需额外的远程操作。
PDF
4 months ago
拒绝的原因?将语言模型与判断对齐
我们首次通过自然语言反馈的方法探索了对齐大型语言模型的可能性,并提出了一种称为 Contrastive Unlikelihood Training (CUT) 的新框架,通过细致判定检测和修正来实现对不适当内容的改进,获得了优于基线模型的好
→
PDF
7 months ago
通过自然语言反馈在目标条件下强化学习中的利用
通过使用自动生成的语言反馈以及改进的决策变压器架构,在强化学习中引入更丰富、更贴近人类反馈的方式可以改善智能体的泛化性能。
PDF
7 months ago
大规模语言反馈训练语言模型
利用语言反馈进行模仿学习 (ILF) 是一种新方法,可以有效提升大型预训练语言模型的摘要性能,并比使用对比反馈或人工摘要的方法更好。
PDF
a year ago
Prev
Next