BriefGPT.xyz
Ask
alpha
关键词
verbal feedback
搜索结果 - 2
RLVF:无泛化的口头反馈学习
在大语言模型中引入高级口头反馈以传达特定要求和偏好的能力是重要的,本文提出了一种名为 C3PO 的方法,通过生成小规模合成偏好数据集并最小化与原始模型的差异来有效地应用口头反馈,同时减少了过度泛化。
PDF
5 months ago
交互式机器人从口头纠正学习
我们设计了一种基于大型语言模型 (LLM) 的学习系统 OLAF,使得普通用户可以通过语音纠正教导机器人,从而更新机器人的视觉运动神经策略,以避免未来重复错误,并在实验中展示了在长期任务执行中的成功率平均提高了 20.0%。
PDF
8 months ago
Prev
Next