BriefGPT.xyz
大模型
Ask
alpha
关键词
alignment reward
搜索结果 - 2
在线合并优化器用于提升回报和降低税额的对齐
通过在线合并优化器,在人类反馈强化学习中持续调节训练方向,实现大语言模型的高性能表现和对齐奖励的显著提升,同时减小对齐成本。
PDF
a month ago
CVPR
ReAgent: 点云配准的模仿和强化学习
本篇论文提出了一种基于强化学习的点云迭代配准算法(ReAgent),通过引入一个新的对齐奖励函数进行多策略融合优化,显著提高了算法的配准性能,实验证明该算法在 ModelNet40 和 ScanObjectNN 数据集上均具备优秀的性能,在
→
PDF
3 years ago
Prev
Next