BriefGPT.xyz
Ask
alpha
关键词
binary feedback
搜索结果 - 4
某些事物比其他事物更令人尴尬:采用配对尴尬损失进行偏好优化
使用现有的二元反馈方法 Cringe Loss,通过简单的软边界扩展实现了面向配对偏好的训练,其在 AlpacaFarm 基准测试上优于 PPO 和 DPO 等最先进的偏好优化算法。
PDF
6 months ago
ICML
非平稳对决多臂老虎机的最优高效动态遗憾算法
本文研究了 $K$- 武斗器下在非固态或时变偏好情况下动态遗憾最小化问题,设计了能够有效解决此问题的算法,证明了算法的最优性,并进行了大量模拟和与其他算法对比的实验。
PDF
3 years ago
强化学习中的一次性回馈理论
我们研究了一种强化学习的理论,学习者只在每次学习完成后收到一次二元反馈。我们提供了一种具有统计和计算效率的算法,可以在这种更具挑战性的情况下实现学习。该算法可以在未知参数模型生成的轨迹标签上运行,并达到亚线性遗憾。
PDF
3 years ago
在线一位反馈随机线性优化
本文研究在线随机线性优化的特殊赌徒环境,其中每轮只有一位信息被揭示给学习者。我们假定二元反馈是从对数模型产生的随机变量,并旨在最小化未知线性函数定义的遗憾。为了解决此挑战,我们通过利用观测模型的特定结构开发了一种高效的在线学习算法。
PDF
9 years ago
Prev
Next