binary feedback | BriefGPT - AI 论文速递

关键词binary feedback

搜索结果 - 4

某些事物比其他事物更令人尴尬：采用配对尴尬损失进行偏好优化
使用现有的二元反馈方法 Cringe Loss，通过简单的软边界扩展实现了面向配对偏好的训练，其在 AlpacaFarm 基准测试上优于 PPO 和 DPO 等最先进的偏好优化算法。
PDF6 months ago
ICML非平稳对决多臂老虎机的最优高效动态遗憾算法
本文研究了 $K$- 武斗器下在非固态或时变偏好情况下动态遗憾最小化问题，设计了能够有效解决此问题的算法，证明了算法的最优性，并进行了大量模拟和与其他算法对比的实验。
PDF3 years ago
强化学习中的一次性回馈理论
我们研究了一种强化学习的理论，学习者只在每次学习完成后收到一次二元反馈。我们提供了一种具有统计和计算效率的算法，可以在这种更具挑战性的情况下实现学习。该算法可以在未知参数模型生成的轨迹标签上运行，并达到亚线性遗憾。
PDF3 years ago
在线一位反馈随机线性优化
本文研究在线随机线性优化的特殊赌徒环境，其中每轮只有一位信息被揭示给学习者。我们假定二元反馈是从对数模型产生的随机变量，并旨在最小化未知线性函数定义的遗憾。为了解决此挑战，我们通过利用观测模型的特定结构开发了一种高效的在线学习算法。
PDF9 years ago