preference feedback | BriefGPT

关键词preference feedback

搜索结果 - 10

对抗性多路决斗者
对抗性多对决赌博机中的后悔最小化问题进行了介绍，并引入了一种新算法 MiDEX（Multi Dueling EXP3）来学习来自成对子集选择模型的偏好反馈。证明了 MiDEX 相对于从 K 个臂中选择 Borda 赢家的累计 T 轮后悔的期
PDF16 days ago
ICML离线强化学习中基于示例的最优订单界限与偏好反馈
我们提出了一种称为 RL-LOW 的算法，用于处理离线强化学习中的优化动作问题，针对偏好反馈情况下的线性未知参数隐式奖励，提出了实例相关的上下界并拓展到隐私保护设置。
PDF16 days ago
从自我参照 AI 反馈中对齐大型语言模型的一个通用原则
通过自我引用的 AI 反馈框架，允许 13B Llama2-Chat 模型以 “最适合人类” 的原则为基准，对用户指令回应进行批判，从而提供高质量的偏好反馈，并通过自洽性方法减少位置偏差的影响、使用语义困惑度来计算不同回答的偏好强度差异，实
PDF17 days ago
DPO 和 PPO 的剥离：揭示从偏好反馈中学习的最佳实践
从偏好反馈学习的四个核心方面：偏好数据，学习算法，奖励模型和政策训练提示，我们系统地研究了这些组件对下游模型性能的影响，并提出了一种强偏好反馈学习的方法。研究发现，偏好数据、学习算法、改进的奖励模型和额外的无标签提示对模型性能都很重要。
PDF21 days ago
直接纳什优化：通过一般偏好教导语言模型自我改进
本文研究了使用强力预言机的偏好反馈来帮助模型迭代改进的训练后大语言模型。通过直接优化一般偏好关系，本文介绍了可证明且可扩展的 Direct Nash Optimization 算法，并在实验中证明其在性能上优于其他模型。
PDF3 months ago
停止依赖无选择，不要重复移动：商品组合优化的最优、高效和实用算法
我们设计了一种基于 Plackett Luce 的用户选择的快速算法，用于解决主动在线组合优化问题中的后悔最小化问题，并证明了该方法在实践中是有效的、最优的，并且没有现有方法的限制。
PDF4 months ago
AAAI借助多模态的大型语言模型增强机器人操作的人工智能反馈
通过使用多模式语言模型从图像输入中提供自动化的偏好反馈来指导决策的研究，展示了一种能够理解机器人操纵任务中轨迹视频的多模式语言模型 CriticGPT，该模型能够提供分析和偏好反馈，并验证了所生成的偏好标签的有效性，实验评估表明其对新任务具
PDF4 months ago
基于原则的偏好贝叶斯优化
通过使用偏好反馈，我们构建了黑盒函数的置信区间，并提出了一种乐观算法，该算法具有有效的计算方法，并且在累积遗憾方面具有信息理论上的界限，从而使我们能够设计出具有收敛速率保证的估计最佳解决方案的方案。实验结果表明，我们的方法在高斯过程、标准测
PDF5 months ago
多方偏好加速收敛
通过分析和设计高效算法，研究了基于多种偏好反馈的凸优化问题的收敛速度和优化问题的最优收敛速度。
PDF6 months ago
ACL充分利用之前的数据：交互式文本摘要的偏好反馈解决方案
本研究提出了一个新的交互式框架，可通过优化离线数据和一种新型奖励模型，以少量交互式反馈的方式训练摘要模型，提高 ROUGE 得分和采样效率。这个框架在摘要的活动、少量交互式学习和在线学习的场景下均具有优势。
PDF2 years ago