基于用户偏好的算法优化

Aug, 2023

Optimizing Algorithms From Pairwise User Preferences

Leonid Keselman, Katherine Shih, Martial Hebert, Aaron Steinfeld

TL;DR通过人们的偏好来优化算法参数配置，而无需直接模拟奖励，SortCMA 可以有效地利用用户输入得到参数集合，将其应用于没有确切评分标准的商用深度传感器和机器人社交导航中，成功实现了用户目标的优化，并进行了用户研究来评估社交导航结果。

Abstract

Typical black-box optimization approaches in robotics focus on learning from metric scores. However, that is not always possible, as not all developers have ground truth available. Learning appropriate

black-box optimization robotics user preferences sortcma robot behavior

发现论文，激发创造

一对多：多用户同时度量和偏好学习

本文研究了从一群回答者中同时进行偏好和度量学习的问题，旨在捕捉单个用户的偏好和相似度度量标准，同时享有样本成本分摊。通过研究连续响应设置和噪声二进制测量，证明了该模型足够灵活，能够有效地满足不同需求，并提高了学习的样本复杂度，最终在模拟数据和真实数据中进行了实际效果验证。

Jul, 2022

在线偏好中的积极奖励学习

为了实现机器人在不同环境和人类偏好中的适应性，本研究提出了在线稀疏二元偏好查询的方法，通过设计查询和决定何时呈现查询来最大化查询结果的信息价值，从而使得机器人能够快速适应实际应用场景并减轻人类专家的负担，在模拟，人类用户研究和真实机器人实验中，该方法表现优于传统技术并减少人类专家的查询负担。

Feb, 2023

通过迭代改进学习机械臂的运动轨迹偏好

本文介绍了一种基于协同在线学习框架的方法，通过给机器人提供用户轨迹的偏好反馈而不是直接演示最优轨迹来教授其物体操作任务，理论上说明了该方法的可行性并在多项超市结帐任务中验证了其普适性。

Jun, 2013

人类反馈的最佳设计

从人类反馈中学习偏好模型一直是人工智能领域最近进展的核心。本研究通过推广最优设计的概念，研究了用于学习偏好模型的数据收集问题，并提出了面向排名列表的有效算法，证明了模型估计器随更多数据而改善，估计器下的排名误差也随之减少，并在多个合成和真实数据集上进行实验以展示算法的统计效率。

Apr, 2024

从在线协作反馈中学习操作任务的偏好

本文提出了一种在线无监督学习框架，可以在包容环境下的多种对象和人类互动中学习机器人的移动路径偏好，并在家政和菜店两种环境中测试了算法，结果表明只需几分钟即可训练机器人。

Jan, 2016

基于成对比较的大规模协作排名偏好数据填充

本文针对协作排名问题展开研究，通过基于凸优化的算法和 AltSVM 这种大规模非凸实现方式，实现从用户提供的两两偏好比较结果中预测他们对未曾见过物品的偏好，该算法展现出了在多个协作过滤数据集中 NDCG 和排名性能的许多中等规模基线的表现优势。

Jul, 2015

PlanIt：基于众包的学习路径规划方法

本文提出了一个用于学习机器人路径偏好的方法，通过众包系统 PlanIt 获取用户反馈，并使用这些反馈学习模型参数，从而在人类环境中生成优化路径，实验结果表明该方法较为有效。

Jun, 2014

基于偏好的外骨骼步态优化学习

本文提出了一种用于下肢外骨骼的个性化步态优化框架，通过基于偏好的交互学习来优化用户选择的参数以提高舒适性，并证明了 CoSpar 算法在模拟和外骨骼原型实现中均表现出有竞争力的性能，为外骨骼（或其他辅助设备）定制和个性化提供了一个有前途的起点。

Sep, 2019

设计算法推荐以实现人工智能与人类的互补性

通过利用潜在结果的框架，我们在不限制诸如建议对决策的影响的条件下，规范了协助人类决策者的推荐算法的设计，并引入了一个单调性假设，该假设导致了对算法的人类响应的直观分类，我们通过在线实验展示了我们框架的效用，并认为我们的方法可以解释实验中不同推荐算法的相对性能，并可以帮助设计实现人工智能与人类的互补性的解决方案。

May, 2024

多个时间任务下的最优成本偏好权衡规划

本文提出一种新颖的优先级概念，可表达对每个任务及其关系的偏好，并通过对 A * 搜索的扩展来生成符合用户偏好和资源优化的帕累托最优计划。同时，通过多目标 A * 算法适应性改进计算所有最优的取舍，并提出一个问题无关搜索启发式以实现可扩展性，在移动机器人和机器人操纵者上展示框架的效力，达到了 2 个数量级的加速。

Jun, 2023