基于用户偏好的算法优化
本文研究了从一群回答者中同时进行偏好和度量学习的问题,旨在捕捉单个用户的偏好和相似度度量标准,同时享有样本成本分摊。通过研究连续响应设置和噪声二进制测量,证明了该模型足够灵活,能够有效地满足不同需求,并提高了学习的样本复杂度,最终在模拟数据和真实数据中进行了实际效果验证。
Jul, 2022
为了实现机器人在不同环境和人类偏好中的适应性,本研究提出了在线稀疏二元偏好查询的方法,通过设计查询和决定何时呈现查询来最大化查询结果的信息价值,从而使得机器人能够快速适应实际应用场景并减轻人类专家的负担,在模拟,人类用户研究和真实机器人实验中,该方法表现优于传统技术并减少人类专家的查询负担。
Feb, 2023
本文介绍了一种基于协同在线学习框架的方法,通过给机器人提供用户轨迹的偏好反馈而不是直接演示最优轨迹来教授其物体操作任务,理论上说明了该方法的可行性并在多项超市结帐任务中验证了其普适性。
Jun, 2013
从人类反馈中学习偏好模型一直是人工智能领域最近进展的核心。本研究通过推广最优设计的概念,研究了用于学习偏好模型的数据收集问题,并提出了面向排名列表的有效算法,证明了模型估计器随更多数据而改善,估计器下的排名误差也随之减少,并在多个合成和真实数据集上进行实验以展示算法的统计效率。
Apr, 2024
本文提出了一种在线无监督学习框架,可以在包容环境下的多种对象和人类互动中学习机器人的移动路径偏好,并在家政和菜店两种环境中测试了算法,结果表明只需几分钟即可训练机器人。
Jan, 2016
本文针对协作排名问题展开研究,通过基于凸优化的算法和 AltSVM 这种大规模非凸实现方式,实现从用户提供的两两偏好比较结果中预测他们对未曾见过物品的偏好,该算法展现出了在多个协作过滤数据集中 NDCG 和排名性能的许多中等规模基线的表现优势。
Jul, 2015
本文提出了一个用于学习机器人路径偏好的方法,通过众包系统 PlanIt 获取用户反馈,并使用这些反馈学习模型参数,从而在人类环境中生成优化路径,实验结果表明该方法较为有效。
Jun, 2014
本文提出了一种用于下肢外骨骼的个性化步态优化框架,通过基于偏好的交互学习来优化用户选择的参数以提高舒适性,并证明了 CoSpar 算法在模拟和外骨骼原型实现中均表现出有竞争力的性能,为外骨骼(或其他辅助设备)定制和个性化提供了一个有前途的起点。
Sep, 2019
通过利用潜在结果的框架,我们在不限制诸如建议对决策的影响的条件下,规范了协助人类决策者的推荐算法的设计,并引入了一个单调性假设,该假设导致了对算法的人类响应的直观分类, 我们通过在线实验展示了我们框架的效用,并认为我们的方法可以解释实验中不同推荐算法的相对性能,并可以帮助设计实现人工智能与人类的互补性的解决方案。
May, 2024
本文提出一种新颖的优先级概念,可表达对每个任务及其关系的偏好,并通过对 A * 搜索的扩展来生成符合用户偏好和资源优化的帕累托最优计划。同时,通过多目标 A * 算法适应性改进计算所有最优的取舍,并提出一个问题无关搜索启发式以实现可扩展性,在移动机器人和机器人操纵者上展示框架的效力,达到了 2 个数量级的加速。
Jun, 2023