个性化路径补权
该论文提出了一种将偏好学习整合到追索生成问题中的两步方法,通过设计问答框架来逐步细化追索主体的马氏矩阵代价的置信集,然后利用基于梯度和基于图的代价自适应追索方法来生成合法且考虑到整个代价矩阵的高效追索,数值评估结果表明该方法在提供高效追索建议方面优于现有基准。
Feb, 2024
本研究提出了一种新的强化学习框架来帮助完全可控的智能体进行路径规划,并通过使用双向记忆编辑方法得到智能体的不同双向轨迹,隔离政策网络并利用专门的子目标网络来将智能体移动至不同方向,最后通过奖励形态化来缩短智能体到达目标的步骤数。实验结果表明,智能体能够到达训练中从未到达过的各种目标,并且能够使用奖励形态化来选择较短的路径。
May, 2022
我们提出了一种基于机器学习的回溯算法,用于提供决策结果不理想的人可以采取的可操作的一系列改变,以改善他们的结果。我们的算法可适用于各个不同 iable 的基于机器学习的决策系统,并填补了关于公平性的现有文献的不足之处。
Jul, 2019
对算法补救研究的现有假设提出质疑,指出参与者对补救方案的接受和行动意愿与补救距离并不相关,并呼吁重新思考评估函数以实现以人为中心的补救生成。
May, 2024
针对内容提供者,我们提出了一个适用于推荐系统的追索框架,旨在理解模型在做出特定预测和推荐时的基本原理,并通过对三个真实数据集上训练的推荐系统进行实证评估,展示了 RecRec 在生成有效、稀疏和可执行的追索方面的高效性。据我们所知,这项工作是首次对推荐系统生成追索的概念进行了概括和实证测试。
Aug, 2023
本研究提出了一种新的范式,通过引入首个基于人类偏好征集的人在环路方法,将用户视为过程的主动参与者,结合蒙特卡洛树搜索的强化学习智能体以提供个性化干预以实现算法回溯。
May, 2022
在高风险决策中,算法系统往往被要求提供帮助。鉴于此,算法追索的原则,即个体应该能够针对算法系统产生的不良结果采取行动,受到越来越多的关注。然而,过去关于算法追索的大部分文献主要关注如何为单个个体提供追索,而忽视了一个关键要素:不断变化的环境对追索的影响。在本文中,我们提出了一个基于代理的仿真框架,用于研究不断变化的环境对算法追索的影响。我们的研究发现,只有一小部分具体的参数设置才能使算法追索随时间可靠。因此,我们认为还需要大量的工作来了解随时间的追索可靠性,并开发能够奖励代理努力的追索方法。
Sep, 2023