- 基于偏好的直接多目标进化优化与对决决策
该研究提出了一种基于用户偏好的多目标优化问题框架,通过直接偏好学习和主动对抗算法,实现了在无需计算适应度函数的情况下,获得收敛到感兴趣区域的解决方案,并在蛋白质结构预测领域中得到了有效的应用。
- 发展安全可个性化的自动驾驶车辆的偏好学习方法
介绍了一种用于自动驾驶车辆的偏好学习方法,确保遵守交通规则。通过将描述交通规则的优先级顺序的信号时态逻辑(STL)公式纳入学习框架中,利用参数加权信号时态逻辑(PWSTL)将以成对比较为基础的安全保障偏好学习问题进行了形式化,并提出了一种解 - 人类参与协作和可解释性贝叶斯优化
我们提出了一种协作和可解释的贝叶斯优化框架(CoExBO),它通过优先学习无缝地将人类洞察力整合到优化中,为用户提供与其偏好相符的算法建议,并通过解释候选项选择来建立信任,使用户对优化有更清晰的掌握。此外,CoExBO 提供不会造成损害的保 - 通过最优策略拟合进行连续学习的人类偏好
继续优化策略拟合(COPF)是一种通过蒙特卡洛方法估计最优策略序列,并不断使用函数正则化拟合策略的新方法,与传统强化学习相比,COPF 在不同任务和领域中与人类偏好的一致性方面表现更好,同时又具备从无标签数据中学习的能力,使其在连续偏好学习 - 学习鉴别:偏好与表示学习中的模仿异质人类示范
本文介绍了一种离线模仿学习框架,Learning to Discern (L2D),用于从具有多样化质量和风格的演示中学习。通过在潜在空间中进行偏好学习,我们能够对不同风格的新演示进行评估和学习,从而提高各种任务的策略性能。
- 基于偏好的语言模型微调的令牌级指导
本文提出了一种新的训练语言模型的方式,通过将序列级别的偏好导向到令牌级别的训练中,然后再利用所学到的指导来改善 LM,实现在不同任务中的竞争性表现。
- 度量学习和偏好学习的表征定理:一个几何学的视角
本文探讨了在希尔伯特空间中度量学习和偏好学习问题,通过借助问题结构内在特性中诱导的内积的范数,获得了一种创新的代表定理,并演示了如何将其应用于三元组比较的度量学习任务,并显示出它对于这个任务的代表定理是简单且自包含的。在再生核希尔伯特空间的 - 离线基于偏好的奖励学习的基准和算法
本文提出了一种利用离线数据进行偏好学习的方法,通过基于池的主动学习生成偏好查询,学习奖励函数的分布,通过离线强化学习优化相应的策略,从而使代理人能够在未显示的离线数据中学习执行新任务。
- 使用先验知识进行多目标参数优化的高效效用函数学习
本研究提出了一种基于偏好学习方法的离线学习效用函数的优化算法,不仅可以使用关于结果的偏好,还可以使用效用函数空间的粗略信息,尤其在使用很少的结果时有助于提高效用函数的估计精度,并且可以结合模型来考虑效用函数学习任务中发生的不确定性。
- 利用有选择性注意力建模非加强学习的偏好
提出了一种人工智能代理学习无强化偏好的机制 extsc {Nore},通过利用代理的世界模型来收集不同的经验,然后通过选择性注意和门控机制更新代理的偏好,证明了其在无外部信号和波动性下可以诱导探索性偏好的有效性。
- 一对多:多用户同时度量和偏好学习
本文研究了从一群回答者中同时进行偏好和度量学习的问题,旨在捕捉单个用户的偏好和相似度度量标准,同时享有样本成本分摊。通过研究连续响应设置和噪声二进制测量,证明了该模型足够灵活,能够有效地满足不同需求,并提高了学习的样本复杂度,最终在模拟数据 - RankNEAT:在偏好学习任务中优于随机梯度搜索
通过神经进化的模式识别算法来训练神经网络,RankNEAT 算法通过学习排序来优于传统的梯度优化算法,在情感计算中预测三个不同游戏的玩家焦虑状态。
- ACL充分利用之前的数据:交互式文本摘要的偏好反馈解决方案
本研究提出了一个新的交互式框架,可通过优化离线数据和一种新型奖励模型,以少量交互式反馈的方式训练摘要模型,提高 ROUGE 得分和采样效率。这个框架在摘要的活动、少量交互式学习和在线学习的场景下均具有优势。
- ICML离线基于偏好的学徒学习
该研究提出了一种利用离线数据进行奖励函数学习和策略优化的方法,该方法不需要真实物理试验或准确的模拟器,并能够学习完成离线数据未曾显示的新任务。
- KDD离散选择中的选择集混杂
通过因果推断的方法适应离散选择设置,使用选择者的协变量进行反向概率加权和 / 或回归控制,以便在一定假设下准确地恢复个体偏好。当这些协变量不可用或不充分时,使用结构化选择集分配的方法来提高预测准确性,并在真实世界的选择数据上展示了方法的有效 - IJCAI使用不完整偏好特征学习随机效用模型的组合
本文研究了具有特征和它们的混合的随机效用模型(RUMs),提出了一种广义的 RUM 模型,来生成不完整的偏好,证明了当带有特征的 Plackett-Luce 模型可识别时,其最大似然估计是一致的,并且该模型在合成数据和真实数据上具有较高的预 - 归纳学习 Answer Set 程序的 ILASP 系统
该研究论文介绍了归纳逻辑程序设计的目标,提出了一种新的程序学习方法,能够更广泛地适用于偏爱学习,包括默认和异常情况的通识知识,并学习非确定性理论。同时,论文还总结了程序的演变历程,特别强调了可伸缩性。
- 从故事中学习规范:价值对准代理的先验
通过观察自然故事中的社会规范来学习价值对齐的先验知识,并使用机器学习模型判断自然语言中一个情境是否符合价值对准,同时寻求在新任务中的迁移表现。
- 从原始选择数据中发现上下文效应
本研究旨在从原始选择数据中发现基于选择集的影响,并采用 CDM 模型对真实和模拟选择数据进行原则性探索分析。
- AAAI可解释的偏好学习:基于博弈论的大间隔在线特征及规则学习框架
本文提出了一种将博弈论与偏好学习相结合的新算法,可解决大规模特征选取和模型可解释性等问题,并在分类任务中实现了最先进的精度。