- 通过奖励函数优化进行行为对齐
通过使用双层目标的新框架,将辅助奖励与环境的主要奖励相结合,我们提供了一种集成设计者指定的启发式方法的鲁棒且有原则的方式,以解决现有方法的主要缺点,即使给出不对齐或指定不良的辅助奖励函数,也能始终导致高性能解决方案。
- 逆强化学习中通过最优传输理论理解奖励模糊性
该论文利用最优传输理论(OT)提供了一个新的视角,通过利用最优传输中的 Wasserstein 距离,建立了一个几何框架,可以量化奖励的模糊性,并确定奖励函数的中心表示或重心,为几何解释锚定的稳健逆 RL 方法提供了结构化的方法来解决高维奖 - 直接在可微奖励上微调扩散模型
通过直接奖励微调方法(DRaFT)对扩散模型进行微调,以最大化可微分奖励函数,实现了强化学习方法无法超越的强大性能,通过在采样过程中反向传播奖励梯度,并且提出了更高效的 DRaFT 变体:DRaFT-K 和 DRaFT-LV。同时,通过与之 - 通过强化学习来设计人群模拟的奖励函数
通过在虚拟世界中以人类般的方式导航的自主角色,群集模拟对于游戏设计非常重要。本文探索了基于强化学习的群集模拟的奖励函数设计,并根据其分析性质理论上阐明了特定奖励函数的有效性,并通过以能源效率为度量标准的一系列场景进行实证评估。实验结果表明, - 基于位势的奖励用于学习人形机械的运动能力评测
设计和调整奖励函数是发展有效强化学习(RL)流程的主要挑战之一。在这项研究中,我们使用潜在基础奖励塑造(PBRS)来加速学习收敛,在高维系统中,PBRS 对于收敛速度的提升有限,但是 PBRS 奖励项相对缩放更加稳健,更容易调整。
- 可微分决策树是否能够学习可解释的奖励函数?
使用 Differentiable Decision Trees 学习可解释的奖励函数,研究表明其能够学习可解释的奖励函数,但树的离散性会降低强化学习的性能。
- 针对各种模拟驾驶操作的深度强化学习自动驾驶的全面培训和评估
本研究通过实现、评估和比较两种深度强化学习算法(Deep Q-networks 和 Trust Region Policy Optimization)来训练自动驾驶车辆,以及开发和应用奖励函数,并在基于模拟环境的高速公路自动驾驶训练平台中进 - 机器技能综合的语言到奖励转换
本文提出了一种新颖的方法,即通过利用大型语言模型 (LLMs) 定义奖励参数,从而优化和实现各种机器人任务,并结合实时优化器 MuJoCo MPC,使用户可以交互地创造行为并快速获得结果反馈。作者在一个模拟仿真机器人四足动物和一种机械手进行 - 不用手就行啦!自我中心视频的智能体 - 环境因子分离
通过视角来对分离人体和环境因素,提出了一种有关 Egocentric 视角的机器人任务的可行性的方法,并利用 Video Inpainting via Diffusion Model (VIDM)来提高 egocentric 视频修复质量, - 基于奖励函数相似性的选择性模仿
研究了在多个异构智能体追求不同目标或目的的情况下,模仿行为不太可能是一种有效的策略,而人们会更倾向于模仿那些他们认为与自己有相似奖励函数的人的行为,并通过归纳偏差这一方法来进行选择。
- 使用层次行动探索的深度强化学习实现对话生成
本文提出一种新的双粒度 Q 函数,通过探索最有前途的响应类型来介入采样,从而解决自然语言行动空间巨大所带来的效率问题,在多个设计用于识别人类情感细节的奖励函数中,以离线强化学习的方式学习,我们的算法在实证研究中表现优于基线方法,进一步验证表 - 目标一致性:价值对齐问题的人类意识解释
AI 中的价值对齐问题源于 AI 代理的指定目标与其用户的真正基础目标不匹配。本文提出了一种名为目标对齐的新价值对齐问题公式,并提出了一种交互式算法,用于确定用户的真正基础目标。
- SIRL:基于相似性的隐式表示学习
从人们定义的相似度中学习表示使机器人能够识别和隔离人们实际关心和使用的因果特征,从而更好地学习他们的喜好和目标。在模拟和用户研究中,我们证明通过这种相似度查询学习可以比自我监督和任务输入等传统的表示学习方法得到更具有一般性的表示。
- 关于奖励推断对错误人类模型的敏感性
从人类行为推断奖励函数是实现价值对齐的核心,然而需要人类行为的准确模型,我们在理论和实证研究中发现行为可能出现对抗性商业偏差,同时也能够识别出在合理假设下的奖励推断误差线性受人类模型误差影响的影响范围。
- 有条件的文本生成中的奖励游戏
通过使用强化学习和人工注释的奖励函数训练条件文本生成模型,我们发现在学习奖励函数过程中会因为引入的噪声或自然产生的假相关性以及协变量偏移等原因导致错误行为被高估,我们探讨了如何避免自然语言生成领域中的奖励欺骗问题和未来的研究方向。
- 交互自主学习偏好
研究人机交互中智能机器人的学习奖励功能从而完成任务,探讨通过对多种机器人轨迹的比较反馈方式学习机器的奖励功能,包括两两比较、评分、最佳选择等,并提出主动学习技术,以优化从用户反馈中获得的期望信息,进而在自主驾驶模拟、家庭机器人、标准强化学习 - 用树实现奖励学习:方法和评估
本文探讨了使用可读性更好的树模型进行奖励函数生成的优势,并通过实验证明其在高维复杂任务上具有与神经网络同等的有效性与鲁棒性,并展示其可追溯性、验证性和可解释性。
- 基于 $α$- 核心的在线子集选择算法,无需增广遗憾
本研究提出了一个名为 SCore 的在线学习策略,用于解决一类奖励函数下的最优子集选择问题,并引入了一种新的性能度量标准,即 α- 增强遗憾。研究表明,包括子模函数在内的大类奖励函数,都可以通过 SCore 策略进行高效优化。
- MM推荐系统对齐问题的建模
本研究旨在探讨如何通过奖励函数来评估推荐系统的效果以及如何解决推荐系统的对齐问题,尝试使用纯虚拟环境的例子评估各种潜在的解决方案。
- 社交机器人的变分元强化学习
本研究探讨利用元强化学习方法来通过各种奖励函数快速适应机器人所处的不同环境,提高社交机器人的行为表现,并通过径向基函数图层降低后验坍塌负面影响。