从上下文语言推断奖励
研究从语言中学习以实现语言使用与机器智能的价值对齐,分析了两种不同类别的语言,即指令和描述,运用上下文强化学习进行形式化的建模,并且验证了这种社会学习方法在传统的强化学习任务中可以降低遗憾值。
Jun, 2022
提出了一种基于奖励模型的框架,它使得机器学习代理能学习到语言指令, 并通过这些指令执行任务,而不需要通过修改环境奖励函数来实现。这种方法将任务的语义表示和执行分离,在简单的网格世界中,使代理能够学习一系列涉及块的交互和对空间关系的理解的指令, 且无需新的专家数据就可以适应环境的变化。
Jun, 2018
使用自然语言指令进行奖励塑形,在复杂的 Atari 游戏中,比标准强化学习算法成功完成任务的次数平均提高了 60%,并且可以无缝集成到任何标准强化学习算法中。
Mar, 2019
本文探讨以自然语言接口为代理奖励函数来简化奖励设计,在强化学习框架下利用大型语言模型对用户目标进行培训,实现智能体与用户目标的对齐,并在 Ultimatum 游戏、矩阵游戏和 DealOrNoDeal 谈判任务中优于通过监督式学习学习的奖励函数训练的 RL 智能体。
Feb, 2023
本研究采用自然语言反馈作为人工智能代理的学习信号,使用基于方面的情感分析将反馈分解为关于马尔可夫决策过程功能的情感。然后通过推理情感模型中的潜在奖励函数,来进行反向强化学习。实验表明本方法可以成功地从人的互动反馈中学习,并提供了关于自然语言反馈信息结构和利用它进行强化学习的方法。
Sep, 2020
本文介绍了如何利用奖励学习将强化学习应用于自然语言任务中,旨在建立适用于现实世界任务的奖励模型。我们将奖励学习应用于四个自然语言任务(文本连续生成、摘要),取得了不错的结果,但模型可能会利用人类评估者的简单启发式规则。
Sep, 2019
通过研究人类社会学习观点,将社会背景纳入考虑,并提出了一种从用户特征层次偏好中学习更精确奖励模型的方法,结果表明这种方法能够更高效地与用户对齐并获得准确的奖励。
May, 2024
研究了协作团队之间的自然语言指令传递在多模态贝叶斯逆向规划中的应用,发现使用语言指令可以更快、更准确地推断出团队目标,强调了语言沟通对于协作任务的重要性。
Jun, 2023
本文提出了一种新颖的对抗式逆强化学习算法,使用条件化语言政策和奖励函数,以及使用变分目标生成器提高学习策略和奖励函数的泛化性,从而使自然语言变得可用于指导智能体任务的目标, 获得了非常好的性能表现。
Aug, 2020