利用人类反馈的强化学习来提升多模态交互代理

Nov, 2022

利用人类反馈的强化学习来提升多模态交互代理

Improving Multimodal Interactive Agents with Reinforcement Learning from Human Feedback

Josh Abramson, Arun Ahuja, Federico Carnevale, Petko Georgiev, Alex Goldin...

TL;DR使用人类反馈的强化学习方法，通过记录人类与模拟世界中的代理进行交互，构建能够自然交互和学习的代理行为，有效提高了代理在复杂领域中的行为表现。

Abstract

An important goal in artificial intelligence is to create agents that can both interact naturally with humans and learn from their feedback. Here we demonstrate how to use reinforcement learning from

artificial intelligence reinforcement learning human feedback embodied agents ibt modelling

发现论文，激发创造

基于强化学习的具身智能体通过互动与多感知模拟对人类用户进行建模

本文研究交互式机器学习的发展和应用，探讨人类反馈对于机器人行为的影响和提高机器人性能的方法，发现人类反馈参数对于任务性能的影响很大，需要更好地了解人类反馈的潜在变量以更好地处理人机交互领域的问题。

Jan, 2017

强化学习与人类反馈调查

深入探讨人机交互技术中基于人类反馈的强化学习（RLHF）的基本原理、应用及其研究趋势。

Dec, 2023

利用人类反馈进行强化学习训练有益且无害的助手

应用偏好建模和强化学习的方法将语言模型优化为有帮助和无害的助手，对几乎所有的自然语言处理评估表现都有提高，与训练针对特定技能（如 Python 编程和摘要）的方法相容。通过迭代在线模式的训练，每周使用新的人类反馈数据更新偏好模型和强化学习策略，有效改进了数据集和模型。同时，研究了强化学习从人类反馈中学习的鲁棒性和重要性，提出了奖励和策略之间的 KL 散度平方根的近似线性关系。除此之外，对校准、竞争目标和 OOD 检测的使用进行了边缘分析，并将模型与人类作家进行了比较，并提供了使用最新相关工作中出现的提示的模型样本。

Apr, 2022

DQN-TAMER: 人类参与反馈的强化学习与难以处理的反馈

本研究使用即时反馈，通过引入人与环境的互动，提高了强化学习在机器人学中的应用性，并提出了一种 DQN-TAMER 算法，在模拟和现实环境中都有优越表现。

Oct, 2018

人类不是玻尔兹曼分布：应对强化学习中人类反馈与交互建模的挑战与机遇

该论文呼吁从不同学科出发进行研究，以解决人类如何向人工智能提供反馈以及如何构建更健壮的基于人类协作的强化学习系统的关键问题，并提出人类模型必须是个性化，情境化和动态的观点。

Jun, 2022

强化学习从人类反馈中的开放问题与基本限制

强化学习来自人类反馈是一种训练 AI 系统与人类目标对齐的技术，但其自身存在的问题、局限性以及相关改进技术的概述，以及提出用于改善社会监督的审计和公开标准的重要性。

Jul, 2023

在摩擦任务中对有限理性人类代理采取强化学习干预

引入行为模型强化学习 (BMRL) 框架，利用人类决策者的智能规划特性，通过个性化干预实现对摩擦性任务中基本行为的理解和对复杂行为的规划。

Jan, 2024

如何在强化学习中高效地查询人类反馈？

研究提出了一种有效的轨迹对采样方法，用于探索隐藏的奖励函数，以便在收集人类反馈之前准确地学习，比现有文献更少地需要人类反馈量来学习基于偏好模型的最优策略，可以考虑线性和低秩 MDP

May, 2023

利用大型语言模型的反馈加速机器人操控的强化学习

通过利用大型语言模型的及时反馈，Lafite-RL（语言代理反馈互动式强化学习）框架使强化学习智能体能够有效地学习机器人任务，实验结果表明，Lafite-RL 智能体在自然语言的简单提示设计下，通过大型语言模型的引导在学习效率和成功率方面优于基准模型，凸显了大型语言模型所提供的奖励的功效。

Nov, 2023

现实世界复杂环境中的人工智能协作与强化学习

在复杂的模拟环境中，研究表明人工智能与人类的合作胜过仅有人类或仅有人工智能代理的情况，并开发出了一种用户界面，使人类有效地协助人工智能代理。

Dec, 2023