利用人类反馈的强化学习来提升多模态交互代理
本文研究交互式机器学习的发展和应用,探讨人类反馈对于机器人行为的影响和提高机器人性能的方法,发现人类反馈参数对于任务性能的影响很大,需要更好地了解人类反馈的潜在变量以更好地处理人机交互领域的问题。
Jan, 2017
应用偏好建模和强化学习的方法将语言模型优化为有帮助和无害的助手,对几乎所有的自然语言处理评估表现都有提高,与训练针对特定技能(如 Python 编程和摘要)的方法相容。通过迭代在线模式的训练,每周使用新的人类反馈数据更新偏好模型和强化学习策略,有效改进了数据集和模型。同时,研究了强化学习从人类反馈中学习的鲁棒性和重要性,提出了奖励和策略之间的 KL 散度平方根的近似线性关系。除此之外,对校准、竞争目标和 OOD 检测的使用进行了边缘分析,并将模型与人类作家进行了比较,并提供了使用最新相关工作中出现的提示的模型样本。
Apr, 2022
本研究使用即时反馈,通过引入人与环境的互动,提高了强化学习在机器人学中的应用性,并提出了一种 DQN-TAMER 算法,在模拟和现实环境中都有优越表现。
Oct, 2018
该论文呼吁从不同学科出发进行研究,以解决人类如何向人工智能提供反馈以及如何构建更健壮的基于人类协作的强化学习系统的关键问题,并提出人类模型必须是个性化,情境化和动态的观点。
Jun, 2022
强化学习来自人类反馈是一种训练 AI 系统与人类目标对齐的技术,但其自身存在的问题、局限性以及相关改进技术的概述,以及提出用于改善社会监督的审计和公开标准的重要性。
Jul, 2023
引入行为模型强化学习 (BMRL) 框架,利用人类决策者的智能规划特性,通过个性化干预实现对摩擦性任务中基本行为的理解和对复杂行为的规划。
Jan, 2024
研究提出了一种有效的轨迹对采样方法,用于探索隐藏的奖励函数,以便在收集人类反馈之前准确地学习,比现有文献更少地需要人类反馈量来学习基于偏好模型的最优策略,可以考虑线性和低秩 MDP
May, 2023
通过利用大型语言模型的及时反馈,Lafite-RL(语言代理反馈互动式强化学习)框架使强化学习智能体能够有效地学习机器人任务,实验结果表明,Lafite-RL 智能体在自然语言的简单提示设计下,通过大型语言模型的引导在学习效率和成功率方面优于基准模型,凸显了大型语言模型所提供的奖励的功效。
Nov, 2023
在复杂的模拟环境中,研究表明人工智能与人类的合作胜过仅有人类或仅有人工智能代理的情况,并开发出了一种用户界面,使人类有效地协助人工智能代理。
Dec, 2023