奖励微调以提高更快和更准确的无监督目标发现

Oct, 2023

奖励微调以提高更快和更准确的无监督目标发现

Reward Finetuning for Faster and More Accurate Unsupervised Object Discovery

Katie Z Luo, Zhenzhen Liu, Xiangyu Chen, Yurong You, Sagie Benaim...

TL;DR通过利用人类反馈进行强化学习，无监督对象发现的准确性和训练速度得到了显著提高。

Abstract

Recent advances in machine learning have shown that Reinforcement Learning from Human Feedback (RLHF) can improve machine learning models and align them with human preferences. Although very successful for Large Language Models (LLMs), these advancements have not had a comparable impact in research for autonomous vehicles -- where alignment with human expect

reinforcement learning from human feedback unsupervised object discovery lidar points heuristics bounding box accuracy

发现论文，激发创造

优化自主驾驶的安全性：基于人本主义的 LLM 增强 RLHF 方法

通过创新地结合强化学习（Reinforcement Learning from Human Feedback，RLHF）和大语言模型（Large Language Models，LLMs），以提升自动驾驶的安全性。我们利用多个人工控制的代理，如汽车和行人，来模拟真实道路环境，将物理和生理反馈与 LLMs 集成，优化自动驾驶模型的微调过程，并通过在新泽西和纽约市的真实测试平台上收集的数据来验证我们的模型。

Jun, 2024

无监督感知奖励用于模仿学习

利用深度模型学习中间视觉表示的抽象能力来从少量的演示序列中快速推断知觉奖励函数，以便在真实世界环境中使用强化学习智能体执行任务。

Dec, 2016

如何在强化学习中高效地查询人类反馈？

研究提出了一种有效的轨迹对采样方法，用于探索隐藏的奖励函数，以便在收集人类反馈之前准确地学习，比现有文献更少地需要人类反馈量来学习基于偏好模型的最优策略，可以考虑线性和低秩 MDP

May, 2023

对齐上界：从人类反馈中的强化学习目标不匹配

用来自人类反馈的强化学习技术已经成为一个强大的工具，使得大型语言模型在复杂环境中更容易引导，更具能力。然而，由于奖励模型、策略模型和评估模型之间的不一致性，存在目标不匹配的问题。本文探讨了这个问题的原因，并回顾了相关的模型学习和强化学习文献。同时，讨论了激励解匹配之后的解决方案，以促进进一步的研究，从而使未来的语言模型更加准确地遵循用户的指令，提供更安全和有用的服务。

Oct, 2023

基于激光雷达的端到端强化学习自主赛车

该研究使用强化学习算法开发和训练了一个代理机器人，在模拟环境中利用激光和速度数据导航赛车，并在真实赛车场景中进行了实验评估，展示了强化学习算法在提高自主驾驶赛车性能方面的可行性和潜在优势。

Sep, 2023

使用神经网络奖励函数的开放式强化学习

该研究提出了一种使用神经网络编码奖励函数的方法，通过迭代训练，以鼓励更复杂的行为，实现在高维度机器人和像素级环境下的无监督学习，从而学习包括前空翻和单腿奔跑等丰富的技能。

Feb, 2022

利用未标记的数据进行高效反馈的基于人类偏好的强化学习

本文提出了两个损失函数，利用未标记的轨迹集参与奖励学习过程，并结构化奖励模型的嵌入空间以反映状态空间与操作距离之间的结构，旨在提高样本效率和奖励恢复能力，该方法在基于机械臂操作的领域上比当前的最优算法 PEBBLE 表现更好。

Feb, 2023

强化学习从人类反馈中的开放问题与基本限制

强化学习来自人类反馈是一种训练 AI 系统与人类目标对齐的技术，但其自身存在的问题、局限性以及相关改进技术的概述，以及提出用于改善社会监督的审计和公开标准的重要性。

Jul, 2023

利用策略奖励学习对语言模型进行微调

提出了一种基于策略的奖励学习（RLP）无监督框架，通过使用策略样本来完善奖励模型，以保持其在分布上的一致性，实验结果表明 RLP 在三个基准数据集上始终优于现有技术。

Mar, 2024

强化学习与人类反馈调查

深入探讨人机交互技术中基于人类反馈的强化学习（RLHF）的基本原理、应用及其研究趋势。

Dec, 2023