FRAC-Q-Learning：一种避免无聊过程的社交机器人强化学习

Nov, 2023

FRAC-Q-Learning：一种避免无聊过程的社交机器人强化学习

FRAC-Q-Learning: A Reinforcement Learning with Boredom Avoidance Processes for Social Robots

Akinari Onishi

TL;DR该研究提出了一种专门用于社交机器人的新型强化学习方法，FRAC-Q-learning，它具备避免用户厌烦的能力。通过与传统的Q-learning进行比较，实验证明FRAC-Q-learning在兴趣分数上显著较高，相对传统Q-learning更难让用户感到厌烦，因此该算法有望帮助开发不会令用户感到厌烦的社交机器人，并能够在基于Web的通信和教育系统中找到应用。该论文首次全面介绍了FRAC-Q-learning的整个过程、详细实现和评估方法。

Abstract

The reinforcement learning algorithms have often been applied to social robots. However, most reinforcement learning algorithms were not o

发现论文，激发创造

通过交互无悔学习实现强化学习和模仿学习

通过交互式学习和无悔在线学习的分析方法，本文扩展了现有结果，发展了利用成本信息的交互式模仿学习方法，并将该技术扩展到应对强化学习，提供了对在线近似策略迭代成功的理论支持，建议了一系列新的算法，并提供了对模仿学习和强化学习现有技术的统一视角。

Jun, 2014

机器人通过多模态深度强化学习获得社交智能

本文提出了使用多模式深度Q网络（MDQN）的方法，通过试错法让机器人从与人类的互动中收集数据并从高维感知信息中学习人类的交互行为，以使机器人能够具备与人类一样的交互技能。在与人类的相互作用14天后，本文表明机器人成功地学会了基本的人机交互技能。

Feb, 2017

展示、关注和互动：通过神经关注 Q 网络实现可感知的人机社交互动

通过多模式深度关注循环Q网络，机器人在与人交互14天后表现出类似人的社交互动技能，同时学会了以可感知和社交接受的方式响应复杂的人类行为。

Feb, 2017

使用深度强化学习学习面向群组的社交适当机器人接近行为

我们提出了一个使用深度学习方法的Staged Social Behavior Learning(SSBL)框架，在模拟中学习机器人在社交场景中的行为，然后将其应用于与人类交互的实际机器人中。实验结果表明，相比于最先进的模型，我们的模型可以生成更加符合社交规范的行为。

Oct, 2018

元强化学习

Meta-Q-Learning (MQL)是一种新的离线策略算法，它建立在三个简单的思想之上：使用过去轨迹的表示作为上下文变量可以使Q-learning与最先进的元RL算法相竞争；最大化训练任务的平均奖励的多任务目标是元训练RL策略的有效方法；从元训练回放缓冲区中获取的过去数据可以通过非策略更新来适应新任务，MQL借鉴了势估计的思想，从而增加了可用于适应的数据量。实验表明，与元RL的最新技术相比，MQL在标准的连续控制基准测试中表现得更好。

Sep, 2019

社交机器人的变分元强化学习

本研究探讨利用元强化学习方法来通过各种奖励函数快速适应机器人所处的不同环境，提高社交机器人的行为表现，并通过径向基函数图层降低后验坍塌负面影响。

Jun, 2022

Q-Transformer: 基于自回归Q函数的可扩展离线强化学习

本文介绍了一种用于训练多任务策略的可扩展强化学习方法，该方法可以利用人类示范和自主收集的数据。通过使用Transformer作为Q函数的可扩展表示方法，并应用于离线时间差分备份的训练中，我们称之为Q-Transformer。通过将每个动作维度离散化并将每个动作维度的Q值表示为单独的标记，我们可以应用有效的高容量序列建模技术进行Q学习。我们还提出了几个设计决策，使得Q-Transformer在离线强化学习训练中表现出良好性能，并且在大型多样的真实世界机器人操纵任务套件上，Q-Transformer优于先前的离线强化学习算法和模仿学习技术。项目的网站和视频可在此URL找到。

Sep, 2023

机器人的精细调整简化：自主现实世界强化学习的预训练奖励和策略

通过使用预训练和微调范式，我们引入RoboFuME系统，利用网络上的数据和模型，允许机器人在几乎没有人工干预的情况下学习新任务，并通过利用校准的离线强化学习技术和预训练的视觉语言模型构建健壮的奖励分类器，在线进行微调并提供奖励信号，从而达到最小化人工干预的目标。在五个真实机器人操作任务和模拟实验中，我们的方法表现出色。

Oct, 2023

基于智能社交学习的强化学习黑盒机器人控制的优化策略

提出智能社会学习（ISL）算法，用于实现黑盒机器人系统的智能控制，ISL基于智能优化原理，并结合强化学习思想，具有强大的搜索能力、快速计算速度、较少的超参数和对稀疏奖励的不敏感性。在MuJoCo的六个连续控制基准案例上，将ISL算法与四种先进方法进行比较，以验证其有效性和优势。此外，ISL在UR3机器人的模拟和实验抓取任务中进行了应用，并获得了令人满意的解决方案。

Nov, 2023

部分动力学知识的高效强化学习

本文研究在线强化学习的样本复杂性问题，并考虑了有关系统动态的部分知识，提出了一种基于Q-learning的算法，能够在具有有限Markov决策过程的系统中实现近似最优策略。

Dec, 2023