提升社交机器人对受控与自然人机交互的视觉感知

Mar, 2024

提升社交机器人对受控与自然人机交互的视觉感知

Improving Visual Perception of a Social Robot for Controlled and In-the-wild Human-robot Interaction

Wangjie Zhong, Leimin Tian, Duy Tho Le, Hamid Rezatofighi

TL;DR社交机器人使用视觉感知来理解用户和环境，本研究使用深度学习模型改进了社交机器人的视觉感知功能，并通过实验评估了该功能对用户交互性能和体验的影响。

Abstract

social robots often rely on visual perception to understand their users and the environment. Recent advancements in data-driven approaches for computer vision have demonstrated great potentials for applying

social robots visual perception deep-learning models interaction performance user experience

发现论文，激发创造

展示、关注和互动：通过神经关注 Q 网络实现可感知的人机社交互动

通过多模式深度关注循环 Q 网络，机器人在与人交互 14 天后表现出类似人的社交互动技能，同时学会了以可感知和社交接受的方式响应复杂的人类行为。

Feb, 2017

人形机器人的感知

本综述总结了人形机器人感知领域的最新发展和趋势，识别了内部状态估计、外部环境估计和人机交互三个主要应用领域，并讨论了各个领域中不同传感器模态的应用和最近的重要研究成果。

Sep, 2023

学习多模态感知的社交机器人导航的研究

自主移动机器人需要通过其载有的传感器 (如 LiDAR 和 RGB 相机) 感知环境，并做出适当的导航决策，为了在人类居住的公共空间中导航，这个导航任务不仅仅是避开障碍物，还需要考虑周围的人类及其意图，以对应社会规范进行导航行为的微小变化，机器学习方法在以数据驱动的方式捕捉这些复杂而微妙的社交互动方面显示出了有效性，而无需显式手工制作简化模型或代价函数，考虑到多种可用传感器模态和学习方法的效率，本文通过使用大规模真实数据集对使用多模态感知学习社交机器人导航进行了全面的研究，该研究分析了在不同社交场景中的全局和局部规划水平上的社交机器人导航决策，并将单模态和多模态学习与一组经典导航方法进行对比，同时从学习的角度分析了训练和泛化性能，我们还进行了一个人体研究，探究了使用多模态感知进行学习如何影响感知到的社交合规性，结果表明，与单模态学习相比，多模态学习在数据集和人体研究中具有明显优势，我们开源了代码，供社区在未来研究中使用多模态感知学习社交机器人导航。

Sep, 2023

深度视觉预见性规划机器人动作

本论文提出一种基于无标注训练数据的方法，结合深度动作条件视频预测模型和模型预测控制，使真实机器人能够进行非抓取操作，比如推动物体，并且可以处理训练过程中没有出现过的新物体。

Oct, 2016

机器人的视觉触觉物体感知：概述

本文概述了机器人的视觉 - 触觉对象感知的现状和挑战，并讨论了多模式机器学习的主要挑战和最新进展。

Mar, 2022

目标识别研究现状：以 iCub 机器人为视角

本研究通过设计一种数据获取协议，对目前的深度学习方法在机器人视觉中的物体识别效果进行了广泛研究，并介绍了一个新的数据集。研究结果表明，需要知识转移才能提高性能，同时发现了机器人应用中的物体识别问题与图像检索任务之间的主要差异。

Sep, 2017

视觉先见：基于模型的深度强化学习在基于视觉的机器人控制中的应用

本文提出了一种实用于实际机器人任务 -- 如机器人操作 -- 的深度强化学习算法，并在无人监督的情况下使用自我监督的基于模型的方法来训练预测模型，通过选择指定像素、目标图像或图像分类器作为目标设定方法，探索实现前所未见的任务和物体的普遍泛化。

Dec, 2018

面向基于视觉的深度强化学习的机器人运动控制

本文介绍了一种基于机器学习的系统，用于仅基于视觉感知控制机器人操作器。首次展示了只从原始像素图像学习机器人控制器的能力，而不需要对配置有任何先前知识。我们建立在最近深度强化学习的成功基础之上，并开发出一种利用外部视觉观察学习三关节机器人操作器目标到达的系统。经过在仿真中的训练后，Deep Q 网络（DQN）被证明能够执行目标到达。将网络转移到真实硬件和真实观察的朴素方法失败了，但实验证明在用合成图像代替相机图像时，网络可以正常工作。

Nov, 2015

推断用户在导航场景中对机器人表现的印象

我们研究使用非语言行为线索和机器学习技术来预测人们对机器人行为的印象，通过观察类型的不同组合以及人类和监督学习技术的预测能力分析发现，面部表情和空间特征对人类对机器人表现的印象有用，而导航场景中的空间特征是这种推断任务中最关键的信息。在二元分类中，人类预测和机器学习模型的 F1 分数提高了一倍以上，表明它们在判断机器人表现的方向性上比精确预测性能评级更好。基于我们的研究结果，我们提供了在真实导航场景中实施这些预测模型的指南。

Oct, 2023

计算机视觉中的人类感知

本文研究计算机视觉、深度神经网络（DNN）、人类视觉感知和无体系结构视觉学习之间的联系，并发现 DNN 计算可用于估计感知损失，并与有趣的理论观点一致，即人类感知的特性是视觉学习无体系结构的结果。

Jan, 2017