面向主动视觉的预测机器学习

ICLROct, 2017

Toward predictive machine learning for active vision

Emmanuel Daucé

TL;DR该论文提出了基于主动推理框架的机器学习技术，提出了基于编码自动化和受生物启发的认知结构，并通过计算机模拟证明了该方法的有效性，同时分析了其局限性和优点。

Abstract

We develop a comprehensive description of the active inference framework, as proposed by Friston (2010), under a machine-learning compliant perspective. Stemming from a biological inspiration and the auto-encoding principles, the sketch of a →

active inference machine learning cognitive architecture estimation-oriented control policies foveated inspection

发现论文，激发创造

行动之前先展望：通过预测运动效果进行端到端主动识别

通过训练循环神经网络模型的运动策略，结合学习预测代理在移动中对环境的影响，我们成功实现了主动学习视觉识别，并提高了识别性能。

Apr, 2016

仿真智能体的可支配性推断和主动运动控制

基于自由能最小化原则的主动推理理论，提出了一个输出 - 概率、时间预测、模块化人工神经网络结构，能够处理感觉运动信息，推理与行为相关的世界方面，并调用高度灵活、目标导向的行为，其中包括利用形成的地形图灵活驾驶、避免障碍和选择通往目的地的路径。另外，研究表明该学习代理适用于进行零样本推广，适用于不同地形的环境。

Feb, 2022

面向人形机器人的积极推断身体感知和动作

通过在仿生系统中应用主动推理身体感知和行为模型，能够在机器人上实现适应性身体感知和动作，并分析该方法适用于现实世界的交互。

Jun, 2019

基于双流注视的主动视觉学习

基于 “双流假设” 的二元流视觉学习框架通过模拟人类视觉皮层的神经处理机制，利用深度神经网络来处理输入图像，实现了物体属性的预测和边界框的定位。

Mar, 2024

基于预测编码和不确定性最小化的主动感知

运用预测编码和不确定性最小化两种生物启发式计算方式，提出了一种端到端的嵌入式探索过程，可用于解决任务无关的探索问题。在迷宫导航和积极视觉任务中，我们的模型均能够通过建立无监督表示，对感知场景进行主动采样、高效分类，学习效率更高、数据效率更高。此外，模型的模块化设计允许分析其内部机制以及在探索行为中，感知与行动之间的相互作用。

Jul, 2023

主动预测编码：一种用于学习层次化世界模型以进行感知和规划的统一神经框架

提出了一种新的预测编码框架，称为主动预测编码，利用超网络、自监督学习和强化学习来学习层次化的世界模型，并成功解决了细分视觉和复杂动作序列组合等多个问题。

Oct, 2022

使用主动推理实现以物体为中心的场景表征

本文提出了一种基于层次化对象中心生成模型的场景理解方法，利用神经启发式的行动和感知框架实现了代理的对象类别和姿态的推断，并提出了一个新的基准来评估主动视觉代理的行为，并表明我们的主动推理代理在平衡认知觅食和目标驱动行为方面表现优异，远胜于监督和强化学习基线。

Feb, 2023

主动视觉系统固有对抗鲁棒性研究

当前深度神经网络容易受到对抗样本的攻击，添加有针对性的噪音改变预测结果。本研究提出将主动视觉机制融入深度学习系统，通过从不同的注视点获取下采样视觉片段进行学习和推理，实现更大幅度的鲁棒性提升，同时可视化分析证明了从不同注视点进行推理使主动视觉方法对恶意输入更加抵抗。

Mar, 2024

深度学习时代的凝视

本文介绍了一种使用视锥传感器主动关注视觉场景的方法，并提出了一种端到端可区分的视锥主动视觉架构，该架构利用图卷积网络处理视锥图像，并提供一种简单而有效的视锥图像采样形式。我们的模型通过学习迭代地关注与分类相关的图像区域。我们在多个图像数据集上进行了详细实验，比较了我们的方法与先前的视锥视觉方法的性能，同时还测量了不同选择（如视锥程度和网络执行的固定点数）对目标识别性能的影响。我们发现，我们的模型在具有可比参数和给定像素或计算预算的最先进 CNN 和视锥视觉架构上表现更好。

Dec, 2023

深度架构图像跟踪中的注意力学习

提出了一种基于注意力的模型，利用注视数据进行同时进行目标跟踪和识别。模型有两个相互作用的通路：身份和控制，分别模拟神经元科学模型中的「what 和 where」通路，其中前者使用深度（分解）受限玻尔兹曼机模拟对象外观并执行分类，而后者模拟关注对象的位置、方向、大小和速度，并估计状态的后验分布。

Sep, 2011