动态物体理解：评估人工视觉感知的框架

Feb, 2022

动态物体理解：评估人工视觉感知的框架

Dynamic Object Comprehension: A Framework For Evaluating Artificial Visual Perception

Scott Y.L. Chin, Bradley R. Quinton

TL;DR本文讨论增强和混合现实中的视觉感知挑战，且探讨了现有评估标准的不足，并提出了新的评估指标以激励和评估这个新兴领域的进步。

Abstract

Augmented and mixed reality are emerging as likely successors to the mobile internet. However, many technical challenges remain. One of the key requirements of these systems is the ability to create a continuity

augmented reality mixed reality continuity visual perception evaluation criteria

发现论文，激发创造

增强现实与计算机视觉：城市驾驶场景的高效数据生成

本研究探讨了结合实际图片和虚拟对象的增量学习方法，通过少量用户交互的方式，将虚拟对象添加到实际图片中，从而提高物体实例分割模型的性能。通过在 KITTI 2015 和 Cityscapes 数据集上的实验结果表明，增量学习方法可以显著提高实例分割和物体检测模型的泛化能力。

Aug, 2017

机器人的视觉触觉物体感知：概述

本文概述了机器人的视觉 - 触觉对象感知的现状和挑战，并讨论了多模式机器学习的主要挑战和最新进展。

Mar, 2022

关于对称实现的出现

人工智能（AI）已经彻底改变了人类的认知能力，并促进了能够与人类在物理和虚拟环境中进行交互的新型 AI 实体的发展。我们介绍了一个统一表示形式 —— 对称现实框架，它能包括各种物理 - 虚拟融合的形式，从而让从更广泛的角度理解 AI 实体如何与人类协作以及如何巩固不同的物理 - 虚拟整合技术路径。我们提出了一个 AI 驱动的主动辅助服务的示例，展示了对称现实系统在特定任务（如倒水）中的运作，并为不同领域的研究人员和实践者提供有益的观点和指导，从而为人工智能与人类在物理和虚拟环境中的共存的持续研究做出贡献。

Jan, 2024

虚拟现实用于理解人工智能驱动科学发现，在量子光学中的应用

研究表明，通过将分析过程转移到沉浸式虚拟现实 (VR) 环境中，可以帮助研究人员理解由人工智能生成的解决方案，进而发现新的解释和理解实验性量子光学，并且能够加快后续的发现迭代。

Feb, 2024

融合模型：朝着虚拟、物理和认知的整合及其原则

本研究介绍了一种融合模型，即融合宇宙（FU），该模型将虚拟世界、物理世界和认知世界融合在一起。本文研究了涉及沉浸式和交互式体验的几个方面，并提出了融合宇宙的基本原则，可以将物理世界和虚拟世界无缝地融合在一起。

May, 2023

AVA：通过视觉感知驱动的决策使成为自主可视化代理

我们的研究探索多模式基础模型在可视化中的应用，利用多模式大语言模型 (LMM) 的视觉感知能力来开发自主可视化代理人 (AVAs)，它们可以通过自然语言解释和实现用户定义的可视化目标。我们提出了 AVAs 设计的第一个框架，并展示了几种使用场景，以展示该提议范例的普适性。这些 AVAs 作为虚拟可视化助手可以协助领域专家完成可视化输出的参数选择，即使他们缺乏调整可视化输出的知识或专业技能。我们的初步探索和概念验证代理人表明，这种方法在需要解释以往可视化输出以选择适当的可视化参数时可广泛应用。我们与人工智能研究、医学可视化和放射学等领域的专家进行了非结构化访谈，并结合了他们的反馈，突出了 AVAs 的实用性和潜力。我们的研究表明，AVAs 代表了一种设计智能化可视化系统的通用范式，可实现高级可视化目标，为未来发展专家级可视化代理人铺平了道路。

Dec, 2023

REVERIE: 远程实体视觉室内指称表达

本文提出了一个包含自然语言描述复杂机器人任务的数据集，以期提高机器人与人类之间的互动能力，在使用多个现实图像中的可见物体来回应多方面的指令方面进行各种复杂任务的能力是解决这一挑战的关键。我们测试了多种最先进的视觉和语言导航，以及指涉表达模型来验证这项新任务的难度，但他们中没有一个显示出有希望的结果。我们还提出了一种新颖的交互式导航 - 指针模型，为该任务提供了强有力的基线。该模型在未见测试集上表现最佳，但与人类表现相比仍有很大的改进空间。

Apr, 2019

视觉与语言研究中的挑战与前景

本文对语言图像理解中人工智能评估的进展和局限进行了综述，并提出了解决方案。

Apr, 2019

虚拟世界作为多对象跟踪分析的代理

本研究运用计算机图形学的进展生成虚拟世界，实现了完全标记、动态、逼真的代理虚拟世界，并通过虚拟 KITTI 数据集提出了有效的现实世界克隆方法，通过该方法，可以提高深度学习算法预训练的性能。本研究进一步证明了虚拟世界可以测量各种天气和成像条件对识别性能的影响。

May, 2016

使用方向边界框进行物体检测的环境条件评估，用于增强现实应用

该研究提出了一种新的方法，使用定向边界框与深度识别网络来改善增强现实中场景分析和物体识别的性能和处理时间，该方法使用 DOTA 数据集和一个模拟不同环境、照明和获取条件的合成数据集进行评估，结果表明该方法在大多数测试条件下能够更好地识别小物体，具有更高的平均精度和准确性。

Jun, 2023