R^2-Bench: 参照感知模型在干扰下的鲁棒性基准测试

Mar, 2024

R^2-Bench: 参照感知模型在干扰下的鲁棒性基准测试

$\text{R}^2$-Bench: Benchmarking the Robustness of Referring Perception Models under Perturbations

Xiang Li, Kai Qiu, Jinglu Wang, Xiaohao Xu, Rita Singh...

TL;DR本研究评估了引用感知模型对各种扰动在通用和特定情境下的鲁棒性，提出了扰动的综合分类，并开发了一个多功能工具箱来合成和评估复合扰动的影响。通过该工具箱，构建了一个评估引用感知模型对嘈杂条件下的健壮性的基准，同时还提出了一种基于语言模型的代理机制，通过自然语言指令简化和自动化模型评估。研究揭示了当前引用感知模型在各种扰动下的弱点，并提供了评估模型鲁棒性的工具，有望促进智能系统安全、鲁棒地融入复杂现实场景。

Abstract

referring perception, which aims at grounding visual objects with multimodal referring guidance, is essential for bridging the gap between humans, who provide instructions, and the environment where intelligent systems perceive. Despite progress in this field, the →

referring perception robustness perturbations taxonomy model evaluation

发现论文，激发创造

RUPBench：基于干扰的推理鲁棒性评估大型语言模型的基准测试

通过对大型语言模型（LLMs）进行系统的鲁棒性评估，本研究提供了关于 LLMs 对多样化和噪声输入的处理能力方面的进一步改进的见解。

Jun, 2024

可定制扰动合成用于鲁棒性 SLAM 基准测试

我们提出了一个用于评估多模态 SLAM 模型对各种扰动的鲁棒性的新型、可定制的噪声数据合成流程，并利用此流程实例化了 Robust-SLAM 基准，揭示了现有 SLAM 模型在真实世界干扰下的易感性。

Feb, 2024

从完美到嘈杂的世界模拟：用于 SLAM 鲁棒性评估的可定制的多模态干扰

我们提出了一种新颖的、可定制的噪声数据合成管道，旨在评估多模态 SLAM 模型对各种干扰的弹性，通过使用所提供的工具箱，将清洁环境转化为具有挑战性的噪声模拟。使用该管道，我们构建了大规模 Noisy-Replica 基准，并评估现有高级 RGB-D SLAM 模型对多种干扰类型的风险容忍度。

Jun, 2024

RoTBench: 评估大型语言模型在工具学习中的鲁棒性的多层级基准测试

介绍了 RoTBench，用于评估工具学习中 LLMs 的鲁棒性的多级基准。通过在五个不同级别的噪声环境下进行实验，揭示了现有模型在工具选择、参数识别和内容填充三个关键阶段中的弹性问题。为了增强 LLMs 在工具学习中的鲁棒性，提出了 RoTTuning 策略。

Jan, 2024

多集合免疫接种：跨多个挑战集评估模型的稳健性

探讨语言模型对输入扰动的敏感性以及通过不同训练策略来提高模型性能和鲁棒性的方法，通过在 Tabular-NLI 任务中的实例验证了该模型可对抗不同的扰动而不降低准确性。

Nov, 2023

揭示参照理解对多模态语言模型的力量

该论文提出了一种新的方法来增强多模态大语言模型的指称理解能力，通过使用边界框的坐标表示图像中的指称对象，并将其转化为特定格式的文本，使模型能够以自然语言处理坐标，同时通过自洽引导方法和参数高效的调整框架进一步提升指称理解能力。实验结果表明，该方法在传统的视觉语言和指称理解任务中的性能优于其他方法。

Oct, 2023

双重扰动：关于鲁棒性和反事实偏差评估的稳健性

本文提出一种 “双重扰动” 框架，以揭示测试数据集之外的模型弱点。我们将该框架应用于研究两种基于扰动方法的分析模型稳健性和反事实偏差的方法，并引入新的攻击方法以找到易受攻击的案例。该方法可揭示在测试数据集中未直接显示的隐含模型偏见。

Apr, 2021

LLM 的输入扰动问题重新审视：噪声槽填充任务的统一鲁棒性评估框架

使用大型语言模型来评估对话理解能力，在输入扰动场景下提高扰动稳健性表现。

Oct, 2023

自主车辆稳健决策中感知误差建模

本文提出了一种基于仿真的方法，以回答一个关键问题：感知系统的性能是否足以让决策系统做出强有力的、安全的决策，同时还展示了如何分析不同类型的感知误差对自主系统行为的影响。

Jan, 2020

引导式多目标跟踪

通过引入具有鉴别力的语言词汇，我们首先将 Refer-KITTI 转化为大规模数据集 Refer-KITTI-V2，解决了类别不平衡问题，并通过大型语言模型推进策略扩展了数据集，包含了 617 个不同的关键词，超过了之前 RMOT 基准。此外，RMOT 的端到端框架还通过简单而优雅的时间推进策略进行了优化，表现优于之前的方法。

Jun, 2024