Mar, 2024

R^2-Bench: 参照感知模型在干扰下的鲁棒性基准测试

TL;DR本研究评估了引用感知模型对各种扰动在通用和特定情境下的鲁棒性,提出了扰动的综合分类,并开发了一个多功能工具箱来合成和评估复合扰动的影响。通过该工具箱,构建了一个评估引用感知模型对嘈杂条件下的健壮性的基准,同时还提出了一种基于语言模型的代理机制,通过自然语言指令简化和自动化模型评估。研究揭示了当前引用感知模型在各种扰动下的弱点,并提供了评估模型鲁棒性的工具,有望促进智能系统安全、鲁棒地融入复杂现实场景。