Jan, 2024

关于大型音视频语言模型中的音频幻觉

TL;DR通过分析大型音视频语言模型中的音频幻觉,本文收集了包含幻觉的 1,000 个句子,并通过预训练的音频文本模型以零样本和微调的方式进行音频幻觉分类任务,结果显示零样本模型表现更好 (52.2% F1),优于随机模型 (40.3%),微调模型表现最佳 (87.9%)。