Aug, 2024

BI-MDRG:在多模态对话响应生成中桥接图像历史

TL;DR本研究解决了多模态对话响应生成任务中缺乏大规模数据集导致的信息遗漏问题。提出的BI-MDRG方法通过利用图像历史信息,提高了文本响应与图像内容的相关性及图像响应中对象的一致性。研究结果显示BI-MDRG显著提升了多模态对话的质量,并创建了一个300个对话的标注数据集以评估图像一致性。