Oct, 2022

当前的解码策略是否能够应对视觉对话的挑战?

TL;DR本文旨在探讨解码策略在视觉对话任务中的表现。通过比较不同的解码策略和超参数配置发现,目前尚未发现能同时满足单词丰富程度、任务准确性和视觉对齐要求的最佳策略,但是本文的深度分析能够提出每种策略的长处和不足,为未来的解码算法设计提供借鉴。