Mar, 2024
通过无需训练的码书优化和分层对齐发掘多模态统一离散表示的潜能
Unlocking the Potential of Multimodal Unified Discrete Representation through Training-Free Codebook Optimization and Hierarchical Alignment
Hai Huang, Yan Xia, Shengpeng Ji, Shulei Wang, Hanting Wang...
TL;DR最近的表征学习进展展示了多模态对齐的重要性。我们提出了一种无需重新训练的代码本优化方法(TOC)来提高模型性能,并引入了分层双交叉模态信息分解(H-DCID)方法来扩展信息分离和对齐到两个级别,进一步增强准确的多模态学习。