关键词cross-modal relationships
搜索结果 - 2
- 语音语言模型的指导数据生成和无监督适应
我们提出了三种方法来生成合成样本,以训练和评估能够处理文本和语音输入的多模态大语言模型。通过解决包含多种模态的样本的稀缺性问题,合成数据生成成为提高这些系统性能并促进语音和文本领域的跨模态关系建模的关键策略。我们使用大型语言模型生成文本组件 - AAAI放松交叉模态同步的自监督音视频表示学习
CrissCross 是一种自监督学习框架,用于学习音频和视觉之间的表示,它还可以学习异步交叉模态关系,通过在多项下游任务方面的表现显示其有效性,并在 Kinetics-Sound 数据集上实现了优于或不逊于当前自监督方法的表现,同时也提供