- 起步最困难:大规模语言模型对于时间数据的表示和分词的陷阱
介绍了大型语言模型(LLMs)在移动健康感知等人类中心任务中的使用,并通过案例研究证明了目前流行的 LLMs 对于时间数据的分词处理存在错误,提出了解决方案如轻量级嵌入层调整和多模态适配器来弥合模态差异。该论文强调了语言模型在处理输入细微差 - CLIPMasterPrints:利用潜变量演化欺骗对比性语言图像预训练
通过挖掘生成模型的潜在空间,利用进化策略或随机梯度下降搜索,我们展示了可以最大化 CLIP 模型的置信度得分,适用于大量不同的提示,但对人类不可识别的欺骗主图像。我们研究了挖掘的欺骗主图像的属性,发现训练于少量图像标题的图像可能普遍适用于更 - ACL模态适应还是正则化?以端到端语音翻译为例的案例研究
该研究发现,在端到端语音翻译 (E2E ST) 的预训练和微调中,存在语音和文本数据之间的模态差异,但该差异只在微调的早期阶段产生影响。然而,另一个 “容量差距” 则是高资源任务总是需要一个大模型来适应,当模型被重用于低资源任务 (E2E - ACLCMOT: 基于最优传输的跨模态 Mixup 语音翻译
该论文研究了语音翻译的跨模态任务,以及如何通过使用最优传输和跨模态混合等方法,来克服语音和文本之间的模态差异,从而提高翻译的准确性。实验结果表明,该方法比以往方法表现更优秀。
- ACLDUB: 语音翻译中的离散单元反向翻译
本文提出了离散单元反向翻译(DUB)模型,用于探究语音到文本翻译(ST)中:(1)使用离散单元还是连续特征表征语音更有优势;(2)对 ST 使用有用的机器翻译技术的好处有多大。DUB 成功地将反向翻译技术应用于 ST,平均提高了 MuST- - 面向端到端手语翻译的跨模态数据增强
提出一种名为交叉模态数据增强(XmDA)的框架,以通过从标记数据中利用伪 Gloss-Text 对实现从手语视频到文本的端到端手语翻译
- ACL理解和弥合语音翻译的模态差距
本文研究对于 ST 和 MT 之间的通道差,提出了一种名为 Cress 的跨模态规范化方法。通过输出 ST 和 MT 的预测值,使用采样和不同训练权重来处理难以处理的情况,实现了在 MuST-C 数据集的八个方向上取得了显著效果。
- SIGIR可学习的基于支柱的图像 - 文本重排序
本文提出了一种新的可学习的基于框架的重新排序范式,该范式可以捕捉图片和文本之间的邻居关系,提高单模态检索任务的性能。实验结果表明,该范例具有很好的鲁棒性和推广性能力,并且可以在不同的基础模型上取得很好的效果。
- 利用模态不变特征进行鲁棒性多模态情感识别(缺失模态)
本研究提出了使用不变特征的缺失模态想象网络解决异构模态之间的模态差异问题,改善了缺失模态预测的鲁棒性并提升了多模态情感识别表现。
- M 适配器:端到端语音到文本翻译的语言形式适应
本研究提出一种新型基于 Transformer 的 M-Adapter 方法,通过建模语音序列的全局和局部依赖关系,将语音表示特征适应到文字输入上,以缩小语音输出和文字输入之间的模态差距,从而提高端到端语音到文本翻译的质量,并在 Must- - 跨模态对比表示学习中的模态差距理解
该研究提出了模态间隙这一多模型表示空间中的有趣几何现象,对此进行了系统分析,以及对构成格局的模型初始化和对比学习优化进行了实证和理论上的解释。研究表明,严格维持不同数据模态之间的分离效用,有助于提高模型的下游分类性能和公平性。
- ICCVASMR: 基于属性的人物搜索学习和自适应语义边界正则化器
该研究提出了一种新的交叉模态嵌入学习损失函数,它采用语义距离自适应间隔来推开共享不同标签之间的嵌入点。在公共基准测试中,该方法在没有额外工具的情况下实现了最先进的记录。
- 弥合语音到文本翻译的模态差距
提出了一种称作 STAST 的语音转写自适应模型,通过分离语音翻译编码器为三个部分以及引入跨模态自适应方法来缩小语音和文本的模态差距,进而在英法和英德语音翻译数据集上实现了显著的性能优越。
- ECCV基于属性的人物搜索的共生对抗学习
为了解决缺少查询图像的情况下基于属性的人员搜索任务的挑战,本文提出了一种 SAL 的符号对抗学习框架,其中交互的两个生成敌对网络相互受益,从而在两个具有挑战性的人行数据集上超越了九种最新方法。
- 跨模态人脸识别的深度感知映射
本文提出了一种利用深度神经网络来捕捉 2 种不同模式下人脸匹配问题的非线性映射关系,以达到跨模式人脸匹配的目的,并在 3 个数据集上获得了相当大的识别率提升。