将图像蒸馏至虚无：用反演知识蒸馏进行多模式机器翻译

EMNLPOct, 2022

将图像蒸馏至虚无：用反演知识蒸馏进行多模式机器翻译

Distill the Image to Nowhere: Inversion Knowledge Distillation for Multimodal Machine Translation

Ru Peng, Yawen Zeng, Junbo Zhao

TL;DRIKD-MMT 提出了一种新的多模式机器翻译框架，通过知识蒸馏技术支持无图像干扰的推理阶段，并在 Multi30k 基准测试中取得了最先进的结果。

Abstract

Past works on multimodal machine translation (MMT) elevate bilingual setup by incorporating additional aligned vision information. However, an image-must requirement of the multimodal dataset largely hinders MMT's development -- namely that it demands an aligned form of [image, source

multimodal machine translation image-free inference knowledge distillation mmt frameworks state-of-the-art

发现论文，激发创造

文本图像机器翻译的多教师知识蒸馏

本文提出一种基于多教师知识蒸馏 (MTKD) 的文本图像机器翻译 (TIMT) 方法，将管道模型的知识有效地转移至端到端 TIMT 模型中，包括图像编码器、序列编码器和解码器的知识引导优化，并采用令牌和句子级别知识蒸馏相结合来提高翻译性能。实验结果表明，相比于现有的管道和端到端模型，MTKD 可以更有效地改进文本图像翻译性能，具有更少的参数和更少的解码时间。

May, 2023

无监督多模态神经机器翻译

本研究提出了一种基于多模态机器翻译框架的无监督神经机器翻译方法，通过图像识别加强双向多模态翻译的学习效果，在 Multi30K 数据集上与传统基于文本的神经机器翻译相比，本方法有更好的实验结果。

Nov, 2018

基于知识蒸馏的多语言神经机器翻译的终身学习

研究多语言神经机器翻译中的灾难性遗忘问题，并提出基于知识蒸馏的生命周期学习方法，以应对其面临的问题。实验结果显示，该方法能够更好地巩固以前的知识并显著减轻问题。

Dec, 2022

将隐式多模态知识融入到零资源对话生成中的 L-LMs

通过利用隐式多模态知识，将视觉隐式知识融入基于语言模型的对话生成系统，能够在零资源情境下实现更丰富的对话生成，我们提出了一种名为 VIKDF 的框架，通过两个主要阶段（知识蒸馏和知识整合）实现，能够有效解决零资源情境中多样、高质量对话数据集稀缺性所带来的挑战，并取得了优于现有模型的生成对话质量。

May, 2024

多语言神经机器翻译与知识蒸馏

本文提出一种基于蒸馏的方法来提高多语言机器翻译的准确性，并在数据集上进行了实验，结果表明该方法可以通过训练单独的模型（即老师）来训练多语言模型，这使得一个模型即可具备处理多达 44 种不同语言的能力（且其准确性与单独模型相当甚至更优）。

Feb, 2019

利用在线互相知识蒸馏实现跨模态医学图像分割

本文提出了一种利用形状先验知识和图像对齐模块，通过多模态数据协同分割医学图像的方法，并通过实验在 MMWHS 2017 数据集上验证了该方法在 CT 分割上的优越性。

Oct, 2020

多语言无监督神经机器翻译的知识蒸馏

本文介绍了一种简单的方法，使用单个编码器和解码器之间的翻译来在 13 种语言之间翻译，基于经验发现，提出了两种知识蒸馏方法，以进一步增强多语言机器翻译性能。我们的实验表明，在零 - shot 翻译方案中，在低资源语言对中减轻了糟糕的性能，并在一些非英语语言对之间实现了可靠性能。

Apr, 2020

视觉感知下的翻译精炼

我们提出了一个翻译和完善的方法，通过使用视觉信息来提高目标语言文本上下文的使用以及恢复源语言中错误或缺失的单词，从而实现多模态机器翻译的最新成果。

Jun, 2019

图像 - 文本检索的多模态数据集精炼

基于轨迹匹配的多模态数据集提炼方法在视觉语言数据集上表现出显著的改进，可通过只用 100 个训练对（数量减少一个数量级）几乎使图像到文本的检索准确率翻倍。

Aug, 2023

D$^2$TV: 双重知识蒸馏和目标导向视觉建模，用于多对多多模态摘要

本文提出一个多对多多模态摘要（M$^3$S）任务，该任务旨在以任何语言为输入，生成任何语言摘要，并包括相应的图像序列，进一步提出了一种双重知识蒸馏和面向目标视觉建模的框架，以在 M$^3$S 任务中实现目标导向的视觉特征。最后还贡献了一个 M$^3$Sum 数据集。

May, 2023