非平衡词对齐的非平衡最优输运

ACLJun, 2023

Unbalanced Optimal Transport for Unbalanced Word Alignment

Yuki Arase, Han Bao, Sho Yokoi

TL;DR本文研究了单语词汇对齐中的空对齐现象并提出了使用最优传输方法实现不均衡对齐且与专门设计的方法具有竞争力的方法。

Abstract

Monolingual word alignment is crucial to model semantic interactions between sentences. In particular, null alignment, a phenomenon in which words have no corresponding counterparts, is pervasive and critical in

word alignment null alignment semantic similarity optimal transport unsupervised learning

发现论文，激发创造

词嵌入空间的 Gromov-Wasserstein 对齐

本文将跨语言对应问题直接建模为最优传输问题，通过利用测度恢复算法所产生的词嵌入，使用 Gromov-Wasserstein 距离测量不同语言中单词对的相似度，并证明了该模型在无监督翻译任务中表现良好，效果与当前最先进技术相当。

Aug, 2018

渥太华：用于幻觉和遗漏翻译错误检测的最优输运自适应词对齐器

我们介绍了一种基于 Optimal Transport 的单词对齐器 OTTAWA，旨在增强机器翻译系统中幻觉和遗漏的检测能力。与现有方法相比，在 HalOmi 基准测试的 18 种语言对上，我们的方法取得了竞争性的结果，并具有识别错误类型和进行单词级检测的能力，而无需访问机器翻译系统的内部状态。

Jun, 2024

多模态分布对齐的分层最优输运

该研究提出了一个基于最优传输与聚类结构相结合的层级对齐方法，同时采用 ADMM 算法和 Sinkhorn 距离来提高噪声、模糊或多峰数据的对齐精度，并在合成数据和神经信号解码中进行了应用，表明该方法对于具有一致聚类结构的数据集在跨领域对齐方面具有显著的性能改进作用。

Jun, 2019

通过最优传输实现 LLM 的分布偏好对齐

基于最优输运的对齐（AOT）是一种针对 LLMs 的分布偏好对齐的新方法，通过在未配对的偏好数据中使正样本的奖励分布在一阶随机支配负样本的分布来对齐 LLMs。我们使用平滑和凸代价，对这种一阶随机支配的凸松弛进行了引入，并将其作为一个最优输运问题。通过实证测量排序，由于最优输运问题的一维特性和成本的凸性，它有一个封闭的解。我们通过罚除违反正样本奖励分布对负样本奖励分布的随机支配来使用 AOT 目标微调 LLMs，并通过考虑 OT 问题的对偶并证明其以参数速率收敛来分析 AOT 的样本复杂性。在各种对齐数据集和 LLMs 上的实证结果表明，在 Open LLM Benchmarks 和 AlpacaEval 的评估中，AOT 能够产生最先进的 7B 系列模型。

Jun, 2024

非平衡最优输运半对偶形式生成建模

本文提出基于 Unbalanced Optimal Transport (UOT) 的半对偶形式构建的新型生成模型，相比于基于 OT 的方法在处理噪点，稳定性和训练收敛速度等方面表现更优。通过实验验证了该模型的性质，并研究了 UOT 之间分布差异的理论上界。实验结果显示，该模型在 CIFAR-10 和 CelebA-HQ-256 数据集上的 FID 分别为 2.97 和 5.80，优于现有基于 OT 的生成模型。

May, 2023

不平衡最优传输：物体检测的统一框架

本文提出了一种新方法，使用不平衡最优输运（Unbalanced Optimal Transport）对目标检测模型进行训练，能够在 AP 和 AR 方面达到业内最好水平，并提供更快的初始收敛速度，适合于大规模模型的 GPU 实现。

Jul, 2023

循环一致的半耦合神经非平衡最优输运

本文提出了一种名为 NubOT 的神经非平衡最优输运 (OT) 方案，针对单细胞生物学领域中在不同时间点上获取的未配对分布或人群的比较问题，通过半耦合形式学习数据分布之间的最优耦合，解决了传统 OT 中质量守恒假设在人群大小变化时的不平衡场景下失效的问题，并应用到肿瘤细胞药物敏感性预测中，获得了明显的优化效果。

Sep, 2022

神经蒙古地图的不平衡性改进了非配对领域翻译

我们提出了一种理论上有根据的方法，将不平衡性融入到任何蒙娜贝伊贝图估计器中，用于无配对图像翻译。

Nov, 2023

使用学生强制最优传输改善文本生成

利用最大似然估计进行神经语言模型训练时，存在曝光偏差问题。提出使用最优传输匹配训练和测试时的序列，以及基于文本序列的结构和上下文信息进一步改进最优传输学习，有效改善了机器翻译、文本摘要和文本生成任务的表现。

Oct, 2020

理性文本匹配：通过最优传输学习稀疏对齐

使用最优传输方法对文本匹配进行有选择的说明性解释，结果产生高度稀疏的对齐，并具有与强注意力基线模型相当的预测准确度。

May, 2020