多模态分布对齐的分层最优输运
本研究提出了一种基于用于超平面空间上的点缀 Lorentz 测地空间的大旋量空间上的 gyrobarycenter 映射的正式主义,其衍生出对某些现有欧几里得变换方法到其双曲对应的 OT 的扩展,在检索方面 Euclidean 方法和 hyperbolic 方法具有类似的性能。
Dec, 2020
基于最优输运的对齐(AOT)是一种针对 LLMs 的分布偏好对齐的新方法,通过在未配对的偏好数据中使正样本的奖励分布在一阶随机支配负样本的分布来对齐 LLMs。我们使用平滑和凸代价,对这种一阶随机支配的凸松弛进行了引入,并将其作为一个最优输运问题。通过实证测量排序,由于最优输运问题的一维特性和成本的凸性,它有一个封闭的解。我们通过罚除违反正样本奖励分布对负样本奖励分布的随机支配来使用 AOT 目标微调 LLMs,并通过考虑 OT 问题的对偶并证明其以参数速率收敛来分析 AOT 的样本复杂性。在各种对齐数据集和 LLMs 上的实证结果表明,在 Open LLM Benchmarks 和 AlpacaEval 的评估中,AOT 能够产生最先进的 7B 系列模型。
Jun, 2024
多网络对齐的多层次多边界优化传输框架(HOT)通过分解网络,使用融合的 Gromov-Wasserstein(FGW)质心来处理大规模的解空间,并基于多边界设置将 FGW 距离推广到多网络对齐中,进而开发了一种快速的邻近点方法以获得局部最优解,通过广泛的实验证明了 HOT 在效果和可扩展性方面都明显优于现有技术的成果。
Oct, 2023
本文提出了基于图的最优传输(GOT)框架,采用最优传输学习跨领域映射,通过表示实体和动态构建的图来解决节点和结构之间的匹配问题,并通过节点匹配和结构匹配的 Wasserstein 距离和 Gromov-Wasserstein 距离用于损失公式实现对齐,在包括图像 - 文本检索、视觉问答、图像描述、机器翻译和文本摘要等各种任务中取得了一致的高效表现。
Jun, 2020
通过将度量空间从欧氏距离度量更改为测地距离度量,将先前的最优传输模型扩展到内在表示的领域自适应问题,并通过引入簇先验结构构建了一个隐式贝叶斯模型来提高数据的鲁棒性。
Apr, 2023
本文提出使用最优传输算法(OT)进行表示对齐,解决生物医学应用中的连续标签回归任务问题。通过提出新的测度域距离和引入后验方差正则化的方法,进一步为拓展任务提供了支持。此外,提出了将 OT 与度量学习相结合的方法,通过动态层次三重损失函数来描述全局数据分布,试验证明该方法在未监督和半监督学习任务的小分子和材料晶体数据上显著优于现有方法。
Feb, 2022
本文将跨语言对应问题直接建模为最优传输问题,通过利用测度恢复算法所产生的词嵌入,使用 Gromov-Wasserstein 距离测量不同语言中单词对的相似度,并证明了该模型在无监督翻译任务中表现良好,效果与当前最先进技术相当。
Aug, 2018
本文提出了一种基于最优传输的领域适应方法,使用仿射映射的封闭形式解决方案,并学习一个嵌入空间,使得该解决方案是最优且计算复杂性较低的。我们证明了该方法在同质和异质适应设置中均有效,并且优于或与其他基于传统 OT 和不可比空间的著名基线相当。此外,我们展示了我们的方法大大降低了计算复杂性。
May, 2023
该论文介绍了基于分布和话题建模的层次最优输运方法作为文档之间的元距离,以量化文档之间的相似性。这种方法具有解释性和可扩展性,并在 k-NN 分类方面表现良好。
Jun, 2019