EMO: 自回归语言建模的地球移动距离优化

Oct, 2023

EMO: 自回归语言建模的地球移动距离优化

EMO: Earth Mover Distance Optimization for Auto-Regressive Language Modeling

Siyu Ren, Zhiyong Wu, Kenny Q. Zhu

TL;DR神经语言模型是人类文本的概率模型，主要使用最大似然估计进行训练。本文提出了基于 EMD 优化的自回归语言建模方法，通过对 EMD 的上界估计实现了端到端训练，并在广泛评估中表现出了比 MLE 更好的语言建模性能。此外，EMO 还能在仅微调 25000 个句子的情况下大幅提升下游任务性能，展现了作为轻量级校准方法的巨大潜力。

Abstract

neural language models are probabilistic models of human text. They are predominantly trained using maximum likelihood estimation (MLE), which is equivalent to minimizing the forward cross-entropy between the emp

neural language models maximum likelihood estimation earth mover distance optimization language modeling performance pre-trained language models

发现论文，激发创造

低复杂度数据并行的地球移动距离近似算法

本研究提出了一种基于数据并行的 Earth Mover's Distance 近似算法，具有线性时间复杂度以及适用于高维空间和高重叠概率分布的优势，在文本和图像领域中取得了较高的近似精度。

Dec, 2018

DeepEMD：一种基于 Transformer 的快速估计 Earth Mover's Distance

提出了一种基于注意力模型的训练损失的准确估算方法，用于生成模型并使用 Earth Mover's Distance 作为损失函数，并提供了使用该模型进行海量点云推断的显著性能提升。

Nov, 2023

BERT 压缩的多对多层映射与 Earth Mover's Distance

本文提出了一种基于 many-to-many layer mapping 的 BERT 蒸馏方法，利用 Earth Mover's Distance 计算知识传递的最小累积代价，并采用成本注意机制自动学习传递层权重，以在 GLUE 基准测试上实现与强竞争对手相当的性能表现和模型压缩。

Oct, 2020

高亮度 LHC 数据压缩的可微分 EMD

本篇论文研究如何训练卷积神经网络以学习可微分、快速的 EMD 近似函数，用于高亮度 LHC 的粒子探测器数据压缩，证明与基于均方误差的损失函数相比，使用可微分的 EMD CNN 进行训练的编码器神经网络表现更优。

Jun, 2023

EMO: 几次元元学习的史诗式记忆优化

本文提出一种叫作 EMO 的基于外部内存的元学习优化器，通过学习将过去的训练任务的学习过程保留和召回，在梯度提供信息有限时，使参数更新成功收敛，从而实现少样本元学习的优化问题。

Jun, 2023

基于专家混合的高效大规模语言建模

本文研究了自回归 MoE 语言模型在各种设置下与密集模型的规模比较，并发现除了 fine-tuning 以外，在相同预算下 MoE 模型比密集模型更加高效。该研究表明 MoE 和密集模型在任务和领域上的推广效果不同，值得进一步研究。

Dec, 2021

LocMoE：一种用于大型语言模型训练的低开销 MoE

通过转换部分节点间通信为节点内通信的路由策略，我们提出了一种新颖的负载均衡和局部性相结合的路由策略，并在 PanGu-Sigma 模型上进行了改进，实验证明该路由策略减少了每轮训练时间约 12.68% 至 22.24%，而不影响模型的准确性。

Jan, 2024

EmoDM: 用于进化多目标优化的扩散模型

提出使用扩散模型（EmoDM）解决演化多目标搜索的方法，通过学习先前解决的演化优化任务的噪声分布，在不经历进一步演化搜索的情况下，通过逆扩散生成一组非支配解，从而显著减少了所需的函数评估次数，并引入互信息熵注意机制来提高 EmoDM 的可伸缩性，实验证明 EmoDM 在解决具有多达 5000 个决策变量的 MOP 时在搜索性能和计算效率方面与最先进的演化算法相媲美，且 EmoDM 的预训练模型在未知问题上具有很好的泛化能力，展示了其作为通用高效 MOP 求解器的潜力。

Jan, 2024

OpenMoE: 开放混合专家语言模型的早期探索

为了更好地帮助开源社区了解基于混合专家的大型语言模型，我们训练并发布了一系列完全开源和可复现的仅解码器类型的混合专家语言模型，参数范围从 650M 到 34B，训练语料超过 1T 个标记。我们的调查确认了基于混合专家的大型语言模型可以提供更有利的成本效益权衡，突出了未来大型语言模型发展的潜在有效性。该研究的另一个重要贡献是对我们 OpenMoE 模型中的路由机制进行深入分析，得出了三个重要发现：上下文无关专业化、早期路由学习和朝末尾丢弃。我们发现，混合专家模型中的路由决策主要基于标记 ID，与上下文相关性较小。标记对专家的分配在预训练阶段早期确定，并且在很大程度上保持不变。这种不完美的路由可能导致性能下降，尤其是在多轮对话等顺序任务中，较后出现的标记更有可能被丢弃。最后，我们根据上述观察和分析重新思考了设计。为了促进未来的混合专家语言模型发展，我们提出了减轻发现的问题并进一步改进现成混合专家语言模型设计的潜在策略。

Jan, 2024

EMOE：面向稳健的基于不确定性拒绝的专家扩展匹配

Expansive Matching of Experts (EMOE) 是一种利用支持扩展、外推伪标签方法来改善在分布外 (out-of-distribution) 点上的预测和基于不确定性的拒绝的新方法。我们提出了一种在潜在空间生成分布外实例的扩展数据增强技术，并基于经验的试验方法筛选出扩展点用于伪标签。EMOE 利用多个基础专家作为伪标签器，通过共享的多头 MLP（每个专家一个）在增强数据上改善分布外性能。我们证明，EMOE 在表格数据上实现了优于现有方法的性能。

Jun, 2024