文本生成的动量校准

Dec, 2022

Momentum Calibration for Text Generation

Xingxing Zhang, Yiran Liu, Xun Wang, Pengcheng He, Yang Yu...

TL;DR本文提出 MoCa (动量校准) 方法解决文本生成任务中的曝光偏差问题，通过动量滑动平均产生缓慢演化的样本生成器，与实际样本质量对齐，实验表明在 CNN/DailyMail 和 SAMSum 数据集上实现了最优结果。

Abstract

The input and output of most text generation tasks can be transformed to two sequences of tokens and they can be modeled using sequence-to-sequence learning modeling tools such as →

text generation sequence-to-sequence learning transformers moca exposure bias problem

发现论文，激发创造

OMG：通过混合控制器实现开放词汇的动作生成

基于 OMG 框架，我们通过预训练和微调将文本转动作的生成过程进行改进，并引入 motion ControlNet 和 Mixture-of-Controllers 模块，实现了针对零样本文本生成动作的显著提升。

Dec, 2023

动量解码：以图探索为基础的开放式文本生成

本文提出一种新的解码方法 —— 动量解码，将生成开放式文本视为有向图中的探索过程，同时鼓励语言模型在当前图之外贪心地探索新节点，并允许其通过预定义的抵抗函数降低动量回到现有节点，本方法在三个基准测试中表现出与现有技术相当的性能，且具有明显提高的推理速度和计算 FLOPs。

Dec, 2022

MOCHA：基于认知角度的一种多任务训练方法，用于一致文本生成

本研究提出一种基于认知写作理论的新型多任务训练策略，为神经模型生成连贯文本提供辅助技能。在三个开放式生成任务中进行了广泛的评估，实验表明我们的模型在有限标注数据和全监督设置下都优于强基线模型，并且经过人工评价，显示我们的模型能够生成更加连贯的文本。

Oct, 2022

带多限制条件的文本生成连续优化控制

提出了一种名为 MuCoCO 的算法，通过将编码过程转化为优化问题，并通过拉格朗日乘数法和梯度下降技术生成期望的文本，从而实现对预训练模型生成文本属性的控制。在可控机器翻译和风格转移方面的实验表明，该方法显著优于基准模型。

Aug, 2021

MoMo: 动量模型适应学习率

通过使用新的自适应学习率，开发了带有动量方法的 MoMo and MoMo-Adam，并增强了模型通过使用批次损失和梯度来建立模型和较低下限估计的模型，实现迭代优化影像分类模型，相较于 SGDM 和 Adam，提高了准确性和鲁棒性。

May, 2023

使用学习的矩方法学习隐式生成模型

本论文提出了一种 Moment Estimation 的算法来训练规模大的 Implicit Generative Models，即 Method of Learned Moments (MoLM)。通过引入 Moment Network，以及使用渐近理论来确定 Moment Estimation 中需要优化的关键性质，MoLM 可以训练出高质量的神经图像生成模型。

Jun, 2018

DynaMo: 动态多词采样加速语言模型推断

DynaMo 是一个多令牌预测语言模型套件，通过在预测联合概率分布的基础上动态预测多个令牌来减少净推理时间，实现了与基准 (Pythia-6.9B) 相同质量的生成文本，并获得 2.57 倍的加速，仅有 5.87% 和 2.67% 的参数和训练时间开销。

May, 2024

朝向连贯且凝聚的长文本生成

本文提出了一种新的神经语言模型，它具备两个神经鉴别器，可以在句子层面（内聚性）和段落层面（连贯性）提供反馈信号，并且使用了一种称为负关键序列训练的简单而有效的策略梯度方法进行训练。结果表明，相对于基线（基于双向 MLE 训练的复发关注神经语言模型），我们的方法有效改善了模型表现。

Nov, 2018

基于梯度的语言模型约束采样

该论文探讨了从预先训练的语言模型中受约束地生成文本的问题，并介绍了一种名为 MuCoLa 的采样过程，通过组合语言模型的对数可能性与任意（可微分）约束，以及使用 Langevin Dynamics 定义的马尔科夫链来生成文本。结果显示，MuCoLa 在避免有害信息、情感控制和关键词引导生成等任务中都获得了显著的性能提升。

May, 2022

由无生有：无言训练的开放词汇文本生成动作

本文探讨了在零样本学习中的离线开放词汇文本到动作生成，使用一个预训练的运动生成器从被遮蔽的运动中学习来重建全动作，利用一个文本到姿态生成器合成未被遮蔽的姿态来构建提示，使用了文本 - 姿态对齐模型和新颖的无文字训练机制来提高效率和稳定性。

Oct, 2022