文本生成的动量校准
基于 OMG 框架,我们通过预训练和微调将文本转动作的生成过程进行改进,并引入 motion ControlNet 和 Mixture-of-Controllers 模块,实现了针对零样本文本生成动作的显著提升。
Dec, 2023
本文提出一种新的解码方法 —— 动量解码,将生成开放式文本视为有向图中的探索过程,同时鼓励语言模型在当前图之外贪心地探索新节点,并允许其通过预定义的抵抗函数降低动量回到现有节点,本方法在三个基准测试中表现出与现有技术相当的性能,且具有明显提高的推理速度和计算 FLOPs。
Dec, 2022
本研究提出一种基于认知写作理论的新型多任务训练策略,为神经模型生成连贯文本提供辅助技能。在三个开放式生成任务中进行了广泛的评估,实验表明我们的模型在有限标注数据和全监督设置下都优于强基线模型,并且经过人工评价,显示我们的模型能够生成更加连贯的文本。
Oct, 2022
提出了一种名为 MuCoCO 的算法,通过将编码过程转化为优化问题,并通过拉格朗日乘数法和梯度下降技术生成期望的文本,从而实现对预训练模型生成文本属性的控制。在可控机器翻译和风格转移方面的实验表明,该方法显著优于基准模型。
Aug, 2021
通过使用新的自适应学习率,开发了带有动量方法的 MoMo and MoMo-Adam,并增强了模型通过使用批次损失和梯度来建立模型和较低下限估计的模型,实现迭代优化影像分类模型,相较于 SGDM 和 Adam,提高了准确性和鲁棒性。
May, 2023
本论文提出了一种 Moment Estimation 的算法来训练规模大的 Implicit Generative Models,即 Method of Learned Moments (MoLM)。通过引入 Moment Network,以及使用渐近理论来确定 Moment Estimation 中需要优化的关键性质,MoLM 可以训练出高质量的神经图像生成模型。
Jun, 2018
DynaMo 是一个多令牌预测语言模型套件,通过在预测联合概率分布的基础上动态预测多个令牌来减少净推理时间,实现了与基准 (Pythia-6.9B) 相同质量的生成文本,并获得 2.57 倍的加速,仅有 5.87% 和 2.67% 的参数和训练时间开销。
May, 2024
本文提出了一种新的神经语言模型,它具备两个神经鉴别器,可以在句子层面(内聚性)和段落层面(连贯性)提供反馈信号,并且使用了一种称为负关键序列训练的简单而有效的策略梯度方法进行训练。结果表明,相对于基线(基于双向 MLE 训练的复发关注神经语言模型),我们的方法有效改善了模型表现。
Nov, 2018
该论文探讨了从预先训练的语言模型中受约束地生成文本的问题,并介绍了一种名为 MuCoLa 的采样过程,通过组合语言模型的对数可能性与任意(可微分)约束,以及使用 Langevin Dynamics 定义的马尔科夫链来生成文本。结果显示,MuCoLa 在避免有害信息、情感控制和关键词引导生成等任务中都获得了显著的性能提升。
May, 2022
本文探讨了在零样本学习中的离线开放词汇文本到动作生成,使用一个预训练的运动生成器从被遮蔽的运动中学习来重建全动作,利用一个文本到姿态生成器合成未被遮蔽的姿态来构建提示,使用了文本 - 姿态对齐模型和新颖的无文字训练机制来提高效率和稳定性。
Oct, 2022