本文提出了一种被称为CoCon的内容控制器,可以在细粒度的水平上控制预训练的基于Transformer的语言模型以生成目标内容的自然语言文本,并通过实验证明了其有效性。
Jun, 2020
该研究通过开发一种对比自训练框架(COSINE)来解决使用弱监督fine-tune预训练语言模型(LMs)时的过拟合问题,实验证明该方法在自然语言处理的多个任务中表现优异。
Oct, 2020
该研究探讨了使用去噪词对齐作为新的跨语言预训练任务的方法,通过在双语对中进行自我标注的单词对齐,结合指针网络来预测清理片段中被屏蔽的单词及其在另一种语言中的对应单词,并在期望值最大化的方式下交替进行两个步骤,实验结果表明该方法在各种数据集上提高了跨语言可传递性。
Jun, 2021
本文研究了预先训练语言模型在下游任务中表现卓越的特定特质,包括匹配预训练集和下游任务的词汇统计信息、明确依赖关系和隐式依赖的长度等。实验证明,在预先训练数据的明确依赖关系中加入后,模型的下游性能显著提高。我们发现预先训练模型是有可能在下游任务中学习到虚假的相关性。即使语言模型没有预先在自然语言上进行训练,只要其能够模拟序列中的令牌依赖关系,仍然可以在某些语言任务中获得迁移能力。
Sep, 2021
本文提出的遗忘因果掩码(Forgetful Causal Masking,FCM)和T-FCM技术可以显著提高语言模型(如PaLM)的性能,是一种简单的技术,通过遮盖随机选择的过去标记来执行下一个标记预测任务,从而提高下游语言理解任务的学习表示质量。
Oct, 2022
本论文提出了一种名为LERT的预训练语言模型,通过使用一种称为语言信息预训练策略,使用三种类型的语言特征以及原始的MLM预训练任务来训练,对于十种汉语NLU任务,LERT能够带来显着的改进。
Nov, 2022
利用与儿童所见的单词数量大致相同的单词数量,我们对大型语言模型进行预训练和评估,以学习上下文词表示,其中比较了不同架构、不同训练轮次的性能变化以及与任务组织者给出的RoBERTa基准的训练稳定性和可复现性。
Nov, 2023
本研究针对传统大规模语言模型预训练过程中的高训练成本和低模型质量问题,提出了一种新的LFR(学习、聚焦、回顾)教学法。这一动态训练模式通过系统性地聚焦和重复回顾复杂数据块,有效提高了模型的长期记忆能力,并在GPT-2模型的预训练中实现了20倍的加速和更低的困惑度。
Sep, 2024
本研究解决了大型语言模型预训练数据透明性不足的问题,提出了一种基于发散的校准方法,以提高数据检测的准确性。该方法通过计算令牌概率分布与令牌频率分布之间的交叉熵,显著提升了检测性能,尤其在中文文本的检测中表现优异。研究结果表明,该方法在现有技术上取得了显著进展,推动了对大型语言模型的科学评估和伦理应用。
本研究解决了大型语言模型预训练数据透明度不足所带来的科学评估与伦理部署挑战。提出了一种基于发散的校准方法,通过计算令牌概率分布与令牌频率分布之间的交叉熵来提高检测性能。实验结果表明,该方法在英文基准和中文基准PatentMIA上显著优于现有检测方法。