这篇研究使用 Transformers 和动态评估两种方法来提高语言建模,在多个数据集上的实验表明,使用动态评估提高了模型预测准确率。
Apr, 2019
通过一种新的概率模型和训练方法来建模长文本序列,提出了一种新的评估策略以维持序列的连贯性,并全面捕捉时空依赖关系,实验证明其在各种序列评估任务中表现出优异性能,并在人工智能和人类文本区分上取得竞争性结果。
May, 2024
在线微调参数,动态评估,参数的临时变化状态,样本效率。
Mar, 2024
本文提出了一种基于神经组态推断的动态聚焦主题模型,该模型能够跟踪主题的出现情况以及活跃度,并在各种任务中实现了比其他主题模型更好的泛化能力和类似的预测能力。
Jan, 2023
通过动态神经网络中的 skimming 这个研究方向,可以很好地解决预训练语言模型参数过多的问题,实现神经网络的有效扩展,为处理自然语言提供有效的支持。
Feb, 2022
对序列到序列方法进行的纠错实验中发现,基于字符的模型通常比基于单词的模型和通过卷积编码子单词信息的模型更有效,并且将输出数据建模为一系列差异可提高效果,而我们最强的序列到序列模型比最强的基于短语的统计机器翻译模型在数据相同的情况下得分提高了 6 M2 点(0.5 GLEU)。此外,在标准 CoNLL-2014 设置的数据环境中,我们证明了建模(并调整)差异可以使用更简单的模型和 / 或比以前的序列到序列方法少得多的数据获得类似或更好的 M2 得分。
Jul, 2017
提出了一种新的序列级训练算法,使自然语言处理应用程序使用的语言模型在生成文本时更加强大和高效。这种方法能够直接优化在测试期间使用的指标,并且在三个不同的任务中,我们的方法优于其他几种基准方法。同时,在其他基准方法使用波束搜索时,我们的方法也具有竞争力,而且速度快几倍。
Nov, 2015
本研究探讨了单词级别的语言建模任务,并研究了将基于隐藏状态的短期表示与编码在语言模型的动态权重中的中期表示相结合的可能性。我们将语言建模问题转化为在线学习框架,并通过梯度下降训练元学习器以连续更新语言模型权重,扩展了最近在动态演化权重的语言模型上的实验。
Mar, 2018
该研究提出了一种基于概率的语言模型,可以跟踪个别单词随时间的语义演变,并通过嵌入空间中的潜在轨迹表示单词和上下文。研究发现,该动态模型推断的单词嵌入轨迹更易解释,并且具有更高的预测性可能性。
Feb, 2017
该研究提出了一种基于动态采样的神经机器翻译(NMT)训练方法,通过对句子加权并根据权重动态采样一定百分比的句子,以提高 NMT 训练效率和性能。
May, 2018