BERT 是一个跨学科的知识学习者吗?预训练模型可转移性的惊人发现
该研究探讨了 mBERT 作为零 - shot 语言转移模型在跨语言任务上的运用,包括 NLI、文档分类、NER、POS 标注和依赖分析等五个任务。研究发现,mBERT 在每个任务上都具有竞争力,并考察了其使用策略、语言无关特征和影响跨语言传输的因素。
Apr, 2019
本文利用小型数据集对比了双向 LSTM 模型和预训练 BERT 模型的表现,结果表明对于小数据集,使用双向 LSTM 模型的性能显著优于使用 BERT 模型,且训练时间更短,因此在选择模型时需要考虑任务和数据等因素。
Sep, 2020
本研究针对跨语言能力对多语言 BERT 进行了深入实验研究,发现数据大小和上下文窗口大小是跨语言能力的关键因素,探讨了多语言 BERT 中的语言特定信息,通过操作潜在表示控制多语言 BERT 的语言输出,实现了无监督令牌翻译,并提出了一种计算成本低但有效提高多语言 BERT 跨语言能力的方法。
Apr, 2020
本研究旨在研究一种可转移的 BERT 训练框架,该框架不仅可以从大规模未标记数据中转移一般语言知识,还可以从各种语义相关的监督任务中转移特定类型的知识以用于目标任务。在本实验中,提出了利用三种转移任务,包括自然语言推理、情感分类和下一动作预测,以进一步训练预训练模型的思想,并将故事结尾预测作为目标任务进行实验。最终结果,准确率达到了 91.8%,明显优于先前最先进的基线方法。同时,进行了一些比较实验,给出了一些关于如何选择转移任务的有益建议。通过误差分析,还显示了基于 BERT 的模型在故事结尾预测中的优势和劣势。
May, 2019
本文旨在探究将自然语言处理大规模语言模型 fine-tuning 应用于其他任务是否有效,通过在三大问题领域(文本分类、问题回答、序列标注)的 33 个 NLP 任务上的数据验证,结果显示 transfer learning 在数据稀缺情况下更为有效,在源任务数据较少或与目标任务差异较大的情况下仍能提高性能,同时提出了可以预测给定目标任务最具可转移性源任务的任务嵌入,并验证其在数据大小、源和目标之间的有效性。最终的结果显示源数据大小、任务和领域的相似性和任务的复杂性在决定转移性方面起着关键作用。
May, 2020
使用一种新的层摘除技术和模型内部表示的分析方法,我们发现多语言 BERT 可看作两个子网络的堆叠:一个多语言编码器和一个任务特定的语言无关的预测器。编码器对于跨语言传递非常关键,在微调过程中大部分不变,而任务预测对传递影响很小,可以在微调期间重新初始化。
Jan, 2021
本文介绍了如何将自然语言处理 (NLP) 中最新的预训练语言模型 BERT 应用于生物医学文献的文本挖掘,并提出了一种自然语言处理 (BioBERT) 模型用于生物医学文本挖掘,该模型在以前的生物医学文本挖掘任务中表现得比 BERT 好并且公开了该模型的预训练权重以及源代码。
Jan, 2019
本文介绍了一种从人类语言实验中提取的一系列诊断方法,旨在检验语言模型用于生成上下文预测的信息。将这些诊断方法应用于 BERT 模型的案例研究中,发现其可以区分涉及共享类别或角色逆转的好坏完成情况,但对具有挑战性的推理和基于角色的事件预测存在困难,并且特别是对否定性上下文影响的敏感性不足。
Jul, 2019
基于预训练语言模型的文本分类任务在主题分布变化时仍存在性能差距,本文通过大规模语料库和大量主题的实证研究量化了这一现象,验证了经典 PLMs 和现代大模型都面临领域转移的挑战。同时,通过将训练数据集增加主题控制的合成文本,F1 得分在某些主题上提高了 50%接近在主题上训练的结果,而其他主题则显示出较少或无改进。尽管我们的实证结果侧重于类型分类,但我们的方法适用于其他分类任务,如性别、作者或情感分类。
Nov, 2023