KR-BERT:小规模韩语特定语言模型
该研究开发并预训练了 KoreALBERT 模型,实现了针对韩语理解的单语言 ALBERT 模型,采用新的训练目标 - WOP,与现有的 MLM 和 SOP 方法结合,尽管参数较少,但预训练的 KoreALBERT 在 6 项不同的 NLU 任务中表现优异,并提升了韩语多句子编码相关的下游任务表现。
Jan, 2021
本文探讨如何通过减少多语言模型中的词汇量来生成更小且性能相当的模型,研究结果表明,相比蒸馏的方法,此种方法能在保持性能的情况下,将模型总参数减少达 45% 左右。
Oct, 2020
在泰语这种资源相对较少的语言中,我们使用 RoBERTa-base 架构对大型、去重、清理后的训练集进行预训练,并研究了不同的标记化方式对下游性能的影响,在人工注释的单语境中,我们的模型 wangchanberta-base-att-spm-uncased 在序列分类和标记分类任务中优于强基线和多语言模型。
Jan, 2021
本研究使用 RobBERT 作为荷兰语预训练模型,对各种任务的执行效果进行了测量,包括用于微调的数据集规模的重要性以及模型的公平性。研究发现,RobBERT 在各种任务上都可以提供良好的性能,并且在处理较小的数据集时明显优于其他模型,这表明它是适用于多种荷兰语任务的功能强大的预训练模型。
Jan, 2020
本文介绍了由 KBLab 开发的瑞典 BERT(“KB-BERT”),并对其进行了性能比较,证明其在命名实体识别和词性标注等自然语言处理任务中的表现优于瑞典公共就业服务的 BERT 和 Google 的多语言 M-BERT。我们释放了我们的模型进行进一步的探索和研究。
Jul, 2020
我们提出了一种实用的方案来训练一个单一的多语言序列标注模型,这个模型在单个 CPU 上运行,能够给出最先进的结果,足够小和快速。从一个公共的多语言 BERT 检查点开始,我们的最终模型比最先进的多语言基线模型更加准确,并且速度更快,6 倍更小。我们证明了我们的模型特别是在低资源语言上表现出色,并且可以在混合输入文本上工作,而不需要对混合示例进行明确的训练。我们通过 70 棵树库和 48 种语言的词汇标注和形态预测来展示我们方法的有效性。
Aug, 2019
提出了一种基于知识图谱的语言表示模型(K-BERT),可以将领域特定的知识注入到模型中,以用于解决需要专家知识的领域特定问题,实验证明其在 12 个 NLP 任务中有很好的表现。
Sep, 2019
本文研究了 14 个基于 transformer 的模型在 11 个科学任务上的表现,并创建了迄今最大、最多样化的科学语言模型 ScholarBERT。然而,在模型大小和训练数据等方面存在重大差异的情况下,我们发现这些模型在这些科学任务上的表现几乎没有差异,这一结果为基于 BERT 架构在科学领域任务中的表现建立了一个上限。
May, 2022
提出了一种两层 BERT 架构,利用形态分析器和显式表示形态构成,解决了 BERT 模型在处理形态丰富的语言时效率低下的问题,并将所提出的模型在低资源形态丰富的 Kinyarwanda 语言上进行了评估。结果表明,所提出的模型 KinyaBERT 在命名实体识别任务和机器翻译评估指标上均优于其他基线模型。
Mar, 2022
通过词汇匹配,将 BERT 的能力从高资源语言转移到低资源语言,以改善 BERT 模型在低资源语言上的性能,从而使得高级语言理解模型更加普及化。
Feb, 2024