EMNLPOct, 2023
论跨领域数据对德语语言模型的影响
On the Impact of Cross-Domain Data on German Language Models
Amin Dada, Aokun Chen, Cheng Peng, Kaleb E Smith, Ahmad Idrissi-Yaghir...
TL;DR通过使用不同领域的语料库和不同质量的数据,我们训练了一系列的大语言模型,在多个下游任务中,跨领域数据集训练的模型表现优于仅使用高质量数据训练的模型,前者的性能提升高达 4.45%。