Jun, 2022

多语言少样本转移数据选择的关键是模型中的多样化和不确定性

TL;DR本文探索了各种数据选择策略,依靠多个度量,利用了渐变嵌入和损失嵌入方法,以提高针对多语言预训练模型的POS标记、NER和NLI任务的Few-shot迁移的性能。实验证明,所提出的方法始终优于随机数据选择基线,即使仅使用更少的标记数据进行零-shot迁移,也能显著提高性能。