主题分类的单 / 跨语言知识迁移
我们利用 NLP 的最新进展,探索跨语言知识转移方法,避免手动数据整理,以改善 NLP 文本分类领域中各种语言之间数据可用性的不平衡问题,并在三个文本分类任务上进行测试,提供最佳设置的 “配方”。
Apr, 2024
本文讨论使用 MultiEURLEX 数据集进行零样本跨语言转移的法律主题分类,介绍了新版本的数据集和使用基于翻译的方法相对于之前最佳的跨语言预训练模型调参的方法的改进,同时提出了一种基于双语教师 - 学生的零样本转移方法。
Jun, 2022
本文介绍了一种零射击跨语言主题模型,利用迁移学习来处理多个语言的数据集,以解决传统基于词袋的主题模型所面临的单语言或巨大而稀疏的词汇表等问题,并评估了在不同语言中同一篇文章的主题预测的准确性和连贯性,结果表明所转移的主题是连贯且稳定的,具有潜在的未来研究方向。
Apr, 2020
研究了在英文大规模数据集中预训练的多语言 BERT Fine-Tuning 在保加利亚语阅读理解中的效果,构建了一个新的包含历史、生物、地理和哲学等学科的 12 年级毕业考试和 412 个在线历史测验问题的数据集,并利用不同的索引和预训练策略进行实验,评估结果表明,准确率为 42.23%,大大超过了基线水平 24.89%。
Aug, 2019
本文探索了提高多语言问题回答的交叉语言转移性能的策略,包括使用机器翻译生成的数据来增强原始英语训练数据,以及提出两种新颖的策略:语言对抗性训练和语言仲裁框架,这些策略显著提高了零资源的交叉语言转移性能,并导致 LM 嵌入不那么语言特定的结果。经验证明,这些模型在最近推出的 multilingual MLQA 和 TyDiQA 数据集上优于以前的零 - shot 基线。
Dec, 2020
本篇研究提出了一种新的 Reuters 子语料库,其针对 8 种语言具有平衡的类先验分布,旨在通过使用多语言词向量和句子嵌入来提供跨语言文档分类的基线,并促进该重要领域的研究。
May, 2018
本文提出一种用于低资源语言的提高问答技术的方法,即通过翻译和转写将问题回答样本扩充到目标语言,利用增广数据微调已经在英语中预训练的 mBERT 问答模型,并引入对翻译问题上下文特征对之间的对比损失来提高不同语言家族的翻译准确性。
Apr, 2022
文章介绍了 RuBQ,第一个俄语知识库问答(KBQA)数据集,它包括 1,500 个俄语问题、它们的英语机器翻译、SPARQL 查询到维基数据、参考答案和一些包含俄语标签实体的维基数据样本。数据集的创建经历了自动过滤、众包实体链接、自动生成 SPARQL 查询以及后续的审核。
May, 2020