主题分类的单 / 跨语言知识迁移

Jun, 2023

Monolingual and Cross-Lingual Knowledge Transfer for Topic Classification

Dmitry Karpov, Mikhail Burtsev

TL;DR通过研究 RuQTopics 数据集中的知识转移情况，本文证明了该数据集非常适合用于实际对话任务，在多语言 BERT 上进行训练可以带来更好的结果。

Abstract

This article investigates the knowledge transfer from the ruqtopics dataset. This Russian topical dataset combines a large sample number (361,560 single-label, 170,930 multi-label) with extensive →

ruqtopics dataset knowledge transfer class coverage conversational tasks multilingual bert

发现论文，激发创造

乌克兰文本分类：跨语言知识迁移方法的探索

我们利用 NLP 的最新进展，探索跨语言知识转移方法，避免手动数据整理，以改善 NLP 文本分类领域中各种语言之间数据可用性的不平衡问题，并在三个文本分类任务上进行测试，提供最佳设置的 “配方”。

Apr, 2024

法律主题分类中实现逼真的零 - shot 跨语言转移

本文讨论使用 MultiEURLEX 数据集进行零样本跨语言转移的法律主题分类，介绍了新版本的数据集和使用基于翻译的方法相对于之前最佳的跨语言预训练模型调参的方法的改进，同时提出了一种基于双语教师 - 学生的零样本转移方法。

Jun, 2022

零样本学习的跨语言上下文主题模型

本文介绍了一种零射击跨语言主题模型，利用迁移学习来处理多个语言的数据集，以解决传统基于词袋的主题模型所面临的单语言或巨大而稀疏的词汇表等问题，并评估了在不同语言中同一篇文章的主题预测的准确性和连贯性，结果表明所转移的主题是连贯且稳定的，具有潜在的未来研究方向。

Apr, 2020

超越只能阅读英语：零样本多语种传递在保加利亚语中的实验

研究了在英文大规模数据集中预训练的多语言 BERT Fine-Tuning 在保加利亚语阅读理解中的效果，构建了一个新的包含历史、生物、地理和哲学等学科的 12 年级毕业考试和 412 个在线历史测验问题的数据集，并利用不同的索引和预训练策略进行实验，评估结果表明，准确率为 42.23％，大大超过了基线水平 24.89％。

Aug, 2019

使用翻译增强的多语言问答转移学习

本文探索了提高多语言问题回答的交叉语言转移性能的策略，包括使用机器翻译生成的数据来增强原始英语训练数据，以及提出两种新颖的策略：语言对抗性训练和语言仲裁框架，这些策略显著提高了零资源的交叉语言转移性能，并导致 LM 嵌入不那么语言特定的结果。经验证明，这些模型在最近推出的 multilingual MLQA 和 TyDiQA 数据集上优于以前的零 - shot 基线。

Dec, 2020

八种语言多语言文档分类语料库

本篇研究提出了一种新的 Reuters 子语料库，其针对 8 种语言具有平衡的类先验分布，旨在通过使用多语言词向量和句子嵌入来提供跨语言文档分类的基线，并促进该重要领域的研究。

May, 2018

MuCoT: 低资源语言中的多语言对比训练问答

本文提出一种用于低资源语言的提高问答技术的方法，即通过翻译和转写将问题回答样本扩充到目标语言，利用增广数据微调已经在英语中预训练的 mBERT 问答模型，并引入对翻译问题上下文特征对之间的对比损失来提高不同语言家族的翻译准确性。

Apr, 2022

RuBQ: 一个用于维基数据问答的俄语数据集

文章介绍了 RuBQ，第一个俄语知识库问答（KBQA）数据集，它包括 1,500 个俄语问题、它们的英语机器翻译、SPARQL 查询到维基数据、参考答案和一些包含俄语标签实体的维基数据样本。数据集的创建经历了自动过滤、众包实体链接、自动生成 SPARQL 查询以及后续的审核。

May, 2020

从不同语料库中学习多语言话题

本文提出了一种只需字典作为训练数据的多语言主题模型，并在部分和完全不可比的语料库中有效地学习到一致的多语言主题，从而实现跨语言任务。

Jun, 2018

跨语言迁移学习用于多语言任务导向的对话

本文讨论了在任务导向的对话系统中如何识别用户意图和相应的插槽，并通过多种跨语言转移方法进行数据集训练比较

Oct, 2018