滨近风险最小化在滥用语言检测中的少样本跨语言转移

EMNLPNov, 2023

滨近风险最小化在滥用语言检测中的少样本跨语言转移

Vicinal Risk Minimization for Few-Shot Cross-lingual Transfer in Abusive Language Detection

Gretel Liz De la Peña Sarracén, Paolo Rosso, Robert Litschko, Goran Glavaš, Simone Paolo Ponzetto

TL;DR通过数据增强和持续的预训练，我们改善了跨语言辱骂语言检测的领域适应。数据增强策略对多领域和多语言环境下的零样本跨语言辱骂语言检测具有显著提升作用。然而，领域适应会有利于辱骂文本类的检测（降低误报），但同时也会降低辱骂语言检测模型的精确性。

Abstract

cross-lingual transfer learning from high-resource to medium and low-resource languages has shown encouraging results. However, the scarcity of resources in target languages remains a challenge. In this work, we resort to data augmentation and continual pre-training for →

cross-lingual transfer learning data augmentation abusive language detection vicinal risk minimization domain adaptation

发现论文，激发创造

零样本跨语言辱骂语言检测的转换语言选择

通过研究语言相似度对自动恶意语言检测的转移学习进行语言选择，为低资源语言构建更好的检测系统，实现零 - shot 检测。通过量化语言结构的世界地图，发现语言相似度与分类器性能之间存在相关性，进而选择最佳转移语言。

Jun, 2022

利用现有数据解决少样本辱骂内容检测问题

本文提出了一种两步法的方法，使用现有的包含多种任务相关的虐待性语言检测数据集进行多任务学习，再进行少量的适应性训练以针对新的标签集或语言。实验结果表明这种方法可以提高模型的性能，并且可以在不同语言中实现跨语言识别。

May, 2023

AUGVIC：利用双语邻域推进低资源 NMT

提出了 AUGVIC 框架，用于低资源 NMT 中的数据增强，通过对给定的双语数据的 vicinal sample 进行扩充，广泛的实验证明其与使用额外的单语数据的传统回译方法相当。

Jun, 2021

数据增强和理性训练法实现跨语言句子选择

该论文提出了一种跨语言句子选择的方法，旨在使用数据增强和负采样技术来直接学习基于嵌入的跨语言查询相关模型，结果显示该方法的效果不亚于或优于多个最先进的机器翻译 + 单语检索系统，该方法在英语 - 索马里语、英语 - 斯瓦希里语和英语 - 塔加洛语三种语言对中获得了一致的改进。

Jun, 2021

AdvAug: 神经机器翻译的鲁棒对抗性增强

本文提出了一种新的神经机器翻译对抗性数据增强方法，称之为 AdvAug，使用虚拟句子的嵌入来训练 NMT 模型，通过实验证明其取得了显著的效果提升。

Jun, 2020

少则得多：在数据稀缺的情况下提高有毒语言分类

本论文通过系统研究，比较了八种不同的数据增强技术对有限标注数据下毒性语言分类器的性能影响，结果表明包括 GPT-2 生成的语句在内的三种数据增强技术能显著提升浅层分类器的表现，与 BERT 相比表现相近。同时讨论了性能和计算开销之间的相互影响，以探讨在不同约束条件下技术选择的影响。

Sep, 2020

低资源神经机器翻译的数据增强

本研究提出了一种以数据增强为基础的方法，针对低频词汇在合成的新语境中生成新的句子对，以提高神经机器翻译系统的翻译质量。在模拟低资源环境中的实验结果显示，相对于基准和回译方法，我们的方法能够提高翻译质量，最高可提高 2.9 BLEU 分数。

May, 2017

低资源翻译的广义数据增强

本论文提出了一种在低资源机器翻译中进行数据增强的通用框架，该框架不仅使用目标端单语数据，还通过相关高资源语言进行桥接，通过在两个步骤中使用词典和修改无监督机器翻译框架，将高资源数据转换为低资源语言，实验证明该方法在极低的资源条件下，与受监督背景转换基线相比，可将翻译质量提高 1.5 到 8 个 BLEU 点。

Jun, 2019

领域多样化和泛化的跨语料库口语语言识别

研究低资源口语识别 (LID) 问题中跨领域泛化问题，提出领域多样性增强方法 (domain diversification)，并将其作为伪领域考虑，为此研究了领域不变和领域感知方法以及相关增强因子配置，提高了识别准确性。

Feb, 2023

通过对抗任务增强的跨领域少样本分类

针对 few-shot 分类在训练和测试分布之间的域变化导致在测试上性能下降的问题，提出了通过任务增强来改善归纳偏置的鲁棒性，具体来说，采用对抗任务增强方法来生成具有挑战性的任务，可以提供简单的即插即用模块来提高元学习模型在跨域通用性中的性能。

Apr, 2021