芝麻街上的混合语言：对抗性多语种者的黎明

ACLMar, 2021

芝麻街上的混合语言：对抗性多语种者的黎明

Code-Mixing on Sesame Street: Dawn of the Adversarial Polyglots

Samson Tan, Shafiq Joty

TL;DR本文介绍两种针对多语言模型的黑盒对抗攻击和一种高效的对抗性训练方案，以提高多语言模型处理混合语言的表现。短语级攻击的成功率为 89.75％，将 XLM-R-large 的平均准确性从 79.85 降至 8.18。

Abstract

multilingual models have demonstrated impressive cross-lingual transfer performance. However, test sets like XNLI are monolingual at the example level. In multilingual communities, it is common for polyglots to code-mix when conversing with each other. Inspired by this phenomenon, we p

multilingual models black-box adversarial attacks code-mixed sentences sense disambiguation adversarial training scheme

发现论文，激发创造

多语种文本分类的生成对抗攻击

通过对多语言释义模型进行敌对目标的微调，我们提出了一种对抗性攻击算法，用于伪造多语言分类器的有效的对抗性样本，实验证明该方法在查询效率方面优于现有基准模型。

Jan, 2024

kk2018 参加 SemEval-2020 任务 9：针对混合编码的情感分类进行对抗性训练

本篇论文旨在探究作为一种语言现象的码代码搭配和混合情感分类在领域转移学习和多语言模型中的应用，通过测试 ERNIE 单一语言模型和对抗训练得到了强的基线和对 2020 SemEval 竞赛中印度 - 英语情感分类任务第一名的表现。

Sep, 2020

多语言混合：示例插值改进多语言神经机器翻译

本文介绍了一种多语言交叉编码解码器 (mXEncDec) 方法，以在实例级别融合多种语言对，通过改进实例插值技术跨多种语言改善 WMT 数据集上的机器翻译效果，并证明其能够改善模型的推广性。

Mar, 2022

代码混合情感和仇恨言论预测

研究发现，针对社交媒体文本中的混合编码文本进行专门设计的双语模型和多语模型表现最佳，而庞大生成模型则不具有竞争力。对于情感分析和辱骂语言检测等任务，这些模型在混合编码数据上的表现稍微优于非混合编码数据。

May, 2024

OCHADAI 在 SemEval-2022 任务 2 中：针对多语言成语鉴别的对抗训练

本文提出了一种多语言对抗训练模型，以判断一个句子是否包含习语表达。该模型利用不同多语言最先进的基于转换器的语言模型（即多语言 BERT 和 XLM-Roberta）的预训练上下文表示以及对抗性训练，提高模型的泛化能力和鲁棒性，在不依赖于人工创造的特征，知识库或除目标数据集以外的其他数据集的情况下，我们的模型取得了有竞争力的结果，在 SubTask A（零样本）设定中排名第 6 位，在 SubTask A（单样本）设定中排名第 15 位。

Jun, 2022

三明治攻击：针对 LLMs 的多语言混合自适应攻击

本文介绍了一种新的黑盒攻击向量 —— 三明治攻击，通过操纵最先进的大型语言模型（LLMs）生成有害和不一致的回答，旨在引导未来的研究和发展，使 LLMs 更加安全可靠，确保它们为公共利益服务并最大程度地减少滥用的潜力。

Apr, 2024

将文字塞入系统嘴中：使用单语数据攻击神经机器翻译的有针对性攻击

该研究表明，神经机器翻译系统不仅容易受到对抗性测试输入的攻击，而且容易受到训练攻击的影响，作者提出了一种毒化攻击方法，插入带有误导性的毒化样本，从而在神经机器翻译系统训练中引起指定的翻译行为，本文提出了防御方法，但仍需要紧急关注。

Jul, 2021

关于字符级神经机器翻译的对抗样本

本研究提出了一种基于字符串编辑的白盒敌手算法，并在字符级别神经机器翻译模型中使用两种新类型的攻击来比较黑盒和白盒对抗例子的强度。该研究发现，白盒对抗例子在不同的攻击场景中都会显著强于黑盒对抗例子，并证明在对抗训练中取得了显著的鲁棒性提高。

Jun, 2018

关于单语表示的跨语言转移性

新颖的跨语言转移学习方法 - 从单语言模型到新语言，通过学习一个新的词嵌入矩阵来实现，该方法与现有不需要共享词汇表或联合训练的最先进的无监督多语言模型的跨语言分类基准测试表现相似。

Oct, 2019

探究多语言预训练语言模型的迁移学习 —— 以中文自然语言推理为例

研究多语言 transformers 在英文和中文自然语言推断方面的跨语言转移能力，并基于 17 个中文挑战任务对其性能进行测试。研究发现，跨语言模型在训练时使用英语和高质量的单语 NLI 数据（OCNLI）通常表现最好，而自动翻译资源则会影响其性能。

Jun, 2021