词汇重要性对机器翻译模型盗用的影响

Jan, 2024

词汇重要性对机器翻译模型盗用的影响

Stolen Subwords: Importance of Vocabularies for Machine Translation Model Stealing

Vilém Zouhar

TL;DR通过收集输出，攻击者可以提取受害者的词汇表，而词汇本身对本地模型的性能影响不大。这对于黑盒知识蒸馏来说具有重要意义。

Abstract

In learning-based functionality stealing, the attacker is trying to build a local model based on the victim's outputs. The attacker has to make choices regarding the →

learning-based functionality stealing local model nlp models subword vocabulary machine translation task

发现论文，激发创造

大规模语言模型应用的词汇攻击

使用来自攻击模型的嵌入和优化过程插入模型词汇，我们证明了我们的方法可以成功劫持两个流行的开源大语言模型 Llama2 和 Flan-T5，并显示了我们的方法具有不易被察觉的特点，且仅需插入单个词汇即可进行攻击，我们还证明可以使用不同于目标模型的模型进行攻击。

Apr, 2024

神经机器翻译的词汇操作

本文提出了一种句子级或批量级词汇表来缓解神经机器翻译模型中需使用大词汇表的问题。此方法根据源句子中每个单词或短语的翻译选项，选择非常小的目标词汇表，并基于单词翻译模型或双语短语库来实现。实验结果表明，该方法在英法翻译任务中的 BLEU 分数比 Jean 等人使用大词汇表的神经机器翻译系统高 1 个点。

May, 2016

黑盒机器翻译系统的模拟攻击与防御

研究黑盒 NLP 系统的安全性问题，特别是面向机器翻译系统的模型盗用和对抗攻击是否可行，并提出一种防御方案以降低对抗者的成功攻击率。

Apr, 2020

祸在细节：神经机器翻译中词汇选择的陷阱

本文提出了一种基于神经网络的词汇选择模型，通过对编码器状态的上下文化表示进行预测，来代替传统基于独立对齐模型参数的词汇选择方法，从而更好地处理语言中的词组、成语等非复合的语义现象，从而获得与传统独立对齐选择方法相同甚至更好的翻译质量，并减少了翻译时刻的依赖。

May, 2022

Sesame Street 上的盗贼！BERT-based API 的模型提取

该研究探讨了自然语言处理中模型提取的问题，结果表明，在具有查询访问权限的情况下，攻击者可以使用任意的打乱语序的字串以及特定启发式方法从模型中提取出相应模型的本地副本，通过使用预先训练好的 NLP 模型，使用转移学习的方法，他们在各种类型的 NLP 任务上展现出了攻击的有效性。而防范措施则徒劳无功。

Oct, 2019

领域内翻译最佳微调的词汇和 BPE 设置的系统分析 —— 以 NMT 为例

本文对不同的子词分词策略、词汇生成方法及 Fine-tuning 进行了系统的实证研究，旨在找到一种最佳的 Fine-tuning 领域特定模型的设置，实验结果表明最好的模型达到了比基线模型 6 个 BLEU 分数的提升效果。

Mar, 2023

基于字节级子词的神经机器翻译

本篇论文探讨了一种基于字节级子词（BBPE）的机器翻译模型，该模型比字符词汇表更紧凑且没有超出词汇表的令牌，并显示了与 BPE 相当的性能，BBPE 在跨多种语言的情况下最大化词汇共享并实现更好的翻译质量，同时使非重叠字符集的语言之间的模型传递成为可能。

Sep, 2019

神经机器翻译中使用非常大的目标词汇量

本文提出了一种基于重要性采样的方法，使我们可以使用非常大的目标词汇，有效地进行解码，可以优于基准模型和 LSTM-based 神经机器翻译模型，并使用多个模型集成实现了英 -> 德翻译的最先进性能（由 BLEU 度量）。

Dec, 2014

采用子单元的神经机器翻译生僻词

本文提出了一种基于子单词单位的、更简单且更有效的方法来处理翻译中的开放性词汇问题，并通过实验证明了这种方法相较于备用字典模式可以提升该模型的翻译效果。

Aug, 2015

从视觉文本表示实现鲁棒性开放词汇翻译

本文提出了使用视觉文本表示（visual text representations）替代有限的文本嵌入向量（finite set of text embeddings），以建立起使用连续词汇（continuous vocabularies）的翻译模型，以此提高模型的稳健性减少了噪声对模型的影响。实验证明，使用视觉文本表示的模型在小型和大型数据集上实现了与传统文本模型相当或更好的表现。

Apr, 2021