无监督标记学习

EMNLPMay, 2022

Unsupervised Tokenization Learning

Anton Kolonin, Vignav Ramesh

TL;DR本研究发现，相比于互信息和条件概率等统计度量方法，所谓的 “过渡自由度” 度量方法在无监督分词方面表现更佳，跨多语料库提供了 0.71 到 1.0 的 F - 度量分数。我们发现，不同的语言需要该度量方法的不同分支（如导数、方差和 “峰值”）才能实现成功的分词。更大的训练语料库不一定会导致更好的分词质量，而通过消除统计上薄弱的证据来压缩模型往往会提高性能。该无监督分词技术提供的质量优于或与基于词典的技术相媲美，具体效果取决于语言。

Abstract

In the presented study, we discover that the so-called "transition freedom" metric appears superior for unsupervised tokenization purposes in comparison to statistical metrics such as mutual information and condi

unsupervised tokenization transition freedom metric multilingual corpora statistical metrics lexicon-based

发现论文，激发创造

无监督跨语言分词的自调参数

该研究探讨了对于英语、俄语和汉语的无监督分词问题可行的元学习方法，通过实现基于不同人类独立健身函数的元学习方法以及三个度量的加性和乘性组合来测试不同语言的无监督分词模型并找到了适合每种语言的最佳设置。

Mar, 2023

无需分词的多语言预训练模型的多维度评估

综合比较多语言预训练模型的效率时，在考虑内存使用、推理速度和数据健壮性等方面，基于子词的模型仍然是许多场景下更可靠的选择，此为当前研究结果，建议未来的 tokenizer-free 方法在设计和评估模型时也要考虑这些因素。

Oct, 2022

USCORE: 机器翻译完全无监督评价度量的有效方法

本研究开发了全无监督评估指标，利用评估指标的彼此相似性和协同作用、平行语料库挖掘和机器翻译系统等方法，以及迭代地挖掘伪平行数据、对不足的基础矢量空间重新映射并诱导无监督机器翻译系统，最终提供伪参考作为度量的附加组件，同时还利用伪平行数据诱导无监督多语言句子嵌入。结果表明，我们的全无监督度量是有效的，在 5 个数据集中的 4 个上打败了监督竞争对手。

Feb, 2022

关于 LLMs 中的分词理论

通过研究变压器在简单数据生成过程上的行为，我们探讨了词汇标记的理论视角，发现词汇标记对于变压器模型的训练是必要的，并验证了合适的词汇标记可以使变压器模型在学习 k 阶马尔可夫源的概率时达到近乎最优的结果。

Apr, 2024

通过学习分词实现神经手语翻译

本文介绍了一种半监督方法，利用对抗多任务迁移学习实现了手语翻译的 tokenization 任务，并通过实验结果，在无需额外标注的情况下提高了手语翻译的翻译质量。

Feb, 2020

分歧的令牌指标：测量退化以剪枝 LLM 组件并优化量化

通过引入 Divergent Token metrics (DTMs) 方法，本研究探索了对大型语言模型进行压缩的方法，并评估了压缩后模型的文本生成质量。结果表明，可以在不损害文本生成质量的情况下达到显著的精确度和稀疏度水平，而且 DTMs 可以更精确地评估模型各组件的影响。使用第一分歧标记度量（FDTM）进行模型稀疏化分析发现，可以剪枝超过 90% 的组件。在量化方面，FDTM 建议可以将超过 80% 的参数直接转换为 int8，而无需特殊的异常值管理。

Nov, 2023

如何通过操作分词来提高跨语言转移能力？对非规范化语言进行词性标注研究

研究 finetuning 预训练语言模型（PLMs）的挑战在于当在未预先训练的数据中出现前所未见的语言变化时，它们的分词器可能变得脆弱，导致在性能上下降，提出了一种在七种语言上用不同的方式衡量的调整标记方法，结果表明源数据和目标数据中单词拆分的比例差异（拆分单词比差异）是目标数据上模型表现的最强预测因素。

Apr, 2023

是否对文本进行标记化：跨语言转移的文本表示的比较研究

选择一个合适的分词方案通常是低资源跨语言转移的瓶颈。为了理解文本表示选择的后续影响，我们对具有不同文本表示模式的语言模型进行了比较分析，包括 2 个基于分词的模型（BERT，mBERT）、一个基于图像的模型（PIXEL）和一个基于字符级别的模型（CANINE）。通过提出的评分语言系数（LQ），我们在 19 种源语言和 133 种目标语言上执行了涵盖 POS 标记、依赖解析和 NER 的实验证明了基于图像的模型在语言密切相关且具有相似视觉脚本的情况下，在跨语言转移中表现出色。然而，在偏向于词义（POS，NER）的任务中，基于分词的模型表现优越。此外，在强依赖于词汇关系的依赖解析任务中，具有字符级别关注的模型胜过其他模型。最后，根据我们的发现，我们提出了一个基于我们的研究成果的建议方案，以指导根据任务和语言要求进行模型选择。

Oct, 2023

语言标记：一种令人沮丧的简单方法提高多语言翻译的零射击性能

本研究提出使用编码器 - 解码器框架来处理机器翻译的问题，在零样本情况和有直接数据的情况下，对输入记号进行修改并在编码器和解码器中包含源和目标语言的信号以提高性能，通过基于预训练模型或从头开始训练模型并使用所提出的设置从实验中得出改进结果，得出在内部数据集和 WMT 评估中模型表现的数字结果.

Aug, 2022

从空气中诞生：零样本跨语言关键词检测是否比无监督更好？

本文旨在探究是否可以利用预训练的多语言语言模型，对于没有训练数据的语言进行零样本跨语言关键字提取，并且比较它们与无监督关键字提取器的表现差异。研究结果表明，预训练模型在所有六种语言中都能在零样本条件下，比无监督模型表现更好。

Feb, 2022