无监督跨语言分词的自调参数

Mar, 2023

Self-tuning hyper-parameters for unsupervised cross-lingual tokenization

Anton Kolonin

TL;DR该研究探讨了对于英语、俄语和汉语的无监督分词问题可行的元学习方法，通过实现基于不同人类独立健身函数的元学习方法以及三个度量的加性和乘性组合来测试不同语言的无监督分词模型并找到了适合每种语言的最佳设置。

Abstract

We explore the possibility of meta-learning for the language-independent unsupervised tokenization problem for English, Russian, and Chinese. We implement the →

meta-learning unsupervised tokenization hyper-parameters compression factor f1 score

发现论文，激发创造

无监督标记学习

本研究发现，相比于互信息和条件概率等统计度量方法，所谓的 “过渡自由度” 度量方法在无监督分词方面表现更佳，跨多语料库提供了 0.71 到 1.0 的 F - 度量分数。我们发现，不同的语言需要该度量方法的不同分支（如导数、方差和 “峰值”）才能实现成功的分词。更大的训练语料库不一定会导致更好的分词质量，而通过消除统计上薄弱的证据来压缩模型往往会提高性能。该无监督分词技术提供的质量优于或与基于词典的技术相媲美，具体效果取决于语言。

May, 2022

高效符号通信码的演化

本文探讨了人类自然语言结构如何成为相互之间交流编码演化的产物，以最大化文化不可知和跨语言度量，如反熵，压缩因子和交叉分割 F1 得分，并在超参数空间中执行元学习，通过最大化上述度量，实现自然语言学习。文中介绍了针对俄语，英语和汉语的跨语言单词级分割分词研究，以及对英语的子词分割或形态分析研究的初步结果。研究发现，从分词到分词中可以发现，这些度量驱动着语言结构，反熵更相关于英语和俄语，而压缩因子更适用于中国。对于英语词汇表的子词分割或形态分析的研究揭示了压缩和压缩因子之间存在直接联系，而惊讶的是，与反熵的相同联系却变成了相反。

Jun, 2023

元学习跨语言语义解析流形

通过元学习算法，利用高语种数据进行训练，在少量带注释的新语言数据上，我们的跨语言语义分析器可以达到较高的准确性和极少的数据采样。

Sep, 2022

USCORE: 机器翻译完全无监督评价度量的有效方法

本研究开发了全无监督评估指标，利用评估指标的彼此相似性和协同作用、平行语料库挖掘和机器翻译系统等方法，以及迭代地挖掘伪平行数据、对不足的基础矢量空间重新映射并诱导无监督机器翻译系统，最终提供伪参考作为度量的附加组件，同时还利用伪平行数据诱导无监督多语言句子嵌入。结果表明，我们的全无监督度量是有效的，在 5 个数据集中的 4 个上打败了监督竞争对手。

Feb, 2022

通过自监督表示混合和嵌入初始化最大化跨语言 TTS 适应的数据效率

本文介绍了一种有效的迁移学习框架，用于在文本转语音系统中进行语言适应，重点是通过使用尽可能少的标记和未标记数据实现语言适应。实验结果表明，我们的框架能够仅使用 4 个标记数据和 15 分钟未标记数据合成未知语言的可懂语音，还能在可获得更多数据的情况下超越传统技术，凸显了我们的高效语言适应框架的潜力。

Jan, 2024

无需分词的多语言预训练模型的多维度评估

综合比较多语言预训练模型的效率时，在考虑内存使用、推理速度和数据健壮性等方面，基于子词的模型仍然是许多场景下更可靠的选择，此为当前研究结果，建议未来的 tokenizer-free 方法在设计和评估模型时也要考虑这些因素。

Oct, 2022

无监督多语言句子嵌入用于平行语料挖掘

本研究提出了一种新的无监督方法，通过使用单语数据来获得跨语言句子嵌入，产生了合成平行语料库，使用预训练的跨语言掩码语言模型（XLM）对其进行微调以得到多语言句子表示，并在两个平行语料库挖掘任务上评估了表示的质量，结果表明，这种方法可以比基准 XLM 模型获得高达 22 个 F1 点的改进。此外，我们还观察到，单个合成的双语语料库能够改善其他语言对的结果。

May, 2021

从空气中诞生：零样本跨语言关键词检测是否比无监督更好？

本文旨在探究是否可以利用预训练的多语言语言模型，对于没有训练数据的语言进行零样本跨语言关键字提取，并且比较它们与无监督关键字提取器的表现差异。研究结果表明，预训练模型在所有六种语言中都能在零样本条件下，比无监督模型表现更好。

Feb, 2022

使用修改的交叉熵损失进行多语言仇恨言论和攻击性内容检测

研究使用大型语言模型 Fine-tune，通过自动化方法识别社交媒体中的仇恨言论和有害内容，团队达到了 2021 年 HASOC 竞赛中英语和印地语任务的最佳结果。

Feb, 2022

跨语言语言模型预训练

本文提出了两种跨语言学习模型的方法 (XLMs): 一种是仅依赖于单语数据的无监督方式，另一种是利用新的跨语言模型目标并使用平行数据的有监督方式。通过这些方法在跨语言分类、无监督和有监督机器翻译中取得了最先进的结果。

Jan, 2019