CompoundPiece：评估并提高语言模型的分解复合能力

May, 2023

CompoundPiece：评估并提高语言模型的分解复合能力

CompoundPiece: Evaluating and Improving Decompounding Performance of Language Models

Benjamin Minixhofer, Jonas Pfeiffer, Ivan Vulić

TL;DR本文旨在通过构建一个数据集研究跨语言中的复合词问题，发现基于大型语言模型的分解表现不佳，并提出了一种分解训练方法 —— 完全自我监督的训练方法，成功地构建了一种更好的分解模型，同时使用 CompundPiece 对复合词进行分词更佳。

Abstract

While many languages possess processes of joining two or more words to create compound words, previous studies have been typically limited only to languages with excessively productive compound formation (e.g., German, Dutch) and there is no public dataset containing compound and non-compound words across a large number of languages. In this work, we systema

decompounding large language models self-supervised method compoundpiece subword tokenization

发现论文，激发创造

复合词拆分的经验方法

本文介绍了通过单语和平行语料库学习分割规则的方法，对机器翻译等 NLP 应用中的复合词进行处理，评估结果表明，在德英名词短语翻译任务中，可以获得 99.1％的准确性和 0.039 BLEU 的性能提升。

Feb, 2003

自动发现平行数据中的非组合性复合词

本文提出一种基于翻译模型的文本分割方法，用于识别翻译时作为一个单元的语言序列，在机器翻译任务中有着不错的性能表现，不依赖于特定数据来源，可应用于多种平行语料数据。

Jun, 1997

学习预测新颖的名词 - 名词组合

本文介绍了一种感知时间和语境的模型用于预测未知合成名词所表达的可信概念，该模型在在一个时间戳语料库上训练，可以识别真实的和虚假的合成名词。经测试，该模型在多大约 85% 的情况下能正确分类自动生成的新的合成名词并有五分之一的新合成名词被评定为可信。

Jun, 2019

移动键盘输入中的复合处理

本文提出了一个框架来提高手机用户在形态丰富的语言中的打字体验，该方法使用自动选择的子词单元来对德语等复杂的语言进行建模，并通过绑定类型注释来确定何时将子词单元绑定成单词，此方法在多种复杂语言中表现出约 20% 的错误率降低，是基本方法改进的两倍以上。

Jan, 2022

基于语义综合与形态分析的派生词处理

该研究提出了一种新颖的概率模型来捕捉单词形成的分析和合成的含义，利用神经网络的向量组合方法，共同学习单词的形态划分和语义语素的分布式向量，提高了单词的分割准确率和语素 F1 指标 3% 至 5%。

Jan, 2017

复杂话语的自然语言分解和解释

该研究介绍了一种通过分层自然语言分解处理复杂话语的方法来装备简单的语言代码模型，以实现自然语言接口的功能，实现了对几乎没有复杂训练数据的复杂话语的解释，并优于标准的少量提示方法。

May, 2023

学会分解：基于可比文本的假想问题分解

本文研究大规模中介设备的预训练，在使用来自可比文本，特别是大规模平行新闻的远程监督的情况下将显式分解建模应用于自然语言理解系统。作者称使用这种中间预训练可以更容易地开发强大的显式分解模型。例如，该模型在语义分析方面取得了 20％至 30％的改进，并用于构建名为 DecompEntail 的新型显式分解问答系统。

Oct, 2022

设计统计语言学习器：关于名词复合词的实验

该论文通过提出一种新型设计实现语言分析，包括统计语言学习的理论贡献，将概率赋给语义形式而不是更表面的语言元素，以及通过实验证明在名词组分析方面，提出的句法模型明显优于先前提出的模型，语义模型第一次以统计方法解决该问题，显示出更高的准确性，为未来研究提出了广泛适用的数据需求理论。

Sep, 1996

用于恩格尼语的亚词分语言建模

该研究提出了一种基于语言模型的子词分段语言模型（SSLM），在训练期间学习如何分段单词，以优化语言模型的性能。通过统一子词分割和语言建模，SSL 模型学习到优化语言建模性能的子词。结果表明，学习子词分割是现有子词分割器的有效替代方案，可以发现类似词素的子词，以提高其语言模型的能力。

Oct, 2022

评估 NMT 中基于子词的标记化的频率与组合重要性

该研究探讨了子词分词在神经语言模型和机器翻译系统中的应用，并提出了一种基于 Huffman 编码的分词方法，表明非常高频的单词分别出现，是达到比贪心算法高的分数的一个相对较重要的因素。

Jun, 2023