文本理解中有效的子词分割
该研究提出通过训练简单的循环神经网络从原文本字符序列中直接学习文本表示,并将这些文本嵌入用作监督字符级别文本分段和标记任务的特征,以实现比表面字符 n-gram 更好的结果。
Sep, 2013
本文介绍了一种联合模型,能够对单词进行无监督的形态分析,并学习从形态素到单词嵌入的字符级组成函数。该模型对单词进行分割,并根据其预测上下文单词的能力对每个分割部分进行加权。我们的形态分析与专门的形态分析器相当,并且在语法类比回答任务中表现优异。最后,我们表明,将形态学明确纳入字符级模型有助于它们生成与人类判断更相关的未知单词的嵌入。
Jun, 2016
本文提出了一种字符增强的阅读器,结合字和字符嵌入的不同集成策略,用一份短列表来增强字嵌入,从而改善字的表示,特别是罕见的字。实验结果表明,这种方法显著优于各种公共基准测试中的当前最先进方法。
Aug, 2018
该研究提出了一种新型的表示学习方法,它无需依赖于词语分割和人工注释资源,能有效处理像中文和日文这样的非分割语言中的嘈杂语料库,方法的主要思想是彻底忽略词语边界,利用组合子n-gram的嵌入来构建原始语料库中所有字符n-gram的表示。
Sep, 2018
本文研究了一种基于格子结构的长短时记忆网络,通过与词典匹配子序列信息实现对中文分词的支持,并通过对比 Word Encoding 和 Subword Encoding 两种编码方式表明 Subword Encoding 更具优势。结果表明本文提出的模型在四个分词基准测试中表现出与先前最先进的方法相当甚至更好的结果,并对其表现和性能进行了深入分析。
Oct, 2018
提出了一种分段神经语言模型,它将神经网络的概括能力与发现在未分段的字符序列中存在的类似单词的单元的能力相结合。在视觉上下文的作用下,此模型不仅可以发现单词的含义,还可以学习单词如何组成句子,并提高其预测准确性。
Nov, 2018
本研究通过对五种语言的三个任务进行大量实验研究,发现在利用子词级别信息进行词表示学习时,不同语言和任务下,分词和组成函数等关键组件的最优配置各异。同时,我们还发现,一些无监督分词方法,如BPE和Morfessor等,有时能够和甚至超过一些基于监督分词方法的配置。
Apr, 2019
提出了一种概括单词嵌入的方法,称为PBoS模型,该模型基于单词的拼写,同时对子词划分建模和计算子词组合的单词嵌入,并在词汇相似性和词性标注实验中显示出较好的性能,不需要明确的形态学知识。
Oct, 2020
我们提出了三个在标记化和子词分割中的创新。首先,我们建议使用Morfessor的无监督形态分析作为预标记化。其次,我们提出了一种代数方法来获取基于词嵌入空间的子词嵌入。基于此,我们设计了一种使用嵌入的新型子词分割算法,确保该过程考虑了词汇意义。第三,我们引入了一种基于子词二元模型的高效分割算法,可使用词汇感知分割方法进行初始化,以避免在推理时使用Morfessor和大型嵌入表。我们使用两个内在指标评估了所提出的方法,并在两个下游任务上测试了其性能:词性标注和机器翻译。我们的实验证明,在各语言上,通过在词素边界上评估的分割精度和改进的Rényi效率方面,该分割的形态合理性得到了显著提高。尽管所提出的标记化方法对自动翻译质量影响不大,但我们观察到在词性标注这个更具形态学特征的任务中一直存在性能提升。
Jun, 2024