丰富预训练神经词语分割
提出了一种结合了上下文化词元表示和字符级解码的神经分割模型,对于具有高令牌内部复杂性和极度形态歧义的希伯来语和阿拉伯语等语言,其分割准确性得到了显着提高,并对下游 NLP 任务的表现进行优化。
Mar, 2022
本文提出了一种新颖的神经网络框架,利用门控组合神经网络和 LSTM 语言评分模型,消除上下文窗口,可以利用完整的分词历史,产生分布式表示,从而实现中文分词,并在基准数据集上进行实验,结果不需要使用现有方法的特征工程,获得了与现有最先进方法相当甚至更好的性能。
Jun, 2016
本研究发现,先前使用的预训练模型往往采用语言建模作为预训练任务,缺少任务特定的分词先验知识并忽略预训练任务与下游分词任务之间的差异。为此,我们提出了一种 CWS 特定的预训练模型 METASEG,它采用统一架构并将元学习算法结合到多标准预训练任务中。实验证明,METASEG 可以利用不同现有标准的常见分词先验知识,并减轻预训练模型与下游 CWS 任务之间的差异。此外,METASEG 可以在 12 个广泛使用的 CWS 数据集上实现新的最佳性能,并显著提高低资源环境下的模型性能。
Oct, 2020
本文提出了一种新的方法,利用单词结构并将词汇语义融入预训练模型的字符表示中,以加强单词信息的表达,通过词 - 字符对齐注意机制和集成方法来提高不同中文自然语言处理任务的性能,并进一步证明了模型各组件的有效性。
Jul, 2022
本文研究利用神经网络模型共同训练中文社交媒体的命名实体识别(NER)和分词(word segmentation)任务,与之前的研究相比,使用 LSTM-CRF 模型得到了将近 5% 的显著提高。
Mar, 2016
本文通过对预训练词向量、字符模型和 POS 标签在基于转移的依赖分析器中的相互作用进行综合分析,认为它们之间存在复杂的相互作用,并且在分别应用它们时,均较使用随机初始化的词向量的基线系统都有了大幅度的改进,但组合它们很快就会显得变得没有预期的好,特别是在具有丰富形态的低频开放类词汇和有歧义性的高频功能词之间,将它们灵活组合使用可以得到同样的结果,同时对于具有小字符集的语言,尤其是对于形态丰富的语言,大的字符嵌入大小也有助于提高依赖分析的品质
Aug, 2018
提出了一种分段神经语言模型,它将神经网络的概括能力与发现在未分段的字符序列中存在的类似单词的单元的能力相结合。在视觉上下文的作用下,此模型不仅可以发现单词的含义,还可以学习单词如何组成句子,并提高其预测准确性。
Nov, 2018
本研究提出了一种针对文本丰富的网络的预训练模型,使用网络上下文引入文档间关系依赖来捕获文本属性和网络结构之间的内在依赖关系,实验表明该模型在学术和电商领域的四个下游任务中表现显著优于基线模型。
May, 2023
本研究提出了一种贪心神经分词器,利用平衡的词和字符嵌入输入来增强现有模型的计算效率,并能在中文基准数据集上以非常高的速度和更高的准确率执行分词,从而实现真正的端到端分词。
Apr, 2017
本研究探讨用数据驱动的子字单元、字符和卷积神经网络(CNN)学习的单词嵌入来替代传统的形态学分割,实现阿拉伯语自然语言处理(NLP)中的词分割。实验表明,这些方法在机器翻译和词性标注任务中,可以达到接近或超过最先进性能。同时,研究揭示神经机器翻译系统对源和目标令牌的比值敏感,接近 1 或更大的比值有最佳性能。
Sep, 2017