该研究提出通过训练简单的循环神经网络从原文本字符序列中直接学习文本表示,并将这些文本嵌入用作监督字符级别文本分段和标记任务的特征,以实现比表面字符 n-gram 更好的结果。
Sep, 2013
本文研究了使用双向长短时记忆循环神经网络进行中文分词的方法,实验结果表明,该方法在传统和简体中文数据集上均取得了最佳的性能。
Feb, 2016
本文提出了一种新颖的神经网络框架,利用门控组合神经网络和LSTM语言评分模型,消除上下文窗口,可以利用完整的分词历史,产生分布式表示,从而实现中文分词,并在基准数据集上进行实验,结果不需要使用现有方法的特征工程,获得了与现有最先进方法相当甚至更好的性能。
Jun, 2016
本研究利用双向LSTM句子表示模型以及新颖的转移系统,成功实现了依存句法和短语句法的有监督学习,达到了最先进的效果。
本研究提出了一种基于分割的概率模型来计算序列的概率,并开发了高效的动态规划算法,能够在文本分割和语音识别任务中发现相关分割,并取得了良好的结果。
Feb, 2017
本文介绍了一种新型神经模型,通过在有向无环图上使用长短时记忆网络来整合单词级别信息,结合预训练的字符或单词嵌入向量,实现了比基准模型更好的中文分词表现。
Jul, 2017
本文提出了基于分段的语言模型处理无监督中文分词的方法,并使用上下文编码器和分段解码器设计了神经模型,达到了与最新统计模型相当的性能。
Oct, 2018
本文介绍一种基于上下文敏感的无监督词分割模型,使用双向神经语言模型和两种解码算法来增强长期和短期的相关性,该模型在不同的数据集上实现了最新技术水平的中文和泰文词分割结果。
Mar, 2021
提出一种单一的编码器-解码器神经网络方法,通过结构化总结的形式同时训练文档和对话数据的文本切片和标签任务,并成功展示了该方法在所属领域的顶尖性能以及其重要性。
Sep, 2022
本文提出了一种多语言无标点自我监督句子分割方法,用未分割文本中的换行符进行分段,利用少量标注的样本即可适应分割不同语料库。作者通过使用该方法与训练MT模型相匹配的句子分割方式,在BLEU分数和MT翻译质量上取得了显著改进。
May, 2023