神经序列分割作为确定最左段的方法

Apr, 2021

神经序列分割作为确定最左段的方法

Neural Sequence Segmentation as Determining the Leftmost Segments

Yangming Li, Lemao Liu, Kaisheng Yao

TL;DR提出一种新颖的基于片段级别的文本分割框架，通过LSTM技术构建短语表示，并利用循环神经网络模型迭代确定段落最左侧的片段。实验证明，在3个数据集上，该方法在句法分块和中文词性标注方面取得了显著优于先前最佳模型的表现，并在建模长期依赖方面具有有效性。

Abstract

Prior methods to text segmentation are mostly at token level. Despite the adequacy, this nature limits their full potential to capture the long-term dependencies among segments. In this work, we propose a novel f

发现论文，激发创造

基于字符级文本嵌入的文本分割

该研究提出通过训练简单的循环神经网络从原文本字符序列中直接学习文本表示，并将这些文本嵌入用作监督字符级别文本分段和标记任务的特征，以实现比表面字符 n-gram 更好的结果。

Sep, 2013

中文分词的双向LSTM循环神经网络

本文研究了使用双向长短时记忆循环神经网络进行中文分词的方法，实验结果表明，该方法在传统和简体中文数据集上均取得了最佳的性能。

Feb, 2016

中文神经分词学习

本文提出了一种新颖的神经网络框架，利用门控组合神经网络和LSTM语言评分模型，消除上下文窗口，可以利用完整的分词历史，产生分布式表示，从而实现中文分词，并在基准数据集上进行实验，结果不需要使用现有方法的特征工程，获得了与现有最先进方法相当甚至更好的性能。

Jun, 2016

使用双向LSTM进行最小特征的增量分析

本研究利用双向LSTM句子表示模型以及新颖的转移系统，成功实现了依存句法和短语句法的有监督学习，达到了最先进的效果。

Jun, 2016

基于分割的序列建模

本研究提出了一种基于分割的概率模型来计算序列的概率，并开发了高效的动态规划算法，能够在文本分割和语音识别任务中发现相关分割，并取得了良好的结果。

Feb, 2017

基于有向无环图的长短时记忆网络用于语言分词

本文介绍了一种新型神经模型，通过在有向无环图上使用长短时记忆网络来整合单词级别信息，结合预训练的字符或单词嵌入向量，实现了比基准模型更好的中文分词表现。

Jul, 2017

基于分段语言建模的汉语无监督神经分词

本文提出了基于分段的语言模型处理无监督中文分词的方法，并使用上下文编码器和分段解码器设计了神经模型，达到了与最新统计模型相当的性能。

Oct, 2018

双向神经语言模型下的无监督分词

本文介绍一种基于上下文敏感的无监督词分割模型，使用双向神经语言模型和两种解码算法来增强长期和短期的相关性，该模型在不同的数据集上实现了最新技术水平的中文和泰文词分割结果。

Mar, 2021

结构化摘要: 统一的文本分段和段落标注作为生成任务

提出一种单一的编码器-解码器神经网络方法，通过结构化总结的形式同时训练文档和对话数据的文本切片和标签任务，并成功展示了该方法在所属领域的顶尖性能以及其重要性。

Sep, 2022

自我监督多语言无标点符号句子分割

本文提出了一种多语言无标点自我监督句子分割方法，用未分割文本中的换行符进行分段，利用少量标注的样本即可适应分割不同语料库。作者通过使用该方法与训练MT模型相匹配的句子分割方式，在BLEU分数和MT翻译质量上取得了显著改进。

May, 2023