基于字符级文本嵌入的文本分割

Sep, 2013

Text segmentation with character-level text embeddings

Grzegorz Chrupała

TL;DR该研究提出通过训练简单的循环神经网络从原文本字符序列中直接学习文本表示，并将这些文本嵌入用作监督字符级别文本分段和标记任务的特征，以实现比表面字符 n-gram 更好的结果。

Abstract

Learning word representations has recently seen much success in computational linguistics. However, assuming sequences of word tokens as input to linguistic analysis is often unjustified. For many languages word segmentation is a non-trivial task and naturally occurring text is sometim