Dec, 2015

从字节开始的多语言处理

TL;DR通过基于 LSTM 的 Byte-to-Span 模型,我们能够读取以 byte 形式表示的文本,并输出 [start, length, label] 的 span annotations,由于直接操作 unicode bytes 而非语言特定的单词或字符,所以我们能够用单个模型分析多种语言。这些多语言模型非常紧凑且不需要任何自然语言处理的标准流程(包括分词),因此能够独立运行于原始文本上,并在命名实体识别和词性标注等方面产生类似或更好的结果。