层次字符 - 词语模型在语言识别中的应用

Aug, 2016

层次字符 - 词语模型在语言识别中的应用

Hierarchical Character-Word Models for Language Identification

Aaron Jaech, George Mulcaire, Shobhit Hathi, Mari Ostendorf, Noah A. Smith

TL;DR本文介绍了一种基于层次模型的语言识别方法，其中字符级和上下文化的词级表示能够很好地处理社交媒体消息的简洁特性和非传统拼写，同时还能揭示代码开关现象。

Abstract

social media messages' brevity and unconventional spelling pose a challenge to language identification. We introduce a hierarchical model

social media language identification hierarchical model code-switching character representation

发现论文，激发创造

从字符到词语：分层预训练语言模型用于开放词汇语言理解

该研究引入了一种新颖的开放词汇语言模型，包含两个层次：词级和序列级，并通过对字符的表示以及全局的序列级别上下文调整，使模型直接处理字符序列，而不是子词或词级别的词汇表，取得了比强基准表现更好的效果，并且具有文本破坏和域移位的鲁棒性。

May, 2023

基于字符识别的神经语言模型

本研究描述了一种仅依赖字符级输入的简单神经语言模型，该模型利用卷积神经网络和字符级公路网络作为输入，并将结果给予一种长短时记忆递归神经网络语言模型作为输出，该模型可以用较少的参数占据现有最先进的地位。此外，该模型表现出色的证明了许多语言所需的字符输入已经足够进行语言建模，且可以从字符组成的部分编码的单词表示中得到语义和字形信息。

Aug, 2015

Tweet2Vec：社交媒体基于字符的分布式表示

本研究提出了一个基于字符组合的 tweet2vec 模型，通过学习字符序列中复杂的非局部依赖关系，找到整个推文的向量表示，相比基于单词的方法在处理社交媒体文本时表现更佳。

May, 2016

双语字符表示以有效地解决语码混杂命名实体识别中的生词问题

本文提出一种基于 LSTM 模型的层次结构，在命名实体识别中使用双语字符表征和迁移学习来解决词汇表外单词的问题，并提出使用标记替换和规范化减轻数据噪声。在第三届计算语言代码切换共享任务中，我们在不使用任何专用词典和基于知识的信息的情况下，在英语 - 西班牙语语言对中获得了第二名，和 62.76% 的谐波平均 F1 分数。

May, 2018

Character-Word LSTM 语言模型

使用长期短期记忆（LSTM）、字符信息和单词嵌入等技术，设计了一种基于字符的语言模型，有效提高了对单词的建模能力，优于传统基于单词的模型。

Apr, 2017

基于字符和语音的 LSTM 模型的孟加拉 - 英文混合代码文本语言识别

本文提出一种基于深度长短期记忆 (LSTM) 模型的有监督学习方法，针对社交媒体上的低资源孟加拉语 - 英语混合数据的单词级别语言识别问题，采用字符编码和词根编码两种方法训练模型，并使用堆叠和阈值技术创建两个集成模型，在测试数据上分别获得了 91.78% 和 92.35% 的准确率。

Mar, 2018

短文本个性特质识别的语言无关和组合模型

通过深度学习方法和文本的原子特征 —— 字符，建立层次化的句向量表示，应用于推文语料库中，有效识别出作者人格特质，与先前基于浅层学习模型的工作相比，在五个特质和三种语言（英语、西班牙语和意大利语）中表现最优，结果鼓舞人心，揭示了检测复杂人类特质的可能性。

Oct, 2016

拼字比赛中的模型：语言模型隐式学习到了单词字符组成

通过分析预训练语言模型的嵌入层，研究表明该模型对于整词和子词令牌的内部字符构成也有很高的学习能力。虽然该模型没有直接使用字符信息，但它仍然能够拼写正确达到整体词汇量的三分之一，并在所有令牌类型上达到了高平均字符模型重叠度。而且，通过额外的字符信息来丰富子词模型的训练并不能提高其在语言建模上的性能。总体来说，该研究表明语言建模目标会激励模型隐式地学习拼写知识，而显式地教授拼写知识并不能提高其性能。

Aug, 2021

短文本拼写错误修正的层次字符标记器

本研究提出了一种基于 Hierarchical Character Tagger 模型的短文本拼写错误纠正方法，该模型使用预训练的字符级语言模型作为文本编码器，并提出了一种分层多任务解码方法来缓解长尾标签分布问题。实验证明，HCTagger 模型比许多现有模型更准确，速度更快。

Sep, 2021

语言模型预训练用于层次文档表示

从无标注数据中预训练了一种能够包括来自整个文档的上下文信息的分层文档表示，包括定长的句子 / 段落表示，并应用于文档分割、文档级问答和抽取式文档摘要等方面取得了有效结果。

Jan, 2019