将序列对序列模型用于社交媒体文本规范化

AAAIApr, 2019

将序列对序列模型用于社交媒体文本规范化

Adapting Sequence to Sequence models for Text Normalization in Social Media

Ismini Lourentzou, Kabir Manghnani, ChengXiang Zhai

TL;DR介绍了一个基于混合词 - 字符注意力编码 - 解码模型的社交媒体文本标准化系统，以预处理噪音文本并适应社交媒体上的 NLP 应用。

Abstract

social media offer an abundant source of valuable raw data, however informal writing can quickly become a bottleneck for many natural language processing (NLP) tasks. Off-the-shelf tools are usually trained on fo

social media natural language processing text normalization attention-based encoder-decoder neural networks

发现论文，激发创造

利用字符和词向量与序列到序列模型进行文本规范化

使用字符级别的注意力和事先训练好的子 / 词级别的嵌入向神经网络提供更多语言学信息，而不需要大量的平行语料库，从而帮助神经网络在标准阿拉伯语语言纠错共享任务数据集上实现最先进的 F1 分数。

Sep, 2018

基于多语言 Transformer 的序列 - 序列词汇规范化

本论文通过使用基于 mBART 的句子级序列到序列模型，将自然语言处理中的标准化问题归结为机器翻译问题，利用多语言预训练技术进行 fine-tuned，优于操作原始社交媒体文本的模型，在下游任务中实现性能提升。

Oct, 2021

自动文本规范化用于仇恨言论检测

社交媒体数据是研究的宝贵资源，非标准词汇是对 NLP 工具运行的一种障碍。我们采用了一种简单的序列到序列模型，通过文本规范化的实验结果显示准确率接近 70%，同时也提升了 2% 左右的仇恨言论检测任务的准确性，展示了提高复杂 NLP 任务性能的潜力。

Nov, 2023

通过优化最近邻匹配来改进文本规范化

本文提出了一种基于自动优化的最近邻匹配方法来进行文本规范化的方法，它可用于构建具备实践意义的领域特定规范化词典。

Dec, 2017

对抗性文本标准化

提出了对抗文本归一化器 (ATN)，一种轻量级，可重用的防御方法，可以恢复受到攻击文本的基线性能，并且可用于对抗性攻击易感问题领域，包括仇恨言论和自然语言推理，以提供任务不可知的防御。

Jun, 2022

自动规范混合语言社交媒体文本中的单词变体

本文研究了如何通过利用词的上下文特性和分布式表征来处理混合代码数据中单词的不同变体，并表明这种预处理方式可以提高最先进的词性标注和情感分析任务的性能。

Apr, 2018

文本标准化的循环神经网络方法：一项挑战

该论文介绍了一个挑战：给定一个大型的文本语音对齐数据集，通过训练递归神经网络 (RNN) 来学习正确的文本归一化函数。论文提供了一个通用文本数据集，其中归一化是使用现有的文本到语音系统的文本归一化组件生成的，并表明简单的 FST 过滤器可以减轻 RNN 产生的错误，旨在为序列到序列建模提供一个新的数据集，以期寻找更好的解决方案。

Oct, 2016

双语社区中基础语言规范化对不充分资源语言的非常规书写的影响

本文研究在社交媒体上，通过使用建模技术，对不同语言，特别是那些主要使用波斯 - 阿拉伯语脚本书写的语言的脚本归一化的问题进行了处理，而这有助于提高机器翻译和语言识别等下游任务的性能。

May, 2023

用户生成文本中医学概念规范化的深度神经模型

本文使用神经网络解决医学文本中的概念标准化问题，实验结果表明神经网络能够更好地识别实体，并获得更好的语义表示。

Jul, 2019

数据到文本自然语言生成的序列到序列模型：基于单词 vs 字符的处理和输出多样性

比较基于单词和字符的序列到序列模型在数据到文本自然语言生成方面的表现，进一步分析了两者输入表示之间的差异和生成文本的差异性，并通过对模板产生的合成训练数据的控制性实验展示神经模型学习新组合模板的能力。

Oct, 2018