使用字符级别的注意力和事先训练好的子 / 词级别的嵌入向神经网络提供更多语言学信息,而不需要大量的平行语料库,从而帮助神经网络在标准阿拉伯语语言纠错共享任务数据集上实现最先进的 F1 分数。
Sep, 2018
本论文通过使用基于 mBART 的句子级序列到序列模型,将自然语言处理中的标准化问题归结为机器翻译问题,利用多语言预训练技术进行 fine-tuned,优于操作原始社交媒体文本的模型,在下游任务中实现性能提升。
Oct, 2021
社交媒体数据是研究的宝贵资源,非标准词汇是对 NLP 工具运行的一种障碍。我们采用了一种简单的序列到序列模型,通过文本规范化的实验结果显示准确率接近 70%,同时也提升了 2% 左右的仇恨言论检测任务的准确性,展示了提高复杂 NLP 任务性能的潜力。
Nov, 2023
本文提出了一种基于自动优化的最近邻匹配方法来进行文本规范化的方法,它可用于构建具备实践意义的领域特定规范化词典。
Dec, 2017
提出了对抗文本归一化器 (ATN), 一种轻量级,可重用的防御方法,可以恢复受到攻击文本的基线性能,并且可用于对抗性攻击易感问题领域,包括仇恨言论和自然语言推理,以提供任务不可知的防御。
Jun, 2022
本文研究了如何通过利用词的上下文特性和分布式表征来处理混合代码数据中单词的不同变体,并表明这种预处理方式可以提高最先进的词性标注和情感分析任务的性能。
Apr, 2018
该论文介绍了一个挑战:给定一个大型的文本语音对齐数据集,通过训练递归神经网络 (RNN) 来学习正确的文本归一化函数。论文提供了一个通用文本数据集,其中归一化是使用现有的文本到语音系统的文本归一化组件生成的,并表明简单的 FST 过滤器可以减轻 RNN 产生的错误,旨在为序列到序列建模提供一个新的数据集,以期寻找更好的解决方案。
Oct, 2016
本文研究在社交媒体上,通过使用建模技术,对不同语言,特别是那些主要使用波斯 - 阿拉伯语脚本书写的语言的脚本归一化的问题进行了处理,而这有助于提高机器翻译和语言识别等下游任务的性能。
May, 2023
本文使用神经网络解决医学文本中的概念标准化问题,实验结果表明神经网络能够更好地识别实体,并获得更好的语义表示。
Jul, 2019
比较基于单词和字符的序列到序列模型在数据到文本自然语言生成方面的表现,进一步分析了两者输入表示之间的差异和生成文本的差异性,并通过对模板产生的合成训练数据的控制性实验展示神经模型学习新组合模板的能力。
Oct, 2018