ViLexNorm：越南社交媒体文本的词汇规范化语料库

ACLJan, 2024

ViLexNorm：越南社交媒体文本的词汇规范化语料库

ViLexNorm: A Lexical Normalization Corpus for Vietnamese Social Media Text

Thanh-Nhi Nguyen, Thanh-Phong Le, Kiet Van Nguyen

TL;DR首次引入越南词汇规范化任务的越南词汇规范化 (ViLexNorm) 语料库包括超过 10,000 对句子，经过人工注释，来自越南最流行社交媒体平台的公开评论，并验证了其在 NLP 任务中的积极影响。

Abstract

lexical normalization, a fundamental task in Natural Language Processing (NLP), involves the transformation of words into their canonical forms. This process has been proven to benefit various downstream nlp tasks

lexical normalization vietnamese corpus nlp tasks social media platforms

发现论文，激发创造

自动文本规范化用于仇恨言论检测

社交媒体数据是研究的宝贵资源，非标准词汇是对 NLP 工具运行的一种障碍。我们采用了一种简单的序列到序列模型，通过文本规范化的实验结果显示准确率接近 70%，同时也提升了 2% 左右的仇恨言论检测任务的准确性，展示了提高复杂 NLP 任务性能的潜力。

Nov, 2023

用于评估日语形态分析和词汇规范化的用户生成的文本语料库

该研究构建了一个公开的 929 句子的日语 UGT 语料库，用于评估和比较不同的 MA/LN 系统，实验结果表明，现有的 MA/LN 方法在非常规词汇和非标准形式方面表现较差，该语料库可作为进一步研究日语 UGT 的基准测试。

Apr, 2021

ÚFAL 在 MultiLexNorm 2021 中：通过对 ByT5 进行微调来提高多语种词汇规范化

使用基于 ByT5 的预训练语言模型，并在合成数据上进行进一步的预训练，然后在正式标准化数据上进行微调，可以实现在 MultiLexNorm 竞赛中最佳性能表现的多语言词汇规范化系统。在本文中，我们介绍了该系统的细节和表现结果。

Oct, 2021

ViSoBERT：用于越南社交媒体文本处理的预训练语言模型

本文介绍了首个用于越南社交媒体文本的单语言预训练语言模型 ViSoBERT，该模型使用 XLM-R 架构，在大规模高质量多样化的越南社交媒体文本语料库上进行预训练，并在越南社交媒体文本的情绪识别、仇恨言论检测、情感分析、垃圾评论检测和仇恨言论跨度检测等五个重要的自然语言下游任务中超越了之前最先进的模型。

Oct, 2023

文本转语音中的非标准越南语词语检测和规范化

本文提出了一种新的两阶段文本标准化方法解决语音合成中的 NSWs（数字，日期，范围，分数，缩写，URL，电子邮件，哈希标签和联系人名字）语义歧义和发音问题。第一个阶段使用基于模型的标注器检测 NSWs，第二个阶段使用基于正向词典的最大匹配算法将哈希标签，电子邮件地址和联系人名字等 NSWs 拆分为发音形式。实验结果表明，该方法的错误率较低，达到 6.67％。

Sep, 2022

健康新闻文章机器阅读理解的新越南语语料库

介绍了 ViNewsQA，这是用于越南语的一种新的用于评估医疗领域阅读理解模型的语料库，其中包含 22057 个人工生成的问题 - 答案对和比较人类和不同机器阅读理解方法的性能，其中 ALBERT 模型在该语料库上获得了最好的性能。

Jun, 2020

ViANLI: 针对越南语的对抗自然语言推理

通过预训练模型在标注过程中使用，本文介绍了对自然语言推理进行研究的越南 NLVS 数据集 ViANLI，并证明基于该数据集训练的模型显著提高了其他越南自然语言推理数据集的结果。

Jun, 2024

VnCoreNLP: 一款越南语自然语言处理工具包

VnCoreNLP 是一个易于使用且快速的开源 Java 自然语言处理工具包，支持越南语分词、词性标注、命名实体识别和依存句法分析，可以提供丰富的语言学注释来促进关于越南语自然语言处理的研究工作。

Jan, 2018

ValNorm 量化语义揭示跨语言和跨世纪的一致情绪倾向

本论文介绍了一个新的内在评估任务和方法 ValNorm，可通过语义学的统计规律来量化人类主观评价中影响价值维度的词汇，使用静态单词嵌入技术来评估七种语言（中文，英文，德文，波兰文，葡萄牙文，西班牙文和土耳其文）中几组单词的情感价值，并表明意义不同的单词情感价值具有广泛的共享关联。

Jun, 2020

通过情感词典方法提高越南文本的情感分析

本文提出一种将情感词典与分类模型相结合的方法，以提高情感分析任务的准确性，并实验证明此方法能够提高分类模型的性能。

Oct, 2022