ViLexNorm:越南社交媒体文本的词汇规范化语料库
社交媒体数据是研究的宝贵资源,非标准词汇是对 NLP 工具运行的一种障碍。我们采用了一种简单的序列到序列模型,通过文本规范化的实验结果显示准确率接近 70%,同时也提升了 2% 左右的仇恨言论检测任务的准确性,展示了提高复杂 NLP 任务性能的潜力。
Nov, 2023
该研究构建了一个公开的 929 句子的日语 UGT 语料库,用于评估和比较不同的 MA/LN 系统,实验结果表明,现有的 MA/LN 方法在非常规词汇和非标准形式方面表现较差,该语料库可作为进一步研究日语 UGT 的基准测试。
Apr, 2021
使用基于 ByT5 的预训练语言模型,并在合成数据上进行进一步的预训练,然后在正式标准化数据上进行微调,可以实现在 MultiLexNorm 竞赛中最佳性能表现的多语言词汇规范化系统。在本文中,我们介绍了该系统的细节和表现结果。
Oct, 2021
本文介绍了首个用于越南社交媒体文本的单语言预训练语言模型 ViSoBERT,该模型使用 XLM-R 架构,在大规模高质量多样化的越南社交媒体文本语料库上进行预训练,并在越南社交媒体文本的情绪识别、仇恨言论检测、情感分析、垃圾评论检测和仇恨言论跨度检测等五个重要的自然语言下游任务中超越了之前最先进的模型。
Oct, 2023
本文提出了一种新的两阶段文本标准化方法解决语音合成中的 NSWs(数字,日期,范围,分数,缩写,URL,电子邮件,哈希标签和联系人名字)语义歧义和发音问题。第一个阶段使用基于模型的标注器检测 NSWs,第二个阶段使用基于正向词典的最大匹配算法将哈希标签,电子邮件地址和联系人名字等 NSWs 拆分为发音形式。实验结果表明,该方法的错误率较低,达到 6.67%。
Sep, 2022
介绍了 ViNewsQA,这是用于越南语的一种新的用于评估医疗领域阅读理解模型的语料库,其中包含 22057 个人工生成的问题 - 答案对和比较人类和不同机器阅读理解方法的性能,其中 ALBERT 模型在该语料库上获得了最好的性能。
Jun, 2020
通过预训练模型在标注过程中使用,本文介绍了对自然语言推理进行研究的越南 NLVS 数据集 ViANLI,并证明基于该数据集训练的模型显著提高了其他越南自然语言推理数据集的结果。
Jun, 2024
VnCoreNLP 是一个易于使用且快速的开源 Java 自然语言处理工具包,支持越南语分词、词性标注、命名实体识别和依存句法分析,可以提供丰富的语言学注释来促进关于越南语自然语言处理的研究工作。
Jan, 2018
本论文介绍了一个新的内在评估任务和方法 ValNorm,可通过语义学的统计规律来量化人类主观评价中影响价值维度的词汇,使用静态单词嵌入技术来评估七种语言(中文,英文,德文,波兰文,葡萄牙文,西班牙文和土耳其文)中几组单词的情感价值,并表明意义不同的单词情感价值具有广泛的共享关联。
Jun, 2020