Sep, 2024
一种针对越南社交媒体的机器词汇标准化的弱监督数据标注框架
A Weakly Supervised Data Labeling Framework for Machine Lexical
Normalization in Vietnamese Social Media
TL;DR本研究提出了一种创新的自动标注框架,旨在解决越南等低资源语言社交媒体文本中的词汇标准化问题。该框架结合了半监督学习和弱监督技术,有效提高了训练数据集的质量和规模,减少了人工标注的工作量。实验结果表明,该框架在越南文本标准化中表现出色,F1分数达到82.72%,并在多种条件下准确处理无变音文本。