May, 2024

越南 AI 生成文本检测

TL;DR近年来,大型语言模型(LLMs)已经融入我们的日常生活,成为完成任务的宝贵助手。本研究提出了一个名为 ViDetect 的数据集,包含 6800 个样本的越南语文章,其中 3400 个样本由人类撰写,其余由 LLMs 生成,旨在检测 AI 生成的文本。我们使用 ViT5、BartPho、PhoBERT、mDeberta V3 和 mBERT 等最先进的方法进行评估。这些结果不仅对于检测 AI 生成的文本的研究的日益增长的基础做出了贡献,还展示了不同方法在越南语境下的适应性和有效性。该研究为未来的 AI 生成文本检测的进展奠定了基础,并为自然语言处理领域的研究人员提供了宝贵的见解。