越南 AI 生成文本检测

May, 2024

Vietnamese AI Generated Text Detection

Quang-Dan Tran, Van-Quan Nguyen, Quang-Huy Pham, K. B. Thang Nguyen, Trong-Hop Do

TL;DR近年来，大型语言模型（LLMs）已经融入我们的日常生活，成为完成任务的宝贵助手。本研究提出了一个名为 ViDetect 的数据集，包含 6800 个样本的越南语文章，其中 3400 个样本由人类撰写，其余由 LLMs 生成，旨在检测 AI 生成的文本。我们使用 ViT5、BartPho、PhoBERT、mDeberta V3 和 mBERT 等最先进的方法进行评估。这些结果不仅对于检测 AI 生成的文本的研究的日益增长的基础做出了贡献，还展示了不同方法在越南语境下的适应性和有效性。该研究为未来的 AI 生成文本检测的进展奠定了基础，并为自然语言处理领域的研究人员提供了宝贵的见解。

Abstract

In recent years, large language models (LLMs) have become integrated into our daily lives, serving as invaluable assistants in completing tasks. Widely embraced by users, the abuse of LLMs is inevitable, particularly in using them to generate →

large language models text content videtect dataset ai-generated text detection natural language processing

发现论文，激发创造

模仿游戏：在大型语言模型时代检测人类和 AI 生成的文本

通过对人类写作文本和基于大型语言模型的生成文本进行比较研究，该论文展示了在不同文体中对于人类文本和生成文本进行分类的机器学习模型的效果，同时指出在故事写作方面识别生成文本的困难性，为未来在人工智能文本识别方面提供了启示和研究数据集。

Jul, 2023

LLM-Detector: 优化 AI 生成的中文文本检测的开源 LLM 指令调优

本文提出了 LLM-Detector 方法，通过 LLM 指导和解决文档级和句子级的文本检测问题，该方法在句子级和文档级文本检测上明显优于基准方法，并展示了强大的泛化能力。

Feb, 2024

RFBES 在 SemEval-2024 任务 8 中的应用：探索用于区分人工智能生成和人类编写的文本的句法和语义特征

研究表明，利用大型语言模型可以高准确度地区分人工智能生成的文本和人类编写的文本，尤其在语义方面会更加有帮助，而句法方面还有改进的空间。

Feb, 2024

论人工智能生成的文本检测的可能性

该文针对如何区分机器生成文本和人类生成文本的问题，提出了基于信息理论的准确度量方法，讨论并设计出更优秀的文本检测器，并给出了样本复杂度的理论上限。

Apr, 2023

基于集成 LLM 方法的生成式人工智能文本分类

本文提出了一种集成神经模型以检测大型语言模型生成的语言，并对模型进行归因的方法。

Sep, 2023

检测 LLM 生成的文本的科学

该研究对大型语言模型生成文本的检测技术现状及未来方向进行了综述，并提出了发展全面的评估指标和威胁控制方案等必要措施。关注点包括大型语言模型的开源威胁和其所产生的可能的误传信息问题。

Feb, 2023

CUDRT：人类与大型语言模型生成文本的检测基准

本文构建了一个综合的中英文双语标杆来评估主流的 AI 生成文本检测器，并将 LLM 文本生成划分为创建、更新、删除、重写和翻译五个不同的操作，为各种场景提供优化 AI 生成文本检测器的关键洞察和改进方向。

Jun, 2024

基于 LLM 的文本检测调查：必要性、方法和未来方向

大语言模型生成的文本检测是一项关键任务，需要开发检测器来区分其文本是否由大语言模型生成，并呼吁加强相关研究以推进负责任的人工智能实现。

Oct, 2023

SemEval-2024 任务 8：多领域机器生成文本检测技术的综合分析

本论文介绍了我们在 SemEval2024 Task8 中用于检测跨各个领域的机器生成文本的方法，包括统计、神经网络和预训练模型方法，并通过深入的错误分析评估了这些方法的有效性。在单语和多语境下，我们的方法在子任务 A 单语上获得 86.9％的准确率，在子任务 B 上获得 83.7％的准确率。此外，我们还强调了未来研究中的挑战和重要因素。

Mar, 2024

跨越语言的视角：越南大型语言模型的微调和全面评估

通过为越南语进行精细调整并开发了综合评估框架，我们发现精细调整的大型语言模型在越南语上表现出更好的理解和生成能力，并且模型规模和训练数据质量对模型的性能有重要影响。

Mar, 2024