LLM 作为共同作者的挑战：检测 LLM 与人类混合大小写

Jan, 2024

LLM 作为共同作者的挑战：检测 LLM 与人类混合大小写

LLM-as-a-Coauthor: The Challenges of Detecting LLM-Human Mixcase

Chujie Gao, Dongping Chen, Qihui Zhang, Yue Huang, Yao Wan...

TL;DR大语言模型与机器生成文本（MGT）在新闻和教育等领域的广泛应用中出现了潜在的质量和信息完整性问题。本研究提出了混合文本形式 ——mixcase，并构建了 MixSet 数据集，旨在专门研究这些混合修改场景，并通过实验证明现有的 MGT 检测器在识别 mixcase 时存在困难，尤其是在处理微妙的修改和样式适应性方面。研究结果强调了为 mixcase 定制更细粒度的检测器的紧迫性，并为未来研究提供了有价值的见解。

Abstract

With the remarkable development and widespread applications of large language models (LLMs), the use of machine-generated text (MGT) is becoming increasingly common. This trend brings potential risks, particularly to the quality and completeness of information in fields such as news an

large language models machine-generated text ai-revised human-written text mgt detectors mixcase

发现论文，激发创造

混合倡议人工科学文本检测的理解和解释

通过定量实验，我们确定了人工和机器生成科学文本之间的关键区别，并提出了一种混合倡议工作流程，用于高效、可靠地检测科学文本，结合了人类专家的先前知识与机器智能，以及可视化分析原型。我们通过两个案例研究和与熟练研究人员的控制用户研究证明了我们的方法的有效性。我们还为高风险决策场景中的交互式人工文本检测工具提供设计启示。

Apr, 2023

机器生成文本本地化

该研究旨在识别机器生成的文本并对文档中的机器生成部分进行定位，以避免由于对部分新闻文章的机器生成篡改而导致整个文档的误导。通过利用上下文信息，该方法能够在多个句子同时预测其是否为机器生成，从而提高了性能。与之前的研究相比，该方法在 GoodNews、VisualNews、WikiText、Essay 和 WP 五个不同数据集上提高了 4-13% 的平均准确率（mAP）。

Feb, 2024

M4GT-Bench: 黑盒机器生成文本检测评估基准

通过引入多语言、多领域和多发生器的机器生成文本检测基准 M4GT-Bench，本研究解决了识别和区分机器生成文本与人类生成文本的问题，包括单语和多语二元机器生成文本检测、多类别检测以确定生成文本具体使用的模型以及在人机混合文本中确定生成文本与人类编写内容之间的边界的挑战。

Feb, 2024

TM-TREK 参加 SemEval-2024 任务 8：面向基于 LLM 的人机混合文本自动边界检测

本文研究了大型语言模型在辨别人工写作文本和模型生成文本中的能力，通过将此任务转化为标记分类问题并将标记转折点视为边界来处理。其中，我们的语言模型集成模型在 SemEval'24 竞赛第 8 任务的 “人机混合文本检测” 子任务中取得了第一名，同时我们还研究了一些影响大型语言模型检测混合文本边界能力的因素，包括在语言模型基础上增加附加层、结合分割损失以及预训练的影响。本研究结果对未来研究提供了有价值的见解。

Apr, 2024

CoCo: 在数据限制下利用对比学习增强一致性的机器生成文本检测

本论文提出了一种名为 CoCo 的基于连贯性图和对比学习的模型，用于检测低资源情况下的机器生成文本；该方法采用预训练模型和图神经网络将文本表示为连贯性图，并使用改进的对比损失函数应对数据限制挑战，实验结果表明 CoCo 方法优于现有的最先进的方法。

Dec, 2022

检测 LLM 生成的文本的科学

该研究对大型语言模型生成文本的检测技术现状及未来方向进行了综述，并提出了发展全面的评估指标和威胁控制方案等必要措施。关注点包括大型语言模型的开源威胁和其所产生的可能的误传信息问题。

Feb, 2023

机器辅助混合方法：用人工智能增强人文社科研究

利用大型语言模型 (LLMs) 的增强功能，扩展人文社会科学领域的数据分析，用于量化、自动化以前需要人工进行的定性分析任务。本文提出了一种系统的混合方法框架，结合了定性分析专业知识、机器可扩展性和严格的量化分析，同时注重透明度和可复制性。通过 16 个机器辅助案例研究作为概念验证，展示了该框架的应用，涉及的任务包括语言和话语分析、词汇语义变化检测、访谈分析、历史事件因果推断和文本挖掘、政治立场检测、文本和思想重用、文学和电影的流派构成、社交网络推断、自动词典编纂、丢失的元数据补充以及多模态视觉文化分析。与现有 LLM 应用文献的英语重点不同，这里的例子涉及较小语言和易于数字化失真的历史文本场景。除了需要专业知识的最困难的任务外，生成 LLMs 可以作为可行的研究工具。LLM (和人工) 标注可能包含错误和变化，但协议率可以在后续统计建模中考虑；文章还讨论了一个引导式方法。案例研究的复制实验证明，以前需要团队努力和复杂计算管道才能完成的任务，现在可以由辅助 LLM 的学者在更短的时间内完成。重要的是，这种方法旨在增强研究者的知识和技能，而不是取代它们。鉴于这些机会，定性专业知识和提出有深度问题的能力无疑变得更加关键。

Sep, 2023

LLMs 生成内容检测调查

综述了大规模语言模型（LLMs）生成内容检测的现有策略和基准，并指出该领域的关键挑战和前景，提倡采用更加适应性和稳健的模型来提高检测准确性，以及应对 LLMs 能力快速发展的多方面防御方法的必要性。该工作是在 LLMs 时代首部全面综述内容检测的研究，旨在为研究人员和从业者提供广泛了解 LLMs 生成内容检测的当前情况的指导参考，以保护数字信息的完整性。

Oct, 2023

模仿游戏：在大型语言模型时代检测人类和 AI 生成的文本

通过对人类写作文本和基于大型语言模型的生成文本进行比较研究，该论文展示了在不同文体中对于人类文本和生成文本进行分类的机器学习模型的效果，同时指出在故事写作方面识别生成文本的困难性，为未来在人工智能文本识别方面提供了启示和研究数据集。

Jul, 2023

检测机器生成文本：不仅仅是 “人工智能 vs 人类” 和解释性复杂

本文提出一种新的三元文本分类方案，包括 “未决” 类别，研究了如何使检测结果更易理解，重点在于为用户提供清晰明了的解释。通过构建新的数据集，使用先进的检测方法和最新的 LLMs，该研究发现 “未决” 类别对于文本检测的可解释性至关重要，并提出了未来改进解释能力的检测系统的指导方针。

Jun, 2024