文本中的自动语言识别:一项调查
该研究对大型语言模型生成文本的检测技术现状及未来方向进行了综述,并提出了发展全面的评估指标和威胁控制方案等必要措施。关注点包括大型语言模型的开源威胁和其所产生的可能的误传信息问题。
Feb, 2023
通过定量实验,我们确定了人工和机器生成科学文本之间的关键区别,并提出了一种混合倡议工作流程,用于高效、可靠地检测科学文本,结合了人类专家的先前知识与机器智能,以及可视化分析原型。我们通过两个案例研究和与熟练研究人员的控制用户研究证明了我们的方法的有效性。我们还为高风险决策场景中的交互式人工文本检测工具提供设计启示。
Apr, 2023
本文提出了一种基于大型预训练语言模型和概率分布的区分程序来自动评估自然语言生成方法产生的文本样本的人类相似度分数,与人类判断的自动评估进行了验证。
Jun, 2020
大语言模型(LLM)已经发展到一个即使是人类也很难分辨文本是否由其他人类或计算机生成的程度。本文概述了现有的 AI 生成文本(AIGT)检测方法,包括水印、统计和风格分析以及机器学习分类,并提供了有关该任务的现有数据集的信息。总结研究结果,我们旨在揭示在不同情境下决定 AIGT 文本 “可检测性” 的突出因素,并就解决这一重大技术和社会挑战提出实际建议。
Jun, 2024
数字内容的指数级增长引发了大规模文本数据集,需要先进的分析方法。大型语言模型作为处理和提取海量非结构化文本数据集的工具已经出现。为了帮助信息系统研究了解如何操作化大型语言模型,我们提出了一个用于信息系统研究的文本分析框架(TAISR)。我们的框架为如何进行有意义的基于文本的信息系统研究提供了详细的建议,这些建议基于信息系统和大型语言模型的文献。我们在商业智能领域进行了三个案例研究,用我们的 TAISR 框架来展示其在几个信息系统研究背景下的应用。我们还概述了采用大型语言模型进行信息系统研究可能面临的挑战和局限。通过提供一种系统化的方法并证明其实用性,我们的 TAISR 框架有助于未来将强大的大型语言模型添加到文本分析的信息系统研究流程中。
Dec, 2023
大型语言模型(LLMs)在自然语言生成(NLG)领域引发了一场革命,展示出生成类似人类文本的惊人能力。然而,它们的广泛使用引入了挑战,必须经过深入研究、伦理审查和负责任的实践来加以解决。本研究深入探讨了这些挑战,探索了现有的缓解策略,尤其强调将 AI 生成的文本作为最终解决方案。此外,我们从理论角度评估了检测的可行性,并提出了解决当前领域限制的新的研究方向。
Mar, 2024
大语言模型生成的文本检测是一项关键任务,需要开发检测器来区分其文本是否由大语言模型生成,并呼吁加强相关研究以推进负责任的人工智能实现。
Oct, 2023
通过对人类写作文本和基于大型语言模型的生成文本进行比较研究,该论文展示了在不同文体中对于人类文本和生成文本进行分类的机器学习模型的效果,同时指出在故事写作方面识别生成文本的困难性,为未来在人工智能文本识别方面提供了启示和研究数据集。
Jul, 2023