发现机器人：机器人和人类的语义路径粗粒度划分

Feb, 2024

发现机器人：机器人和人类的语义路径粗粒度划分

Spot the bot: Coarse-Grained Partition of Semantic Paths for Bots and Humans

Vasilii A. Gromov, Alexandra S. Kogan

TL;DR对比人类写作和机器生成文本的语义路径的粗粒度划分结构，研究支持假设，涵盖俄语、英语、德语和越南语。

Abstract

Nowadays, technology is rapidly advancing: bots are writing comments, articles, and reviews. Due to this fact, it is crucial to know if the text was written by a human or by a bot. This paper focuses on comparing

technology bots text classification semantic paths clusterizations

发现论文，激发创造

分辨人工撰写和机器生成的文本：利用聚类和信息论技术

使用无监督学习技术，通过聚类（精确和模糊）和信息技术相结合，构建了一个强大的模型，可以检测不同类型的生成文本，发现生成的文本更加混乱，而文学作品更加复杂，在人类文本的聚类结果中，模糊聚类更多，而生成的文本聚类更加紧凑和明确。

Nov, 2023

通过语言适应特征检测机器人生成的文本在人机交互中的使用

本文研究了语言生成模型的民主化对人们与机器人互动方式以及识别机器人生成的文本方法的影响，并发现结合人类对话反馈信息的机器人生成文本识别方法更加稳健，同时对人机会话的语言统计学变化进行了分析。

Jun, 2021

基于大型语言模型的短文本人可解释聚类

大语言模型在内容生成能力方面取得了巨大的增长，本研究展示了这些模型还可以成功地对人类生成的内容进行聚类，通过独特性和可解释性两个度量标准来定义成功。该研究验证了这一成功，通过人工审阅和 ChatGPT 的比较，提供了一种自动化的方法来弥合挑战短文本聚类的 “验证差距”。比较人工和机器方法，我们确定了每种方法固有的偏见，并质疑依赖人工编码作为 “黄金标准”。我们将该方法应用于 Twitter 个人资料描述信息，并发现人类自我描述的特点方式，与先前专家工作相吻合，但也有表达身份特点的有趣差异，这与表达身份的媒介特性有关。

May, 2024

人类和计算机话语结构的新型语料库

本文提供了一个包含 445 篇人工和计算机生成的文档的语料库，其中包含约 27,000 个从句，注释了语义从句类型和相关关系，以便对人工和自然语篇模式进行微妙的比较。它涵盖了正式和非正式的话语，包括使用 Fine-tuned GPT-2 和 GPT-3 (分别为 Zellers 等人 2019 年和 Brown 等人 2020 年发表的技术) 生成的文档。通过提供初步的证据，我们展示了该语料库对于对生成文本进行详细的话语分析的有用性：较少数量、更短和更不连贯的从句关系与计算机生成的叙述和论述的较低感知质量相关联。

Nov, 2021

ChatGPT 对抗 Bard、Bing、Claude 2、Aria 和人类专家。科学写作上人工智能聊天机器人的表现如何？(版本 23Q3)

AI chatbots in scholarly writing were analyzed, revealing their proficiency in recombining existing knowledge but their limitations in generating original scientific content; the size of LLMs has plateaued, highlighting the challenges in emulating human originality, though the evolution of LLM-powered software is expected to improve this.

Sep, 2023

人类概念结构的行为估计在任务上很稳健，但在大型语言模型中不稳定

本文探讨使用认知心理学方法估计和比较人类和 GPT-3 的概念表征结构，结果表明语义结构的估计在人类之间保持一致，而在 GPT-3 中则取决于所使用的任务。

Apr, 2023

一个基于人工智能的恶意社交机器人网络的解剖

利用启发式方法，本研究发现 1,140 个通过 Twitter botnet 使用 ChatGPT 生成人类风格内容的虚假个人的密集集群，并通过人工注释验证。ChatGPT 生成的内容宣传可疑网站并传播有害评论。尽管 AI botnet 中的账户可以通过其协调模式检测到，但目前最先进的大语言模型内容分类器无法区分它们和真实用户账户。这些发现强调了 AI 助推社交机器人带来的威胁。

Jul, 2023

通过会话机器人访问异构文档

本文介绍了 Doc2Bot，这是一种新型数据集，可用于构建通过会话帮助用户寻找信息的机器。我们提出了三个任务，包括对话状态跟踪，对话策略学习和响应生成，这些任务是具有挑战性且值得进一步研究的。

Oct, 2022

从 Token 到 Review：一种分层多模态的情感挖掘方法

本文提出了一种利用意见表达的不同视角，构建了一种联合细粒度和粗粒度意见模型的方法，该模型具有注意力机制的某些特性，对最近发布的多模态细粒度注释语料库提供了具有竞争力的结果。

Aug, 2019

粗到细：自然语言理解的分层多任务学习

通过三种不同的角度（数据属性、手工设计和基于模型的相关性）分析任务相关性，本文提出了一种层次框架并使用粗粒度到细粒度的范式，使模型从所有任务中学习基本语言属性，提高相关任务的性能，并减少不相关任务的负面影响。

Aug, 2022