发现机器人:机器人和人类的语义路径粗粒度划分
使用无监督学习技术,通过聚类(精确和模糊)和信息技术相结合,构建了一个强大的模型,可以检测不同类型的生成文本,发现生成的文本更加混乱,而文学作品更加复杂,在人类文本的聚类结果中,模糊聚类更多,而生成的文本聚类更加紧凑和明确。
Nov, 2023
本文研究了语言生成模型的民主化对人们与机器人互动方式以及识别机器人生成的文本方法的影响,并发现结合人类对话反馈信息的机器人生成文本识别方法更加稳健,同时对人机会话的语言统计学变化进行了分析。
Jun, 2021
大语言模型在内容生成能力方面取得了巨大的增长,本研究展示了这些模型还可以成功地对人类生成的内容进行聚类,通过独特性和可解释性两个度量标准来定义成功。该研究验证了这一成功,通过人工审阅和 ChatGPT 的比较,提供了一种自动化的方法来弥合挑战短文本聚类的 “验证差距”。比较人工和机器方法,我们确定了每种方法固有的偏见,并质疑依赖人工编码作为 “黄金标准”。我们将该方法应用于 Twitter 个人资料描述信息,并发现人类自我描述的特点方式,与先前专家工作相吻合,但也有表达身份特点的有趣差异,这与表达身份的媒介特性有关。
May, 2024
本文提供了一个包含 445 篇人工和计算机生成的文档的语料库,其中包含约 27,000 个从句,注释了语义从句类型和相关关系,以便对人工和自然语篇模式进行微妙的比较。它涵盖了正式和非正式的话语,包括使用 Fine-tuned GPT-2 和 GPT-3 (分别为 Zellers 等人 2019 年和 Brown 等人 2020 年发表的技术) 生成的文档。通过提供初步的证据,我们展示了该语料库对于对生成文本进行详细的话语分析的有用性:较少数量、更短和更不连贯的从句关系与计算机生成的叙述和论述的较低感知质量相关联。
Nov, 2021
AI chatbots in scholarly writing were analyzed, revealing their proficiency in recombining existing knowledge but their limitations in generating original scientific content; the size of LLMs has plateaued, highlighting the challenges in emulating human originality, though the evolution of LLM-powered software is expected to improve this.
Sep, 2023
本文探讨使用认知心理学方法估计和比较人类和 GPT-3 的概念表征结构,结果表明语义结构的估计在人类之间保持一致,而在 GPT-3 中则取决于所使用的任务。
Apr, 2023
利用启发式方法,本研究发现 1,140 个通过 Twitter botnet 使用 ChatGPT 生成人类风格内容的虚假个人的密集集群,并通过人工注释验证。ChatGPT 生成的内容宣传可疑网站并传播有害评论。尽管 AI botnet 中的账户可以通过其协调模式检测到,但目前最先进的大语言模型内容分类器无法区分它们和真实用户账户。这些发现强调了 AI 助推社交机器人带来的威胁。
Jul, 2023
本文介绍了 Doc2Bot,这是一种新型数据集,可用于构建通过会话帮助用户寻找信息的机器。我们提出了三个任务,包括对话状态跟踪,对话策略学习和响应生成,这些任务是具有挑战性且值得进一步研究的。
Oct, 2022
本文提出了一种利用意见表达的不同视角,构建了一种联合细粒度和粗粒度意见模型的方法,该模型具有注意力机制的某些特性,对最近发布的多模态细粒度注释语料库提供了具有竞争力的结果。
Aug, 2019
通过三种不同的角度(数据属性、手工设计和基于模型的相关性)分析任务相关性,本文提出了一种层次框架并使用粗粒度到细粒度的范式,使模型从所有任务中学习基本语言属性,提高相关任务的性能,并减少不相关任务的负面影响。
Aug, 2022