大型语言模型能否识别作者?
通过实证分析大型语言模型(LLMs)的写作特征、对比专有和开源模型的异同、并探索通过语言的词汇、句法和结构方面的风格特征整合实现对 AI 生成文本的追溯,为神经网络作者归属提供经验性洞见,为应对 AI 生成的错误信息的威胁铺平道路。
Aug, 2023
该研究通过对大型语言模型在事实检查方面的潜力进行初步调查,系统评估了它们在处理特定事实检查子任务中的能力,并与预训练和最先进的低参数模型进行了性能对比分析。实验证明大型语言模型在大多数场景中取得了与其他小型模型相媲美的性能,但在处理中文事实验证和整个事实检查流程中遇到了语言不一致和虚构的挑战,这些发现强调了进一步探索和研究以增强大型语言模型作为可靠事实检查器的能力,并揭示了在事实检查任务中可能面临的挑战。
Nov, 2023
使用 5 种最先进的大型语言模型(LLMs)作为 “标注者” 在多个任务上进行评估,并比较其与人类标注的优缺点。总体而言,尽管 LLMs 在某些任务上表现出色,但它们无法替代人类标注的需求。
Jul, 2023
该研究通过一个深入的案例研究,评估了大型语言模型在创意写作过程中作为辅助工具的潜力。研究中开发了交互式多声音提示策略,交织了背景描述、指导写作的指令、目标风格的文本示例和给定示例的关键讨论,并从文学批评的角度以及计算创造力的角度进行了定性评估。研究结果支持大型语言模型能够实现高级提示的观点。
Nov, 2023
通过文献综述和第一手实验,本文研究了大型语言模型(LLMs)的潜力。尽管 LLMs 具有成本效益和高效性等优点,但也存在着诸如提示调优、偏见和主观性等挑战。该研究通过利用 LLMs 进行定性分析的实验提供了新的见解,强调了成功和限制。此外,本文还讨论了缓解挑战的策略,如优化提示技术和利用人类专业知识。我们的工作旨在将 LLMs 有机地融入人机交互数据工作,并积极促进其负责任的应用,以此回应关于 LLMs 在研究中负责任应用的持续对话。
Apr, 2024
本文介绍了使用大型语言模型(LLM)代替人类评估来评估人工智能生成的文本的潜力,探索了 LLM 对两个自然语言处理任务的开放性故事生成和对抗性攻击的评估结果,并发现 LLM 评估结果与人类专家的评估结果保持一致。
May, 2023
大型语言模型 (LLMs) 能够在不同学科领域发挥作用和限制,加强科学研究,例如通过总结大量出版物加速文献回顾,通过自动语法纠正提升代码开发,和优化科学写作过程。然而,LLMs 面临挑战,如依赖庞大且有时偏颇的数据集,以及出于使用而引发的潜在伦理困境。我们对 LLMs 在不同领域的影响进行重要讨论,从自然科学中帮助模拟复杂生物序列,到社会科学中解析大规模的定性数据。最后,我们提供一种细致的观点,认为 LLMs 既是科学进步的福音,也是其边界。
Nov, 2023
本研究旨在探讨大型语言模型作为可靠的评估器,用于评估文本生成模型生成的摘要的事实一致性,并发现其在事实性评分中的局限性。
Nov, 2023