使用大型语言模型评估研究质量:对ChatGPT在不同设置和输入下有效性的分析
通过比较三种基于ChatGPT或类似大型语言模型的无参考评估方法,实验证明ChatGPT能够有效地从不同角度评估文本质量,尤其是利用ChatGPT生成数字评分的Explicit Score方法最有效可靠。但是,直接使用ChatGPT比较两个文本的质量可能导致次优结果。
Apr, 2023
本文通过评估ChatGPT在各种自然语言处理任务中的表现,旨在验证其优缺点,并为未来的LLM研究提供思路。作者发现ChatGPT能够完成多种任务,取得很好的表现,但仍有许多难题需要解决。
May, 2023
使用GPT-4模型创建了一个自动化平台,通过对科学论文的全文进行评论以评估GPT-4生成的反馈质量。 在两项大规模研究中,我们将GPT-4生成的反馈与人工同行评审的反馈进行了定量比较,并通过308名研究人员的用户研究了解了他们对GPT-4生成的反馈的感知。 总体而言,超过半数的用户(57.4%)认为GPT-4生成的反馈有所帮助,82.4%的用户认为它比至少一些人工审稿人的反馈更有益。
Oct, 2023
这项研究通过对GPT-4在标题/摘要筛选、全文审查和数据提取等不同文献类型和语言上的性能测试,发现虽然GPT-4在大多数任务上的准确性与人工表现相当,但结果受到偶然一致性和数据集不平衡的影响。调整了这些因素后,GPT-4在数据提取方面达到了中等水平,而筛选性能则在不同阶段和语言上达到了无到中等的水平。当使用高度可靠的提示筛选全文文献时,GPT-4的性能几乎完美。对于漏掉了高度可靠提示的关键研究,对GPT-4进行惩罚可以进一步提高其性能。我们的研究结果表明,目前在进行系统综述时应谨慎使用LLM,但对于在可靠提示下完成的特定系统综述任务而言,LLM可以与人工表现媲美。
Oct, 2023
新型多面手大语言模型可通过分析大量数据加快科学评审,使用更无偏的定量度量指标,促进跨学科的联系,确定新兴趋势和研究领域,并通过评估大量数据来识别的方法,但目前它们缺乏对复杂方法的深入理解,评估创新性的主张存在困难,并且无法评估伦理问题和利益冲突。
Dec, 2023
我们提出了一种方法,用于估计大语言模型(LLM)在大型语料库中可能被大量修改或生成的文本比例。通过利用专家编写和AI生成的参考文本,我们的最大似然模型能够准确而高效地检查语料库级别上真实世界中LLM的使用。我们将这种方法应用于ChatGPT: ICLR 2024、NeurIPS 2023、CoRL 2023和EMNLP 2023发布之后AI会议中的科学同行评议案例研究。我们的研究结果表明,在提交给这些会议的同行评议文本中,有6.5%到16.9%的文本可能是由LLMs进行了大幅修改,即超出了拼写检查或轻微修改的范围。生成文本出现的情况可以揭示用户行为:在对作者回复不太可能做出回应的评审人员提交的、截止日期接近的评审中,LLM生成的文本比例更高。我们还观察到生成文本的语料库级别趋势,这些趋势可能在个体级别上难以察觉,并讨论了这些趋势对同行评议的影响。我们呼吁未来的跨学科工作来研究LLM的使用如何改变我们的信息和知识实践。
Mar, 2024
LLM的出现对科学文献产生了前所未有的影响,超过了像Covid大流行等重大世界事件的影响,至少有10%的2024篇摘要使用了LLMs处理。
Jun, 2024
本研究旨在总结大型语言模型(LLMs)在科学综述生成过程中的应用,发现了众多文献综述阶段可被自动化,并评估了当前相关研究的进展。研究表明,GPT-based LLM在文献综述自动化中占据主导地位,而现有文献中真正应用LLM的综述仅占少数,但预示着LLMs将在未来改变科学综述的开展方式。
Sep, 2024