大型语言模型反映人类引用模式,具有较高的引用偏好
使用 GPT-4 模型创建了一个自动化平台,通过对科学论文的全文进行评论以评估 GPT-4 生成的反馈质量。 在两项大规模研究中,我们将 GPT-4 生成的反馈与人工同行评审的反馈进行了定量比较,并通过 308 名研究人员的用户研究了解了他们对 GPT-4 生成的反馈的感知。 总体而言,超过半数的用户(57.4%)认为 GPT-4 生成的反馈有所帮助,82.4% 的用户认为它比至少一些人工审稿人的反馈更有益。
Oct, 2023
通过对实验文本进行语言模式的分析,发现大型语言模式在语言偏见的适应方面与人类存在一定的相似性,但是在情境学习的环境下,大型语言模式与人类的偏见适应存在差异。
May, 2023
通过对 200 个描述肺癌人样本的 NCBI BioSample 数据记录进行实验,评估 GPT-4 对于符合元数据标准的建议编辑能力,并通过同行评审过程计算了字段名 - 字段值对的符合精确度,发现辅助 GPT-4 以 CEDAR 模板的文本描述作为领域信息,从 79% 提高到 97%(p<0.01),结果表明 LLMs 与结构化知识库整合后,可以在自动化元数据管理中显示出希望。
Apr, 2024
这项研究通过对 GPT-4 在标题 / 摘要筛选、全文审查和数据提取等不同文献类型和语言上的性能测试,发现虽然 GPT-4 在大多数任务上的准确性与人工表现相当,但结果受到偶然一致性和数据集不平衡的影响。调整了这些因素后,GPT-4 在数据提取方面达到了中等水平,而筛选性能则在不同阶段和语言上达到了无到中等的水平。当使用高度可靠的提示筛选全文文献时,GPT-4 的性能几乎完美。对于漏掉了高度可靠提示的关键研究,对 GPT-4 进行惩罚可以进一步提高其性能。我们的研究结果表明,目前在进行系统综述时应谨慎使用 LLM,但对于在可靠提示下完成的特定系统综述任务而言,LLM 可以与人工表现媲美。
Oct, 2023
使用 GPT-3.5 和 GPT-4 等高级大型语言模型对辩论评估进行研究,发现 LLMs 在评估上的表现超过人类,并超过基于大量数据集微调的最先进方法。同时,研究了 LLMs 中存在的偏见,包括位置偏见、词汇偏见和顺序偏见,这可能会影响它们的评价判断。我们的发现表明,无论是 GPT-3.5 还是 GPT-4 都存在一致偏向于第二个候选回答的偏见,这归因于提示设计。此外,在 GPT-3.5 和 GPT-4 中也存在词汇偏见,特别是当含义具有数字或顺序的标签集时,强调在提示设计中需谨慎选择标签的表述。此外,我们的分析表明,这两个模型倾向于认为辩论的结束方是获胜方,暗示存在讨论末尾的偏见。
May, 2024
近期,大型语言模型(LLMs),如 GPT-4,在自然语言处理方面取得了显著进展并接近人工通用智能。然而,本研究对 GPT-4 和其他 LLMs 进行评估,评估了它们在判断平凡、动机和伪深的陈述的能力。我们发现,无论是什么类型的陈述和提示技术,LLMs 与人类之间存在显著的陈述一致性。然而,LLMs 系统地高估了无意义陈述的深度,除了 Tk-instruct 外,它是唯一低估陈述深度的模型。只有少量训练样本的提示将 LLMs 的评分接近人类,而非思维链式的提示将 LLMs 的评分远离人类。此外,本研究揭示了强化学习来自人类反馈所引发的潜在偏见,即高估陈述的深度。
Oct, 2023
近年来,在自然语言处理方面取得突破性进展的大型语言模型(LLM)的出现,展示了其在包括理解、生成和翻译自然语言甚至超越语言处理的任务方面的卓越能力。本文报告中,我们深入研究了 LLM 在科学发现环境中的性能,重点关注 GPT-4,这一最先进的语言模型。我们的调查涉及药物发现、生物学、计算化学(密度泛函理论(DFT)和分子动力学(MD))、材料设计和偏微分方程(PDE)等多个科学领域。评估 GPT-4 在科学任务上的表现对于揭示其在各个研究领域中的潜力、验证其特定领域的专长、加速科学进展、优化资源分配、指导未来模型发展以及促进跨学科研究至关重要。我们的探索方法主要包括专家驱动的案例评估,提供对模型理解复杂科学概念和关系的定性洞见,以及偶尔的基准测试,定量评估模型解决明确定义的特定领域问题的能力。我们的初步探索表明,GPT-4 在各种科学应用中展示出有希望的潜力,显示出处理复杂问题解决和知识整合任务的能力。总体而言,我们评估了 GPT-4 的知识库、科学理解、科学数值计算能力以及各种科学预测能力。
Nov, 2023
该文章介绍了使用 GPT-4(一个大型语言模型)快速可行性研究来(半)自动化系统性综述中的数据提取,在设计和评估 LLM-based 自动化工具方面仍然存在欠缺的问题。
May, 2024