大型语言模型 (LLMs) 可以作为催化剂引发新的科学发现,并指导进一步的探索。
Nov, 2023
通过大规模语言模型(LLMs)来预测神经科学实验结果,发现 LLMs 在预测实验结果方面超过了专家,并且经过优化的神经科学文献模型 BrainGPT 表现更好,这预示着人类与 LLMs 共同合作进行科学发现的未来。
Mar, 2024
我们提出了一种新颖的平台,用于评估大型语言模型(LLMs)自主撰写和评论跨科学、人文、教育和法律等各个学科的调研论文的能力。这个框架中,人工智能系统通过模拟同行评审机制进行操作,类似于传统学术期刊,人类组织者担任编辑监督职责。在这个框架内,我们为 2023 年 AutoML 会议组织了一次竞赛。参赛者的任务是根据指定提示撰写独立的文章,并对其进行评估。评估标准包括清晰度、参考文献适当性、责任性和内容的实质价值。本文介绍了竞赛的设计,包括实施基线提交和评估方法。
Oct, 2023
大语言模型在内容生成能力方面取得了巨大的增长,本研究展示了这些模型还可以成功地对人类生成的内容进行聚类,通过独特性和可解释性两个度量标准来定义成功。该研究验证了这一成功,通过人工审阅和 ChatGPT 的比较,提供了一种自动化的方法来弥合挑战短文本聚类的 “验证差距”。比较人工和机器方法,我们确定了每种方法固有的偏见,并质疑依赖人工编码作为 “黄金标准”。我们将该方法应用于 Twitter 个人资料描述信息,并发现人类自我描述的特点方式,与先前专家工作相吻合,但也有表达身份特点的有趣差异,这与表达身份的媒介特性有关。
May, 2024
本文从贝叶斯的角度出发,将大型语言模型视作主题模型,提出了一种从标注数据中选择最佳示范的算法,并在实际数据集中证明相对于随机选择基线,平均有 12.5% 的显著改进。研究表明,大型语言模型从示范中隐式地推断出潜在的概念变量。
Jan, 2023
本文介绍了一种基于大型语言模型的上下文学习方法,通过 GPT-3.5 和为主题元数据注释设计的提示,实现了自动元数据注释,在一些类别中表现出有前景的性能。
使用预训练语言模型和简单的强化学习算法,无需大量专家示范即可在文本环境中操作并取得 51% 的成功率改进。
Apr, 2021
该研究通过评估 Mistral 7B、Llama-2、GPT-4-Turbo 和 GPT-4.o 这四个 LLM 模型对实证 AI 研究文章中的领先者信息的提取效果,探讨了三种上下文输入类型(DocTAET、DocREC 和 DocFULL)对模型的影响,综合评估了这些模型在从研究论文中生成(任务、数据集、指标、得分)四元组方面的性能,揭示了每个模型和上下文类型的优势和局限性,为未来的 AI 研究自动化工作提供了有价值的指导。
Jun, 2024
本文提出了一种利用大型语言模型和提示策略自动提取文档中的关键维度,并将其用于丰富数据集描述的方法。通过此方法,可以创建机器可读的文档,改善数据集的可发现性,评估其符合当前的 AI 法规,并改善对其训练的 ML 模型的整体质量。
Apr, 2024
大型语言模型利用数据分析生成假设,通过多臂赌博机设计奖励函数提高预测性能,并发现验证人类理论的新见解。