基于大型生成模型的数据驱动发现

Feb, 2024

基于大型生成模型的数据驱动发现

Data-driven Discovery with Large Generative Models

Bodhisattwa Prasad Majumder, Harshit Surana, Dhruv Agarwal, Sanchaita Hazra, Ashish Sabharwal...

TL;DR通过大型生成模型（LGM）开发自动化端到端数据驱动发现系统是具有挑战性的，我们提倡通过故障安全的工具集成和积极的用户调节机制来促进高效、可重现的数据驱动科学发现。

Abstract

With the accumulation of data at an unprecedented rate, its potential to fuel scientific discovery is growing exponentially. This position paper urges the machine learning (ML) community to exploit the capabilities of large generative models (LGMs) to develop automated systems for end-

data-driven discovery machine learning generative models end-to-end discovery systems fail-proof tool integration

发现论文，激发创造

DiscoveryBench：基于大型语言模型的数据驱动发现

快速提取、调用函数和数据分析是大型语言模型 (LLMs) 快速生成代码，从提供的数据集中自动化搜索和验证假设的关键。我们通过 DiscoveryBench 这一全面的基准测试来评估这个问题，该基准测试形式化了数据驱动发现的多步骤过程。该基准测试的设计是为了系统评估当前模型在发现任务中的能力，并为改进这些能力提供有用的资源。

Jul, 2024

生成型大型语言模型是循证医学的自主实践者

通过使用人工智能的生成式大型语言模型，可以使其作为自主的循证医学的从业者，通过工具的使用与真实世界的医疗系统进行交互，并以符合指南的方式执行患者管理任务，这有可能通过进一步的改进来推动医疗的转型。

Jan, 2024

大型语言模型对科学发现的影响：使用 GPT-4 的初步研究

近年来，在自然语言处理方面取得突破性进展的大型语言模型（LLM）的出现，展示了其在包括理解、生成和翻译自然语言甚至超越语言处理的任务方面的卓越能力。本文报告中，我们深入研究了 LLM 在科学发现环境中的性能，重点关注 GPT-4，这一最先进的语言模型。我们的调查涉及药物发现、生物学、计算化学（密度泛函理论（DFT）和分子动力学（MD））、材料设计和偏微分方程（PDE）等多个科学领域。评估 GPT-4 在科学任务上的表现对于揭示其在各个研究领域中的潜力、验证其特定领域的专长、加速科学进展、优化资源分配、指导未来模型发展以及促进跨学科研究至关重要。我们的探索方法主要包括专家驱动的案例评估，提供对模型理解复杂科学概念和关系的定性洞见，以及偶尔的基准测试，定量评估模型解决明确定义的特定领域问题的能力。我们的初步探索表明，GPT-4 在各种科学应用中展示出有希望的潜力，显示出处理复杂问题解决和知识整合任务的能力。总体而言，我们评估了 GPT-4 的知识库、科学理解、科学数值计算能力以及各种科学预测能力。

Nov, 2023

使用语言模型的自动统计模型发现

基于大型语言模型的自动统计模型发现方法，在预先制定的模型空间、开放式空间和自然语言约束下，能够与人类专家设计的模型媲美，并以可解释的方式扩展经典模型的性能，具有很大的潜力。

Feb, 2024

数据科学中的 GPT：模型选择的实践探索

利用大型语言模型 (LLMs) 管理结构化数据并增强数据科学流程的兴趣日益增长。尽管具有潜在的好处，但其整合引发了对可靠性和决策方法的重要问题，强调了模型选择过程中包括数据性质、问题类型、性能指标、计算资源、可解释性与准确性、对数据的假设以及伦理考虑等多种因素的重要性。我们的目标是阐明和表达 GPT-4 模型选择推荐背后的因素和假设。我们采用变异性模型描述这些因素，并使用玩具数据集评估模型和已确定的启发式方法的实施。通过将这些结果与其他平台的启发式方法进行对比，我们的目的是确定 GPT-4 方法的有效性和独特性。本研究致力于推进我们对人工智能决策过程的理解，特别是在数据科学中的模型选择领域。我们的努力旨在创建更加透明和可理解的人工智能系统，为数据科学实践贡献更负责任和高效的方法。

Nov, 2023

知识导向的机器学习：当前趋势与未来前景

科学建模的综述及与基于过程的模型相比，机器学习方法在科学建模中的互补优势和不足；以及科学知识引导的机器学习（KGML）领域的研究现状介绍，旨在利用科学知识和数据在机器学习框架中实现更好的泛化性、科学一致性和可解释性的结果；我们讨论了 KGML 研究的不同方面：使用的科学知识类型、知识 - 机器学习集成的形式以及在机器学习中融入科学知识的方法；同时，我们还讨论了环境科学中 KGML 方法正在开发的常见应用类别，并提供了每个类别的例证。

Mar, 2024

关于基于 LLMs 驱动的合成数据生成、整理和评估的调查

这篇论文旨在通过提出一种基于合成数据生成的通用工作流程的组织方式，突出现有研究中的差距，并概述未来研究的前景，以引导学术和工业界更深入、更系统地探索基于大型语言模型驱动的合成数据生成的能力和应用。

Jun, 2024

机器学习在科学发现中的机遇

科学界利用机器学习技术进行科学探索的能力正在初生阶段，然而，机器学习的原理应用正在为基础科学发现开辟新的途径，尤其在处理观测数据的复杂性方面。

May, 2024

LLM 动态自适应特征生成

通过采用大型语言模型和特征生成提示的新方法，我们提出了一种动态自适应的特征生成方法，提高了特征生成过程的可解释性，并扩展了在各种数据类型和任务上的适用性，相比现有方法具有更高的策略灵活性。一系列实验证明我们的方法明显优于现有方法。

Jun, 2024

利用大型语言模型自动演化工业数据中心研发周期

利用大语言模型（LLMs）让工业数据驱动研发循环自动演化的愿景。

Oct, 2023