- DiscoveryBench:基于大型语言模型的数据驱动发现
快速提取、调用函数和数据分析是大型语言模型 (LLMs) 快速生成代码,从提供的数据集中自动化搜索和验证假设的关键。我们通过 DiscoveryBench 这一全面的基准测试来评估这个问题,该基准测试形式化了数据驱动发现的多步骤过程。该基准 - 极端事件建模和理解的人工智能:方法和挑战
近年来,人工智能(AI)深刻影响了各个领域,包括地球系统科学。本文回顾了如何利用 AI 分析极端事件(如洪水、干旱、野火和热浪),强调创建准确、透明和可靠的 AI 模型的重要性。我们讨论了处理有限数据、实时信息整合、部署模型以及使其可理解的 - 机器学习与质谱技术的结合:一种专注角度
质谱学数据的机器学习分析及相关挑战的前景探讨。
- ACLPlanRAG:一种计划 - 检索增强的生成大型语言模型作为决策者
利用 LLMs 作为复杂数据分析决策的解决方案,我们定义了 Decision QA 任务,在给定决策问题 Q、业务规则 R 和数据库 D 的情况下,回答最佳决策 $d_{best}$ 的任务。为了有效应对 Decision QA,我们提出了 - 机器学习中的随机数值线性代数的最新和即将发展
随机数值线性代数(RandNLA)在大矩阵的机器学习和数据分析应用中发挥着重要作用,本文提供了 RandNLA 的综合概述,以应对近期的理论和实践挑战。
- 在加密领域中使用核技巧加速数据分析
利用核心方法对同态加密方案进行有效加速,以在加密领域内提高机器学习和统计算法的时间性能,降低代价昂贵的同态加密乘法,并实现对数据分析的高级功能。
- 高维空间的航行:角度保持的低维嵌入
用 Mercat 方法重构数据点之间的角度,以实现低维嵌入的良好重构和在各个尺度上有效地保留结构。
- 智能医疗应用中生成性人工智能的快速评审
人工智能在医疗保健领域产生了显著影响,特别是通过生成模型在医学图像生成、数据分析和诊断方面的应用。这篇文章探讨了生成模型在智能医疗设备中的应用,以提升诊断速度和准确性,改善医疗服务质量和效率并降低设备成本,实现了医学图像生成、数据分析和诊断 - LinkQ: 一个辅助 LLM 的可视化界面用于知识图谱问答
LinkQ 是一个通过自然语言问答来简化知识图谱查询构建的系统,它利用了大型语言模型来构建查询,使用户能够轻松地从知识图谱数据中获取有价值的信息,并通过迭代将开放性问题转化为精确问题,从而进行探索性和确认性数据分析。
- 混合治疗效果的合成潜在结果
现代数据分析中常常依赖于使用大型数据集,其中包含多个不同的人群或数据源的综合。这些较小数据集之间的异质性构成了因果推断的两个主要挑战:(1)每个样本的来源可能会引入处理和效果之间的潜在混淆,(2)不同的人群对相同的处理可能会产生不同的反应, - 提升填补准确率:利用上下文的大型语言模型加强插补数据
这篇论文介绍了上下文语言模型用于准确插补方法 (CLAIM),一种利用预训练大型语言模型 (LLMs) 的广泛知识和推理能力来解决表格数据集中缺失数据挑战的新策略。通过利用上下文相关的自然语言描述符来填充丢失的值,CLAIM 方法转换数据集 - 机器学习中有效不确定性量化的共形预测方法的比较研究
过去几十年,数据分析和机器学习领域的大部分工作都致力于优化预测模型,并取得比现有模型更好的结果。然而,本文指出对于很多应用而言,更加重要的并非准确的预测,而是变异性或不确定性。本文进一步探讨了让每个人了解不确定性、意识到其重要性并学会拥抱而 - 时序和时空数据扩散模型调查
本篇综述论文全面而彻底地回顾了扩散模型在时间序列和时空数据分析中的应用,通过按照模型类别、任务类型、数据模态和实际应用领域进行分类,提供了对这些模型分析和生成数据的基本了解,旨在为研究人员和从业者提供一个全面的扩散模型应用的理解,以解决传统 - 区块链数据分析的机器学习:进展与机遇
区块链技术及其与大数据、机器学习和加密货币相关的数据分析的综合资源论文。
- Wasserstein 虫洞:基于 Transformer 的可扩展最优传输距离
通过将经验分布嵌入到潜在空间中,使欧式距离近似于最优输运距离,Wasserstein Wormhole 提供了一种可扩展且可解释的方法,用于计算最优输运距离,并在计算几何学和单细胞生物学领域的数据分析中开辟了新的研究方向。
- AI 解码:ChatGPT 中数据分析的内幕故事
最近人工智能生成技术的快速发展使得数据科学领域发生了各种变化。本文批判性地审查了 ChatGPT 在广泛任务中的数据分析能力,尽管数据分析为研究者和实践者提供了前所未有的分析能力,但它远非完美,重要的是要认识和解决它的局限性。
- 中央生成树问题
基于欧几里得空间中的数据,本研究提出了一个新的优化问题 ——“(分支)中心生成树”,它包含了之前提到的所有定义作为特例,并从理论和实践两个方面证明了(分支)中心生成树相对于数据中的噪声更具鲁棒性,并更适合以其骨架来总结数据集。此外,本研究还 - 二进制数据的内在维度是多少?- 如何快速计算
使用基于概念的内部维度对数据集进行分析和理解的研究,提出了一种基于计算概念的近似方法,通过计算某个支持值来评估内部维度,并使用 Tatti 等人的多个数据集进行验证。
- 应用于法律环境中的数据增强的文本聚类
利用自然语言处理工具增强专家精心策划的数据集,通过数据增强聚类策略有效提高了法律文本的机器学习分类性能。
- 大型语言模型的假设生成
大型语言模型利用数据分析生成假设,通过多臂赌博机设计奖励函数提高预测性能,并发现验证人类理论的新见解。