具有上下文丰富处理的分析引擎：迈向高效的下一代分析

Dec, 2022

具有上下文丰富处理的分析引擎：迈向高效的下一代分析

Analytical Engines With Context-Rich Processing: Towards Efficient Next-Generation Analytics

Viktor Sanca, Anastasia Ailamaki

TL;DR提出了一个与组件共同优化的分析引擎，采用在线数据集成和多个真相来源以解决数据清洗和复杂分析问题。

Abstract

As modern data pipelines continue to collect, produce, and store a variety of data formats, extracting and combining value from traditional and context-rich sources such as strings, text, video, audio, and logs becomes a manual process where such formats are unsuitable for RDBMS. To tap into the dark data, domain experts analyze and extract insights and inte

data integration ml models analytical engine context-rich analysis complex analytical problems

发现论文，激发创造

基于分析洞察引擎的端到端文本到 SQL 生成

通过大型语言模型驱动的我们的文本到 SQL 生成管道的设计和实现解决了数据分析师高复杂度 SQL 查询的支持、低延迟的即席查询需求，以及对领域特定术语和实践的理解的挑战。

Jun, 2024

可解释的人工智能用于过程建模的改进

通过使用现代 Transformer 架构和传统机器学习技术，评估模拟过程规律的能力，并突出关键特征，提高模型预测能力。证明了应用机器学习模型预测关键业务流程的有效性以及 XAI 组件提供的新见解。

Dec, 2022

面向关系型数据库内部分析的统一架构

本文针对数据库供应商在提供日益复杂的 in-database analytics 功能时面临的开发难题进行探讨，提出了一种统一的架构来优化表现，其中包括对数据存储顺序和计算并行化的研究，并成功地将多种流行的分析技术集成到商业和开源 RDBMS 中，证明其具有与商业 RDBMS 本地工具相当或更高的性能。

Mar, 2012

具有向量嵌入的上下文增强关系运算符

通过引入具有上下文增强能力的关系连接操作符和与关系操作符兼容的嵌入操作符，结合关系数据库管理系统与表示学习模型的特点，实现了关系连接操作与上下文丰富的向量数据处理的混合处理，从而达到了从逻辑到物理的全面优化，极大提升了执行时间。

Dec, 2023

深度学习和大数据应用的自动数据处理和特征工程：一项调研

现代人工智能（AI）的方法旨在设计可以直接从数据中学习的算法，本文综述了深度学习流程中自动化数据处理任务的方法，包括数据预处理、数据增强和特征工程，并讨论了自动机器学习方法和工具在整个机器学习流程中的优化应用。

Mar, 2024

现代数据密集型应用的异构数据中心架构：机器学习和数据库的案例研究

本研究通过对数据访问和计算模式的分析，以深度优化算法和硬件，提出了两种利用 PIM 范式进行机器学习和混合事务 / 分析处理的数据中心架构。

May, 2022

联系中心领域语音对话分析的综合方法

本文描述了一个使用 Kaldi 框架的语音文本处理方法，在不同的语义标记方法中选择组合机器学习模型，并使用决策树进行标记的实验。结果表明，该方法提供了更好的性能和更可解释的模型，对数据准备的复杂性做出了改进，能够对联系中心的运营产生潜在影响。

Mar, 2022

EndToEndML: 一个用于机器学习应用的开源端到端流水线

我们提出了一个基于 Web 的一体化流程，能够进行数据预处理、训练、评估和可视化机器学习模型，无需手动干预或编程专业知识，通过集成传统机器学习和深度神经网络模型与可视化，帮助识别、分类、聚类和预测广泛的多模态、多传感器数据，包括图像、语言和一维数值数据，用于药物发现、病原体分类和医学诊断。

Mar, 2024

文本到 SQL 解析中合成高质量数据的重要性

本文提出了一种新颖的数据合成框架，其中包括来自模式的关键关系、强类型和基于模式距离的列抽样，并采用了 SQL-to-text 任务的中间表示（IR），进一步提高了生成的自然语言问题的质量。实验证明，当现有强大的语义解析器在高质量的合成数据上进行预调整时，这些模型在流行的基准测试中的准确性得到了显着提高。

Dec, 2022

语义化数据科学的愿景

本文讨论了当前数据科学和机器学习自动化解决方案的重要缺陷，并设想如何利用语义理解和推理与数据科学自动化的新工具相结合，以帮助保持一致且可解释的数据增强和转换。另外，我们还讨论了语义如何在处理与信任、偏见和可解释性相关的挑战方面以一种崭新的方式帮助数据科学家，并在更好地探索和组织大型数据源方面提供帮助。

Mar, 2023