具有上下文丰富处理的分析引擎:迈向高效的下一代分析
通过大型语言模型驱动的我们的文本到 SQL 生成管道的设计和实现解决了数据分析师高复杂度 SQL 查询的支持、低延迟的即席查询需求,以及对领域特定术语和实践的理解的挑战。
Jun, 2024
通过使用现代 Transformer 架构和传统机器学习技术,评估模拟过程规律的能力,并突出关键特征,提高模型预测能力。证明了应用机器学习模型预测关键业务流程的有效性以及 XAI 组件提供的新见解。
Dec, 2022
本文针对数据库供应商在提供日益复杂的 in-database analytics 功能时面临的开发难题进行探讨,提出了一种统一的架构来优化表现,其中包括对数据存储顺序和计算并行化的研究,并成功地将多种流行的分析技术集成到商业和开源 RDBMS 中,证明其具有与商业 RDBMS 本地工具相当或更高的性能。
Mar, 2012
通过引入具有上下文增强能力的关系连接操作符和与关系操作符兼容的嵌入操作符,结合关系数据库管理系统与表示学习模型的特点,实现了关系连接操作与上下文丰富的向量数据处理的混合处理,从而达到了从逻辑到物理的全面优化,极大提升了执行时间。
Dec, 2023
现代人工智能(AI)的方法旨在设计可以直接从数据中学习的算法,本文综述了深度学习流程中自动化数据处理任务的方法,包括数据预处理、数据增强和特征工程,并讨论了自动机器学习方法和工具在整个机器学习流程中的优化应用。
Mar, 2024
本研究通过对数据访问和计算模式的分析,以深度优化算法和硬件,提出了两种利用 PIM 范式进行机器学习和混合事务 / 分析处理的数据中心架构。
May, 2022
本文描述了一个使用 Kaldi 框架的语音文本处理方法,在不同的语义标记方法中选择组合机器学习模型,并使用决策树进行标记的实验。结果表明,该方法提供了更好的性能和更可解释的模型,对数据准备的复杂性做出了改进,能够对联系中心的运营产生潜在影响。
Mar, 2022
我们提出了一个基于 Web 的一体化流程,能够进行数据预处理、训练、评估和可视化机器学习模型,无需手动干预或编程专业知识,通过集成传统机器学习和深度神经网络模型与可视化,帮助识别、分类、聚类和预测广泛的多模态、多传感器数据,包括图像、语言和一维数值数据,用于药物发现、病原体分类和医学诊断。
Mar, 2024
本文提出了一种新颖的数据合成框架,其中包括来自模式的关键关系、强类型和基于模式距离的列抽样,并采用了 SQL-to-text 任务的中间表示(IR),进一步提高了生成的自然语言问题的质量。实验证明,当现有强大的语义解析器在高质量的合成数据上进行预调整时,这些模型在流行的基准测试中的准确性得到了显着提高。
Dec, 2022
本文讨论了当前数据科学和机器学习自动化解决方案的重要缺陷,并设想如何利用语义理解和推理与数据科学自动化的新工具相结合,以帮助保持一致且可解释的数据增强和转换。另外,我们还讨论了语义如何在处理与信任、偏见和可解释性相关的挑战方面以一种崭新的方式帮助数据科学家,并在更好地探索和组织大型数据源方面提供帮助。
Mar, 2023