- AI 数据准备检核员 (AIDRIN) 用于评估数据对人工智能的准备情况
评估数据准备就绪性的 AI 数据准备度量框架 AIDRIN 可量化地评估数据的准备就绪性,并通过指标和可视化报告提高机器学习流程的效率,以便在 AI 应用中做出明智决策。
- 可解释机器学习在 ICU 复诊预测中的应用
通过标准化和可解释的机器学习流程,该研究在多中心数据库上建模和预测了患者再次入院,使用随机森林分类模型获得了高达 0.7 的预测性能,并提供了对生命体征、血液检查、人口统计学信息和 ICU 相关变量等方面的有见地的结果,对临床医生的决策提供 - 稀有事件预测的综述
稀有事件预测是使用机器学习和数据分析识别和预测低概率事件。由于数据分布不均衡,普通事件的频率远远超过稀有事件,需要在机器学习流程中的每个步骤中使用专门的方法,从数据处理到算法到评估协议。该论文全面综述了稀有事件预测的当前方法在四个方面:稀有 - AutoML-GPT:AutoML 的大型语言模型
AutoML-GPT 框架结合了多种工具和库,通过对话界面,用户可以指定需求和约束条件,实现数据预处理、特征工程和模型选择等操作,从而显著减少机器学习任务所需的时间和工作量。它能充分利用大型语言模型中的知识,为模型训练过程中的常见挑战提供宝 - MDB:数据集和模型的交互式查询
MDB 是一个与功能编程和关系代数相结合的调试框架,可以构建数据库和模型预测的表达式查询,用于快速排除错误和发现模型行为。
- 局限严重应用中的自动机器学习
本文提出了一种名为 Caml 的元学习方法,可以自动适应其自身 AutoML 参数,以优化特定任务的高性能管道,并可以考虑用户定义的应用约束条件,以获得满足约束条件的高预测性能的管道。
- 预定义的食品概念和食谱专用嵌入:异构食谱数据集的案例研究
文章介绍了如何从不同来源的食谱数据集中提取所需信息并对其进行格式标准化,从而实现对营养成分的预测。使用命名实体识别和外部领域特定资源进行转换,生成具有预定义成分及食谱嵌入的语料库,并应用于机器学习流程,得到了比基准段表现更好的结果。
- 临床存在下的填补策略:对算法公平性的影响
本文探讨了在机器学习过程中常被忽略的数据预处理步骤 —— 数据填补,对医疗领域存在的偏见和影响较大的群体不平等性产生的影响,并提出了缓解不平等的建议。
- KDD一个生物医学流水线来检测临床和非临床命名实体
提出了一种基于机器学习的流水线方法来识别生物医学命名实体,考虑到疾病、症状、蛋白质等多种不同类型的生物医学实体以及患者的非医学因素,使用一种新的基于 COVID-19 病例报告的数据集,该方法在五个基准数据集上表现优秀,F1 得分约为 90 - ICMLAlphaD3M: 机器学习流程合成
本文介绍了基于元强化学习使用序列模型自我训练的 AlphaD3M 自动机器学习系统。与 Autosklearn、Autostacker 和 TPOT 等最先进的 AutoML 系统相比,AlphaD3M 具有相当的性能优势并且具有可解释性, - MultiBench: 多模态表示学习的多尺度基准
MultiBench 是一个系统性和统一化的基准测试,跨越 15 个数据集,10 种模态,20 种预测任务和 6 个研究领域。MultiBench 提供自动化的端到端机器学习流程,简化和标准化数据加载,实验设置和模型评估。随着大量的实践证明 - 知识增强的机器学习管线对抗多种攻击
本学术论文提出了一种利用领域知识来改进机器学习模型鲁棒性的方法:通过一阶逻辑规则,将领域知识(如不同预测之间的逻辑关系)整合到概率图模型中,提出了基于领域知识加强的机器学习管道(KEMLP),实证表明相比于其他基线算法,给定额外的弱辅助模型 - MM基于微服务的框架,支持互操作的物联网应用,以增强数据分析能力
提出了一种基于微服务和语义虚拟化的物联网架构,通过知识驱动和数据驱动技术支持智能服务,并使用机器学习管道实现数据驱动方面。
- 知情机器学习 —— 将知识融入学习系统的分类与调查
本文介绍了一个结构化的视角,讨论了先验知识在机器学习中的应用,阐述了先验机器学习的定义、概念和分类框架,并通过阅读相关研究论文总结了该领域的关键方法。
- 再现中的公平性:将刻板印象量化为再现损害
本研究探讨了机器学习流程中的刻板印象和其对资源分配带来的伤害,并提出了缓解策略并在合成数据集上进行了验证。
- 基于机器学习的经纪人用于 LSST 警报流的实时分类
本文介绍了一种机器学习方法,采用可用的光学多波段光度测量特征对宇宙学事件进行分类、表征和优先级排序,该方法适用于实时监听和处理大型天文调查过程中产生的异常事件流。