- LSTM 神经网络与传统机器学习模型在预测糖尿病患者再入院方面的比较分析
该研究使用了 Diabetes 130-US Hospitals 数据集,利用各种传统机器学习模型(如 XGBoost、LightGBM、CatBoost、决策树和随机森林)进行分析和预测了糖尿病患者的再入院情况,并通过自主开发的 LSTM - ICML使用基于 Transformer 的分子表示模型改进电解质配方的性能预测
高效高性能电解液的开发对于推进能量存储技术,特别是电池技术非常重要。本文介绍了一种新的方法,利用基于 Transformer 的分子表示模型来有效地捕捉电解液配方的表示,通过在两个电池属性预测任务中对该方法进行评估,结果表明其在性能上优于目 - 利用机器学习方法预测悉尼大都市区交通事件的持续时间
本研究提出了一种全面的方法来预测悉尼大都市区交通事故的持续时间,并将其分类为短期或长期。我们利用包含交通事故详细记录、道路网络特征和社会经济指标的数据集,通过训练和评估包括 Gradient Boosted Decision Trees ( - 隐私保护分布式学习的基于量化的技术
本研究论述了一种符合规定的分布式机器学习训练的数据保护技术,采用基于量化多哈希数据表示和随机化的协议,保护训练数据和机器学习模型参数,并通过标准安全多方计算协议共享超参数。实验结果展示了该方法的鲁棒性和保持准确性的特性。
- 学它或者离开:模块组合与修剪的连续学习
MoCL-P 是一种轻量级的持续学习方法,通过任务表示引导模块组合和自适应修剪,同时解决避免灾难性遗忘、促进知识转移和保持参数效率等持续学习中的挑战,且在三个持续学习基准测试中达到了最优性能,提高了参数效率,展示了在资源受限的实际应用中的潜 - ICML统一不确定性:将输入、数据和模型不确定性合并为单个公式
通过神经网络传播输入不确定性时,我们提出了一种同时能够估计输入、数据和模型不确定性的方法,结果表明这种输入不确定性的传播导致更稳定的决策边界,即使在大量输入噪声的情况下也是如此。
- Hot-Distance:结合独热编码和有符号距离嵌入的分割
机器学习模型精度取决于所拟合的数据,因此在训练模型时最好使用尽可能多的数据。本文介绍 Hot-Distance,一种融合有符号边界距离预测强度与一热编码灵活性的新型分割目标,在离子束扫描电子显微术(FIB-SEM)中用于细胞亚结构分割,以增 - 少即是多:面部表情识别中的表征性与刻板性性别偏见
利用面部表情识别 (FER) 作为领域,通过分析性别人口的代表性和刻板性两种偏见,研究了数据集中的人口偏见对机器学习模型的传播情况。结果显示,代表性偏见对模型的影响较弱,而刻板性偏见具有显著的影响,主要集中在有偏见的类别上,尽管它也会影响无 - ViANLI: 针对越南语的对抗自然语言推理
通过预训练模型在标注过程中使用,本文介绍了对自然语言推理进行研究的越南 NLVS 数据集 ViANLI,并证明基于该数据集训练的模型显著提高了其他越南自然语言推理数据集的结果。
- 利用加速度计项圈监测断奶前小牛行为的数字工具开发
自动监测仔牛行为是评估动物福利的有前途的方法。本研究旨在从加速度计数据中开发机器学习模型,对断奶前的仔牛主要行为进行分类,并建立数字工具以监测仔牛的行为。
- 利用基于音频 - 文本变换的智能鉴别方法进行恭维检测的论文
通过一个包含 20 小时语音的新型音频文本数据集,我们采用预训练的 AST、Wav2Vec2 和 Whisper 模型以及 Whisper TTS 模型结合 RoBERTa 文本分类器,建立一个多模态分类器,实现对赞美的自动检测,从而增强人 - 深度伪造推文自动检测
本研究利用先进的自然语言处理技术来区分真实和人工智能生成的文本,以解决检测 DeepFake 推文的挑战。通过使用 TweepFake 数据集来训练和评估不同的机器学习模型,旨在识别有效的策略,从而提高数字通信的完整性,通过开发可靠的方法来 - 使用 Datamodels(D3M)进行数据去偏:通过数据选择提高子群体鲁棒性
使用 Data Debiasing with Datamodels (D3M) 方法,在不需要训练组注释或额外的超参数调整的情况下,通过隔离和移除导致模型在少数群体上失败的特定训练样本,可以高效地训练去偏置分类器。
- 在光学显微图像中使用 pix2pix 和自适应损失预测无标签荧光标记
该研究提出一种基于深度学习的虚拟标记方法,用于光学显微图像中的细胞结构和亚细胞成分的标记,通过使用部分标记的数据集和自适应损失进行训练,同时探索了几种训练策略的有效性,取得了有希望的虚拟标记性能。
- Proto-BagNets 的本地和全局可解释性设计
介绍了 Proto-BagNets,一种可解释性设计的基于原型的模型,结合了局部特征模型和原型学习的优势,为准确和可解释的图像分类任务提供了有意义、连贯和相关的原型部分。在公开可用的视网膜 OCT 数据上对 Proto-BagNet 进行了 - 面向本体机器学习的鲁棒训练数据集:紧急道路车辆检测案例研究
通过验证训练数据集的领域完整性和图像质量鲁棒性,提高安全关键领域中机器学习模型的可信度和鲁棒性,并通过紧急道路车辆领域的本体构建实验进行了概念性证明。
- 输入特征归因分析的统一框架
机器学习模型的决策过程解释对于确保其可靠性和公平性至关重要。我们提出了一个统一框架,通过四个诊断属性实现了突出和交互式解释的直接比较,并揭示了不同诊断属性方面各解释类型的优势。突出解释对模型预测最为忠实,而交互式解释对于学习模拟模型预测提供 - 机器学习全球非局域引力波传播模拟
使用机器学习模型模拟全球大气重力波通量,以替代传统的单柱参数化方法,展示了全局非局域性在使用数据驱动方案模拟大气重力波时的重要性和有效性。
- 基于错误概率预测的量化与早期退出结合策略
提出了一种结合量化和早期退出动态网络的更一般的动态网络方法 QuEE,通过准确预测进一步计算可能获得的潜在准确性改进,解决了传统的早期退出问题。
- CascadeServe: 解锁模型级联进行推理服务
CascadeServe 通过使用模型级联进行端到端的推理服务自动化和优化,在不同工作负载上与现有技术进行比较时,在延迟 - 准确性空间的广泛范围内可以节约 2-3 倍的成本。