医疗保险索赔的时间性变化的大规模研究
我们通过综合当前时期和历史时期的数据集,研究模型评估和选择在变化环境中的情况。为了应对未知且可能随机的时间分布转移,我们开发了一种自适应滚动窗口方法来估计给定模型的泛化误差。该策略还通过估计两个候选模型的泛化误差差异来方便比较。我们进一步将两两比较整合到单一淘汰赛中,从候选模型集合中实现接近最优的模型选择。理论分析和数值实验证明了我们提出的方法对数据非稳定性的适应性。
Feb, 2024
该研究论文主要研究机器学习中的时序转变对社交媒体的影响,通过提出一种统一的评估方案,发现语言模型在不同时间设置下会出现性能下降,尤其在命名实体识别、仇恨言论检测等任务中。而在主题分类和情感分类等任务中,性能下降不明显,同时发现对测试期进行连续预训练并不能提高语言模型的时序适应能力。
May, 2024
本研究基于数据时间聚类的不变性,提出了分析多变量临床时间序列数据的模型以及一种数据扩充技术方案,用于规范化深度神经网络中医学预测任务,该方法以评估医疗预测任务为基准,提高了其预测精度。
Apr, 2019
金融文本中存在时间数据分布的变化,如何在不稳定的市场环境中训练一个能够准确推断情感且对时间数据分布变化具有鲁棒性的金融情感分析系统?本文通过对跨越三年的真实金融社交媒体数据集进行经验研究,在时间数据分布变化的情况下分析金融情感分析系统的性能下降问题,并基于金融文本的独特时间性质提出了一种结合异常检测和时间序列建模的新方法用于时间金融情感分析。实验证明该方法增强了模型在波动的金融市场中适应不断变化的时间趋势的能力。
Oct, 2023
本文介绍了机器学习领域中的分布漂移和时间漂移问题,通过时间戳元数据来增强模型学习能力,提出了一个包含五个数据集的基准测试,使用 13 种不同的方法进行系统评估,同时针对不同的实际应用场景设计了两种评估策略,发现现有的方法已经无法缩小在分布内和分布外数据间的性能差距。
Nov, 2022
本文扩展了 Shifts 数据集,加入了两个来源于高风险工业应用的数据集,用于探索模型的鲁棒性和不确定性估计。新数据集包括 3D 磁共振脑图像中白质多发性硬化病变的分割和船舶功耗的估计,具有普遍分布转移和严格的安全要求。
Jun, 2022
本研究采用机器学习方法,结合各种测量指标,包括检验实验室检测结果等信息,使用 Long Short-Term Memory 和两种卷积神经网络,基于 298K 患者 8 年行政索赔数据中的 18 种常见实验室检测结果,对 133 种疾病风险进行预测,并通过数据实验结果对比分析表明,疾病预测方面基于深度学习的方法有很好的应用前景。
Aug, 2016
在机器学习任务中,分布偏移是一种常见情况,其表示训练模型使用的数据与实际应用模型的数据不同。本文旨在定义和检测教育环境中的分布偏移,关注标准预测问题,即学习一个以输入序列为输入(预测变量)X=(x_1,x_2,...,x_m) 并生成输出 Y=f (X) 的模型。
May, 2024
使用大型语言模型和数据源接口来探索和收集时间序列数据集的方法,扩大数据量以应对限制或缺乏关键属性的原始数据,有效补充现有数据集,尤其在数据分布变化方面。演示了通过实际示例证明了收集数据集的有效性,并展示了在这些数据集上进行微调的时间序列预测基础模型与未经微调的模型相比具有可比的性能。
Jun, 2024