语言模型分类器在再入院预测中比 XGBoost 更符合医生词汇敏感性

Nov, 2022

语言模型分类器在再入院预测中比 XGBoost 更符合医生词汇敏感性

Language Model Classifier Aligns Better with Physician Word Sensitivity than XGBoost on Readmission Prediction

Grace Yang, Ming Cao, Lavender Y. Jiang, Xujin C. Liu, Alexander T.M. Cheung...

TL;DR本文介绍了一种新的评估模型性能的方法 —— 敏感分数，并通过比较专业医生和机器学习模型敏感分数在词汇级别上的排名相关性来评估其决策逻辑差异。结果表明，敏感分数可以更准确地衡量模型的鲁棒性，该方法可以用于自然语言处理等领域的分类任务的性能评估。

Abstract

Traditional evaluation metrics for classification in natural language processing such as accuracy and area under the curve fail to differentiate between models with different predictive behaviors despite their similar performance metrics. We introduce →

classification sensitivity score decision-making logic language model classification metrics

发现论文，激发创造

临床环境下脓毒症发作的早期预测

采用机器学习模型来预测感染性休克的早期发生，利用来自纽约布朗克斯 Montefiore 医疗中心的非身份识别的临床数据。

Feb, 2024

评估临床情感分析和主题提取在精神科再入院风险预测中的功效

通过在电子健康记录中引入话题提取和临床情绪分析等额外的可解释性自然语言处理功能，本文评估了在精神病患者中预测早期再入院风险的读入风险分类器建立过程中包括额外临床可解释性自然语言处理功能的重要性。

Oct, 2019

在干预引起的截尾情况下学习（预测性）风险评分

文章提出一种基于排序算法的疾病严重程度评分学习框架（DSSL），可将患者的测量数据转化为与专家评分一致的严重程度分数，将其应用于感染性休克疾病的严重程度评分，得到的分数在排序和早期治疗方面均明显优于现有的临床评分，并且对不同治疗方案的变化具有更好的泛化性能。

Jul, 2015

对开放领域对话系统进行可配置评估指标的解构与重构

我们提出了一种灵活的度量方法，并通过组合可管理的质量、将质量分成三组，并将每个方面的指标合成为一个指标，得到了名为 USL-H 的度量方法，证明了 USL-H score 与人工评价具有良好的相关性和可配置性。

Nov, 2020

走向程序公正：揭示有毒语言分类器使用情感信息中的偏见

研究了毒性语言分类器的公正性，考虑了与身份术语之外的重要概念的交互作用，表明身份术语将其它输入特征的作用超越，所得知识可指导去偏见技术以确保训练集中重要概念的充分代表。

Oct, 2022

CARE-SD：电子病历中辨识和清除带有污名和怀疑标签的基于分类器的分析：模型开发和验证

通过自然语言处理技术，使用强调和带有偏见的语言的特征在重症监护电子病历中进行检测和分类。

May, 2024

自然语言处理中的分类评估指标问题讨论

在自然语言处理（NLP）分类任务中，衡量模型泛化能力的常规度量指标（如准确率、F - 度量或 AUC-ROC）的多样性和任意性表明 NLP 领域尚无一致的最佳度量指标。本文对比了几种常规分类度量指标与更具特异性的度量指标，并证明随机猜测的归一化信息性度量是任务性能的简约基准。通过广泛实验，在包括合成场景、自然语言理解、问题回答和机器翻译在内的多个 NLP 任务上使用了一组度量指标对模型进行排名，得出归一化信息性度量最能捕捉到理想模型特征。最后，我们发布了一个按照 SciKitLearn 分类器格式实现的 Python 版本的归一化信息性度量。

Jan, 2024

以敏感度为序列分类任务的复杂度测量

引入了一个理论框架来理解和预测序列分类任务的复杂性，使用布尔函数灵敏度理论的新扩展。在一些 NLP 任务中使用此框架，发现具有挑战性的任务比简单文本分类任务具有更高的敏感度，并且敏感度预测了低敏度解码器的表现。此外，表明高性能的预训练文本表示部分成功的原因是它们提供了低灵敏度解码器可以提取信息的表示形式

Apr, 2021

将基于机器学习的早期败血症检测扩展到不同人群

本研究使用公共 eICU-CRD 数据集和韩国圣玛丽医院的私人数据集，对 LightGBM 和 XGBoost 两种集成学习方法进行比较分析，发现这些方法在处理医疗数据不平衡和增强脓毒症检测方面的有效性。具体而言，LightGBM 在计算效率和可扩展性方面略胜一筹。该研究为机器学习在危重护理中的广泛应用铺平了道路，从而全球扩展了预测分析在医疗保健中的应用。

Nov, 2023

医疗公平性：分析机器学习对糖尿病患者再入院预测中的差异

通过比较深度学习、广义线性模型、梯度提升机（GBM）和朴素贝叶斯等模型，我们发现 GBM 在不同人口统计学特征（年龄、性别、种族）下，以 84.3% 的 F1 分数和 82.2% 的准确率准确预测糖尿病患者的住院再入院情况。GBM 在预测中减少了性别和种族之间的差异，其假发现率（FDR） (6-7%) 和假阳性率（FPR） (5%) 较低，且各年龄组（40 岁以下和 40 岁以上患者）的 FDR（4%）保持稳定，表明其精确性和减少偏见的能力。通过展示多种模型的准确度和公平性指标，该研究强调了在医疗保健中谨慎选择机器学习模型以确保准确性和公正性的重要性，从而促进个性化医学并确保公平的机器学习算法，最终减少糖尿病患者不同背景中的不平等，并改善结果。

Mar, 2024