Mar, 2020
医疗背景下词嵌入的偏见量化
Hurtful Words: Quantifying Biases in Clinical Contextual Word Embeddings
TL;DR本论文研究了嵌入方法在编码社会边缘群体时的偏见问题,以及这种偏见可能导致的临床任务性能下降。通过使用MIMIC-III医院数据集中的医学记录对深度嵌入模型(BERT)进行预训练并使用两种方法量化潜在不公正性,作者发现BERT表征训练出的分类器在性别、语言、族裔和保险等方面表现出明显的性能差异,以及通过对抗去偏差的不足。最后提出了这些问题的最佳实践。