Oct, 2023

CLIFT:分析临床领域问答模型的自然分布转变

TL;DR本文介绍了一个名为 CLIFT(Clinical Shift)的新测试平台,用于临床领域的问答任务。通过对提出的测试平台进行综合实验研究,评估了几个问答深度学习模型。尽管在原始测试集上取得了令人印象深刻的结果,但在新的测试集上性能下降,显示出分布偏移。我们的研究结果强调了在分布偏移条件下提高临床领域模型鲁棒性的必要性和潜力。该测试平台为追踪该方向的进展提供了一种方式,同时也强调了采用考虑对自然分布偏移的鲁棒性的评估指标的必要性。我们计划通过添加更多样本和模型结果来扩展语料库。完整的论文和更新的基准测试结果可在 github.com/openlifescience-ai/clift 获取。