May, 2024

提升填补准确率:利用上下文的大型语言模型加强插补数据

TL;DR这篇论文介绍了上下文语言模型用于准确插补方法 (CLAIM),一种利用预训练大型语言模型 (LLMs) 的广泛知识和推理能力来解决表格数据集中缺失数据挑战的新策略。通过利用上下文相关的自然语言描述符来填充丢失的值,CLAIM 方法转换数据集为具有自然语言上下文化格式,与 LLMs 的能力更加契合,进而促进 LLMs 的双重用途:首先,用于生成丢失值描述符,然后,对丰富的数据集进行精细调整,以提高下游任务中的性能。我们在多样的数据集和数据缺失模式上的评估显示 CLAIM 相对于现有的插补技术具有更优越的性能。此外,我们对特定上下文与通用描述符在缺失数据中的有效性进行的研究突出了上下文准确性提高 LLMS 进行数据插补的性能的重要性。结果强调了 CLAIM 提升数据分析和机器学习模型的可靠性和质量的潜力,为处理缺失数据提供了更为细致和有效的解决方案。