Mar, 2023

RetClean:基于检索的数据清洗,采用基础模型和数据湖

TL;DRChatGPT 可通过为数据表中特定单元格提供纠错建议来协助数据清洗,但可能无法处理从未遇见的数据集或需要源解释的情况。为此,我们开发了检索方法来补充 ChatGPT 的能力,并使用用户提供的数据湖来推断正确值。此外,我们开发了一种定制的基于 RoBERTa 模型的基础模型,可以本地部署,以协助保护隐私数据。我们的系统 RetClean 无缝支持这三种情况,并提供用户友好的 GUI,使 VLDB 观众能够探索和实验系统。