Mar, 2023
RetClean:基于检索的数据清洗,采用基础模型和数据湖
RetClean: Retrieval-Based Data Cleaning Using Foundation Models and Data Lakes
Mohammad Shahmeer Ahmad, Zan Ahmad Naeem, Mohamed Eltabakh, Mourad Ouzzani, Nan Tang
TL;DRChatGPT 可通过为数据表中特定单元格提供纠错建议来协助数据清洗,但可能无法处理从未遇见的数据集或需要源解释的情况。为此,我们开发了检索方法来补充 ChatGPT 的能力,并使用用户提供的数据湖来推断正确值。此外,我们开发了一种定制的基于 RoBERTa 模型的基础模型,可以本地部署,以协助保护隐私数据。我们的系统 RetClean 无缝支持这三种情况,并提供用户友好的 GUI,使 VLDB 观众能够探索和实验系统。