BriefGPT.xyz
Ask
alpha
关键词
data cleaning pipeline
搜索结果 - 2
数据清洗流程初探
通过介绍技术术语和常用方法,综述了数据集成和数据清洗流程中的四个阶段,探讨了在现有的结构化和非结构化数据库中进行预测分析或统计分析所涉及的统计和方法学问题。
PDF
a year ago
一个大规模的中文短文本对话数据集
本文介绍了一个大型的、经过清洗的中文对话数据集 LCCC,包含基础版和大型版两种版本,共计 680 万和 1200 万对话。数据集的质量通过一套规则和分类器确保。此外,本文还释放了 LCCC-base 和 LCCC-large 的预训练对话
→
PDF
4 years ago
Prev
Next