数据清洗预处理 您所在的位置:首页 > 产品中心 > 谷数大数据平台 > 数据清洗预处理 >
产品介绍
技术参数
产品资料下载
数据预处理(数据清洗)——CDPP
 CDPP(Ceresdata Data PreProcessing)
数据清洗概念
• 外部数据源数据内容存在着“脏数据”,即数据有空缺、噪音等缺陷
• “脏数据”会扭曲从数据中获得的信息,影响数据挖掘系统的运行效果,最终影响决策管理
数据清洗内容
• 不完整的数据、错误的数据、重复的数据…
方法
• 缺失数据
  • 忽略记录、使用全局常量填充(NULL)、属性平均值填充、最有可能值填充(递归工具或判定树 归纳)…
• 错误数据
  • 分箱、聚类方法、线性回归、人际共同检测…
• 重复的数据
  • 通过相关分析检测、增加不同数据源的属性值和语义