谷数大数据平台
  • DAP分布式计算CDC CDC Customized Distributed Computing 针对应用定制化分布式计算 非结构化数据处理 支持MapReduce/Spark 线下数据映射简化 针对不同应用建模
  • 分布式并行数据库CDPD跨区域部署物理结构 关键技术 基于广域网跨区域部署 全局数据表空间 数据本地存储访问、无需跨节 点汇总同步 全局元数据一致 SQL请求任务调度分发 数据并行处
  • 分布式数据存储CNHC:基于Hadoop的NFS存储 CeresData NFS Hadoop Connector 允许Hadoop运行在NFS存储上 数据单副本:高可靠、低成本 读性能高:单节点性能提升3倍 支持数据乱序读写查询等操作 性能
  • 数据预处理(数据清洗)CDPP CDPP(Ceresdata Data PreProcessing) 数据清洗概念 外部数据源数据内容存在着脏数据,即数据有空缺、噪音等缺陷 脏数据会扭曲从数据中获得的信息,影响数据挖