CDH集成开发项目

CDH集成开发项目

该系统将Hadoop与其他关键开源项目集成,以创建一个功能先进的系统,帮助企业执行端到端的大数据工作流程。

CDH Sqoop HBase 大数据 人工智能

 

CDH集成开发项目

该系统将Hadoop与其他关键开源项目集成,以创建一个功能先进的系统,帮助企业执行端到端的大数据工作流程。

CDH是Cloudera的100%开源平台发行版,包括Apache Hadoop,专为满足企业需求而构建。CDH提供开箱即用的企业使用所需的一切。通过将Hadoop与十几个其他关键的开源项目集成,Cloudera创建了一个功能先进的系统,可帮助您执行端到端的大数据工作流程。

拥有集群自动化安装、中心化管理、集群监控、报警功能的一个工具(软件),使得集群的安装可以从几天的时间缩短为几个小时,运维人数也会从数十人降低到几个人,极大的提高了集群管理的效率。

系统特色

  • CDH基于稳定版Apache Hadoop,并应用最新Bug修复或者Feature的Patch

  • Cloudera官网上安装、升级文档十分详细

  • CDH支持Yum包、tar包、RPM包,Cloudera Manager四种安装方式。推荐使用Yum、Apt方式安装

Cloudera Manager的功能

  • 管理:对集群进行管理,例如添加、删除节点等操作

  • 监控:监控集群的健康情况,对设置的各种指标和系统的具体运行情况进行全面的监控

  • 诊断:对集群出现的各种问题进行诊断,并且给出建议和解决方案

  • 集成:多组件可以进行版本兼容间的整合

统合管理平台

综合管理平台,以定制开发为主,主要功能包括用户组织结构导入,角色权限分配,计算资源分配与生命周期的管理。

 自动化运维

基于开源技术框架的实施与二次开发,用于部署远程主机,SSH协议实现远程节点和管理节点之间的通信。

集群监控

用于对基础设施的监控包括三个方面:状态,性能和可用性。监控集群的性能指标,如cpu 、mem、硬盘利用率, I/O负载、网络流量情况等, 同时支持监控自定义的性能指标。 每个被检测的节点或集群运行一个gmond进程,进行监控数据的收集、汇总和发送。gmond即可以作为发送者(收集本机数据),也可以作为接收者(汇总多个节点的数据)。

  • 通常在整个监控体系中只有一个gmetad进程。该进程定期检查所有的gmonds,主动收集数据,并存储在RRD存储引擎中。

  •  可以以图表的方式展现存储在RRD中的数据。通常与gmetad进程运行在一起。

可视化操作

可视化操作包括如下核心功能:

  •  HDFS访问

  •  Hive编辑器

  •  Solr搜索应用。

  •  Impala数据交互查询

  •  集成Spark编辑器和DashBoard

  •  Pig编辑器

  •  Oozie调度器

  •  HBase数据查询、修改、可视化

  •  Metastore的浏览。

  •  Job的支持,Sqoop,ZooKeeper以及DB(MySQL,SQLite,Oracle等)

CDH Sqoop HBase 大数据 人工智能