實例類型
CDP由多個不同類型的實例節(jié)點(diǎn)組成,其中基礎(chǔ)版包括主實例節(jié)點(diǎn)(Master)、工具實例節(jié)點(diǎn)(Utility)和核心實例節(jié)點(diǎn)(Core);專業(yè)版包括主實例節(jié)點(diǎn)(Master)、工具實例節(jié)點(diǎn)(Utility)、核心實例節(jié)點(diǎn)(Core)和數(shù)據(jù)服務(wù)節(jié)點(diǎn)(Data-Service)。
不同的實例節(jié)點(diǎn)上部署的服務(wù)進(jìn)程不同,負(fù)責(zé)完成的任務(wù)也不同。
以下為實例類型的具體說明。
主實例節(jié)點(diǎn)(Master)
Master節(jié)點(diǎn)主要用于部署HDFS NameNode,YARN ResourceManager以及Zookeeper Server等。
工具實例節(jié)點(diǎn)(Utility)
Utility節(jié)點(diǎn)主要用于部署CM(CDP的管控),以及Hive Metastore,Hue以及集群的元數(shù)據(jù)信息。針對高可用集群,工具節(jié)點(diǎn)還會用于部署HDFS 的JournalNode以及ZooKeeper的Server。針對高安全集群,工具節(jié)點(diǎn)也會用于安裝Solr server,Ranger以及Knox代理。
核心實例節(jié)點(diǎn)(Core)
Core節(jié)點(diǎn)主要用于數(shù)據(jù)存儲和計算,運(yùn)行HDFS DataNode和YARN NodeManager。
數(shù)據(jù)服務(wù)節(jié)點(diǎn)(Data-Service)
Data-Service節(jié)點(diǎn)主要用于部署Data Warehouse,Data Engineering和Machine Learning服務(wù):
Data Warehouse:使用Data-Service的Data Warehouse服務(wù),用戶可以創(chuàng)建相互獨(dú)立的虛擬數(shù)倉,并且虛擬數(shù)倉可以根據(jù)負(fù)載需求自動的擴(kuò)縮容,在沒有負(fù)載時進(jìn)入掛起狀態(tài),提高資源利用率。
Data Engineering:使用Data-Service的Data Engineering服務(wù),用戶可以創(chuàng)建自動擴(kuò)縮容的Spark虛擬集群,并為用戶提供交互式界面以提交Spark作業(yè),以及Airflow服務(wù)以幫助用戶調(diào)度Spark作業(yè)。
Machine Learning:Data-Service的Machine Learning服務(wù)提供了整套的AI WorkSpace,數(shù)據(jù)科學(xué)家可以使用該套工作空間完成數(shù)據(jù)準(zhǔn)備,機(jī)器學(xué)習(xí)實驗,模型測試和模型部署等工作。數(shù)據(jù)工程師也能使用該套服務(wù)快速編寫ETL腳本進(jìn)行數(shù)據(jù)處理。