課程簡介

  • 介紹
    • Hadoop 歷史, 概念
    • 生態系統
    • 分佈
    • 高級架構
    • Hadoop 神話
    • Hadoop 挑戰 (硬體 / 軟體)
    • 實驗:討論您的 Big Data 個項目和問題
  • 規劃和安裝
    • 選擇軟體,Hadoop 發行版
    • 調整集群大小,規劃增長
    • 選擇硬體和網路
    • 機架拓撲
    • 安裝
    • 多租戶
    • 目錄結構、日誌
    • 標杆
    • 實驗室:集群安裝、運行性能基準測試
  • HDFS 操作
    • 概念(水平擴展、複製、資料位置、機架感知)
    • 節點和守護程式(NameNode、Secondary NameNode、HA Standby NameNode、DataNode)
    • 運行狀況監控
    • 命令行和基於瀏覽器的管理
    • 添加存儲,更換有缺陷的驅動器
    • 實驗:熟悉 HDFS 命令行
  • 數據攝取
    • 用於將日誌和其他數據攝取到 HDFS 中的 Flume
    • Sqoop 用於從 SQL 資料庫導入到 HDFS,以及匯出回 SQL
    • Hadoop 使用 Hive 進行數據倉庫存儲
    • 在集群之間複製資料 (distcp)
    • 使用 S3 作為 HDFS 的補充
    • 數據攝取最佳實踐和架構
    • 實驗:設置和使用 Flume,與 Sqoop 相同
  • MapReduce 操作和管理
    • mapreduce 之前的並行計算:比較 HPC 與 Hadoop 管理
    • MapReduce 集群負載
    • 節點和守護進程(JobTracker、TaskTracker)
    • MapReduce UI 演練
    • Mapreduce 配置
    • 作業配置
    • 優化 MapReduce
    • 萬無一失的 MR:對程式師說些什麼
    • 實驗:運行 MapReduce 示例
  • YARN:新架構和新功能
    • YARN 設計目標和實現架構
    • 新參與者:ResourceManager、NodeManager、Application Master
    • 安裝 YARN
    • YARN 下的作業調度
    • 實驗室:調查作業計劃
  • 高級主題
    • 硬體監控
    • 集群監控
    • 新增與刪除伺服器, 升級Hadoop
    • 備份、恢復和業務連續性規劃
    • Oozie 作業工作流
    • Hadoop 高可用性 (HA)
    • Hadoop 聯合
    • 使用 Kerberos 保護集群
    • 實驗室:設置監控
  • 可選軌道
    • Cloudera Manager 用於集群管理、監控和日常任務;安裝、使用。在本系列中,所有練習和實驗都在Cloudera分發環境 (CDH5) 中進行
    • 用於群集管理、監視和日常任務的Ambari;安裝、使用。在此系列中,所有練習和實驗都在Ambari集群管理器和 Hortonworks 數據平臺 (HDP 2.0) 中執行

最低要求

  • 熟悉基本的 Linux 系統管理
  • 基本腳本編寫技能

不需要 Hadoop 和分散式計算知識,但將在課程中介紹和解釋。

實驗室環境

零安裝 : 無需在學生的機器上安裝 Hadoop 軟體!將為學生提供一個有效的hadoop集群。

學生將需要以下內容

  • SSH 用戶端(Linux 和 Mac 已經有 SSH 用戶端,建議使用 Windows Putty )
  • 用於訪問集群的瀏覽器。我們建議使用 安裝了 FoxyProxy 擴展 的 Firefox 瀏覽器 
 21 時間:

客戶評論 (5)

課程分類