課程簡介

第 1 部分:Hadoop 簡介

  • Hadoop 歷史與概念
  • 生態系統
  • 分佈
  • 高層架構
  • Hadoop 迷思
  • Hadoop 挑戰
  • 硬體 / 軟體
  • 實驗室:初次接觸 Hadoop

第 2 部分:HDFS

  • 設計與架構
  • 概念(水平擴展、複製、數據本地性、機架感知)
  • 守護進程:Namenode、Secondary namenode、Data node
  • 通信 / 心跳
  • 數據完整性
  • 讀取 / 寫入路徑
  • Namenode 高可用性(HA)、聯邦
  • 實驗室:與 HDFS 互動

第 3 部分 : 映射縮減

  • 概念和架構
  • 守護進程 (MRV1):JobTracker / TaskTracker
  • 階段:驅動程式、映射器、隨機排序/排序、Reducer
  • Map Reduce 版本 1 和版本 2 (YARN)
  • Map Reduce 的內部結構
  • Java Map Reduce 程式簡介
  • labs : 執行範例 MapReduce 程式

第4部分:豬

  • pig 與 java map reduce
  • Pig 任務流程
  • 豬拉丁語
  • 使用 Pig 的 ETL
  • 轉換與連接
  • 使用者定義函數 (UDF)
  • 實驗室 : 編寫 Pig 腳本來分析數據

第 5 部分:Hive

  • 建築與設計
  • 數據類型
  • SQL Hive 中的支援
  • 創建 Hive 表和查詢
  • 分區
  • 加入
  • 文本處理
  • 實驗室 : 使用 Hive 處理資料的各種實驗室

第 6 部分:HBase

  • 概念與架構
  • HBase vs RDBMS vs Cassandra
  • HBase Java API
  • HBase 上的時間序列數據
  • 模式設計
  • 實驗室:使用 shell 與 HBase 互動;使用 HBase Java API 進行編程;模式設計練習

最低要求

  • 熟悉Java编程语言(大多数编程练习使用Java)
  • 熟悉Linux环境(能够使用Linux命令行,使用vi / nano编辑文件)

实验环境

零安装:无需在学生机器上安装Hadoop软件!将为学生提供一个可用的Hadoop集群。

学生需要准备以下内容

  • SSH客户端(Linux和Mac已自带ssh客户端,Windows推荐使用Putty)
  • 用于访问集群的浏览器,推荐使用Firefox
 28 時間:

客戶評論 (5)

課程分類