課程簡介

第 1 部分:HDFS 中的 Data Management

  • 各種資料格式(JSON / Avro / Parquet)
  • 壓縮方案
  • 數據掩碼
  • 實驗室 : 分析不同的數據格式; 啟用壓縮

第 2 部分:高級 Pig

  • 用戶定義的函數
  • Pig 庫介紹 (ElephantBird / Data-Fu)
  • 使用 Pig 載入複雜的結構化數據
  • Pig 調優
  • 實驗 : 高級 Pig 文稿,解析複雜數據類型

第 3 部分:高級 Hive

  • 用戶定義的函數
  • 壓縮表
  • Hive 性能調優
  • 實驗:創建壓縮表、評估表格式和配置

第4部分:高級 HBase

  • 高級架構建模
  • 壓縮
  • 批量數據攝取
  • 寬桌 / 高桌比較
  • HBase 和 Pig
  • HBase 和 Hive
  • HBase 性能調優
  • 實驗室:調整 HBase;從Pig獲取HBase數據& Hive;使用 Phoenix 進行數據建模

最低要求

  • 熟悉 Java 程式設計語言(大多數程式設計練習都使用 Java)
  • 在 Linux 環境中舒適(能夠導航 Linux 命令行,使用 vi / nano 編輯檔)
  • Hadoop 的工作  知識。

實驗室環境

零安裝: 無需在學生的計算機上安裝 Hadoop 軟體!將為學生提供一個有效的hadoop集群。

學生將需要以下內容

  • 一個 SSH 用戶端(Linux 和 Mac 已經有 SSH 用戶端,建議使用 Windows Putty )
  • 用於訪問集群的瀏覽器。我們推薦 Firefox 瀏覽器
 21 時間:

客戶評論 (5)

課程分類