Hadoop for Developers (4 days)培訓
Apache Hadoop 是在伺服器集群上處理 Big Data 的最流行的框架。本課程將向開發人員介紹各種元件(HDFS、MapReduce、PigHive 和 HBase)Hadoop 生態系統。
課程簡介
第 1 部分:Hadoop 簡介
- Hadoop 歷史與概念
- 生態系統
- 分佈
- 高層架構
- Hadoop 迷思
- Hadoop 挑戰
- 硬體 / 軟體
- 實驗室:初次接觸 Hadoop
第 2 部分:HDFS
- 設計與架構
- 概念(水平擴展、複製、數據本地性、機架感知)
- 守護進程:Namenode、Secondary namenode、Data node
- 通信 / 心跳
- 數據完整性
- 讀取 / 寫入路徑
- Namenode 高可用性(HA)、聯邦
- 實驗室:與 HDFS 互動
第 3 部分 : 映射縮減
- 概念和架構
- 守護進程 (MRV1):JobTracker / TaskTracker
- 階段:驅動程式、映射器、隨機排序/排序、Reducer
- Map Reduce 版本 1 和版本 2 (YARN)
- Map Reduce 的內部結構
- Java Map Reduce 程式簡介
- labs : 執行範例 MapReduce 程式
第4部分:豬
- pig 與 java map reduce
- Pig 任務流程
- 豬拉丁語
- 使用 Pig 的 ETL
- 轉換與連接
- 使用者定義函數 (UDF)
- 實驗室 : 編寫 Pig 腳本來分析數據
第 5 部分:Hive
- 建築與設計
- 數據類型
- SQL Hive 中的支援
- 創建 Hive 表和查詢
- 分區
- 加入
- 文本處理
- 實驗室 : 使用 Hive 處理資料的各種實驗室
第 6 部分:HBase
- 概念與架構
- HBase vs RDBMS vs Cassandra
- HBase Java API
- HBase 上的時間序列數據
- 模式設計
- 實驗室:使用 shell 與 HBase 互動;使用 HBase Java API 進行編程;模式設計練習
最低要求
- 熟悉Java编程语言(大多数编程练习使用Java)
- 熟悉Linux环境(能够使用Linux命令行,使用vi / nano编辑文件)
实验环境
零安装:无需在学生机器上安装Hadoop软件!将为学生提供一个可用的Hadoop集群。
学生需要准备以下内容
- SSH客户端(Linux和Mac已自带ssh客户端,Windows推荐使用Putty)
- 用于访问集群的浏览器,推荐使用Firefox
需要幫助選擇合適的課程嗎?
Hadoop for Developers (4 days)培訓 - Enquiry
Hadoop for Developers (4 days) - 咨詢詢問
咨詢詢問
客戶評論 (5)
The live examples
Ahmet Bolat - Accenture Industrial SS
Course - Python, Spark, and Hadoop for Big Data
During the exercises, James explained me every step whereever I was getting stuck in more detail. I was completely new to NIFI. He explained the actual purpose of NIFI, even the basics such as open source. He covered every concept of Nifi starting from Beginner Level to Developer Level.
Firdous Hashim Ali - MOD A BLOCK
Course - Apache NiFi for Administrators
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Course - Impala for Business Intelligence
That I had it in the first place.
Peter Scales - CACI Ltd
Course - Apache NiFi for Developers
practical things of doing, also theory was served good by Ajay
Dominik Mazur - Capgemini Polska Sp. z o.o.
Course - Hadoop Administration on MapR
相關課程
Administrator Training for Apache Hadoop
35 時間:觀眾:
本課程面向尋求在分散式系統環境中存儲和處理大型數據集的解決方案的IT專家
Goal:
對 Hadoop 集群管理有深入的瞭解。
Big Data Analytics in Health
21 時間:大數據分析涉及檢查大量不同數據集的過程,以便發現相關性,隱藏模式和其他有用的見解。
健康產業擁有大量複雜的異構醫學和臨床數據。對健康數據應用大數據分析在獲得改善醫療保健服務的見解方面具有巨大潛力。然而,這些數據集的巨大性給分析和臨床環境的實際應用帶來了巨大挑戰。
在這個以講師為主導的現場培訓(遠程)中,參與者將學習如何在健康狀況下進行大數據分析,因為他們將逐步進行一系列動手實踐練習。
在培訓結束時,參與者將能夠:
- 安裝和配置大數據分析工具,如Hadoop MapReduce和Spark
- 了解醫療數據的特徵
- 應用大數據技術處理醫療數據
- 在健康應用的背景下研究大數據系統和算法
聽眾
- 開發商
- 數據科學家
課程格式
- 部分講座,部分討論,練習和繁重的實踐練習。
注意
- 要申請本課程的定制培訓,請聯繫我們安排。
Hadoop Administration
21 時間:該課程專門面向正在尋找在分散式系統環境中存儲和處理大型數據集的解決方案的IT專家
課程目標:
獲取有關 Hadoop 群集管理的知識
Hadoop For Administrators
21 時間:Apache Hadoop 是在伺服器集群上處理 Big Data 的最流行的框架。在這個為期三天(可選四天)的課程中,學員將瞭解 Hadoop 及其生態系統的業務優勢和使用案例,如何規劃集群部署和增長,如何安裝、維護、監控、故障排除和優化 Hadoop。他們還將練習集群批量數據載入,熟悉各種 Hadoop 發行版,並練習安裝和管理 Hadoop 生態系統工具。本課程最後討論了如何使用 Kerberos 保護集群。
“…這些材料準備得非常充分,覆蓋得很乾淨。實驗室非常樂於助人,組織得很好”
— Andrew Nguyen,DW 首席集成工程師,Microsoft 在線 Advertising
觀眾
Hadoop 管理員
格式
講座和動手實驗,大約平衡 60% 的講座,40% 的實驗。
Advanced Hadoop for Developers
21 時間:Apache Hadoop 是在伺服器集群上處理 Big Data 的最流行的框架之一。本課程深入探討了 HDFS、高級 Pig Hive 和 HBase 中的數據管理。 這些高級程式設計技術將對經驗豐富的 Hadoop 開發人員有所説明。
受眾: 開發人員
持續時間: 三天
形式: 講座 (50%) 和動手實驗 (50%)。
Hadoop and Spark for Administrators
35 時間:這種由講師指導的澳門現場培訓(現場或遠端)針對的是希望學習如何在組織內設置,部署和管理Hadoop集群的系統管理員。
在培訓結束時,參與者將能夠:
- 安裝和配置 Apache Hadoop。
- 瞭解 Hadoop 生態系統中的四個主要元件:HDFS、MapReduce、YARN 和 Hadoop Common。
- 使用 Hadoop 分散式檔案系統 (HDFS) 將集群擴展到數百或數千個節點。
- 將 HDFS 設定為本地 Spark 部署的記憶體引擎。
- 設置 Spark 以存取替代儲存解決方案,例如 Amazon S3 和 NoSQL 資料庫系統,例如 Redis、Elasticsearch、Couchbase、Aerospike 等。
- 執行管理任務,例如配置、管理、監控和保護 Apache Hadoop 集群。
HBase for Developers
21 時間:本課程介紹HBase - 一個基於Hadoop的無SQL存儲。本課程面向將使用HBase開發應用程序的開發人員以及將管理HBase集群的管理員。
我們將通過HBase的HBase架構和數據建模以及應用程序開發向開發人員展示。它還將討論將MapReduce與HBase一起使用,以及與性能優化相關的一些管理主題。該課程非常實用,包含大量實驗練習。
持續時間 :3天
受眾 :開發人員和管理員
Hortonworks Data Platform (HDP) for Administrators
21 時間:這個由講師指導的現場培訓在 澳門(在線或現場)介紹 Hortonworks Data Platform (HDP) 並引導參與者完成Spark + Hadoop 解決方案的部署。
在本次培訓結束時,參與者將能夠:
- 使用 Hortonworks 可靠地大規模運行 Hadoop。
- 將 Hadoop 的安全、治理和運營功能與Spark的敏捷分析工作流統一起來。
- 使用 Hortonworks 調查、驗證、認證和支援 Spark 專案中的每個元件。
- 處理不同類型的數據,包括結構化、非結構化、動態和靜態數據。
Data Analysis with Hive/HiveQL
7 時間:本課程介紹如何從Hive提取數據的人員使用Hive SQL語言(AKA: Hive HQL, Hive SQL , Hive QL)
Impala for Business Intelligence
21 時間:Cloudera Impala 是適用於 Apache Hadoop 集群的開源大規模並行處理 (MPP) SQL 查詢引擎。
Impala 使用戶能夠 對存儲在 Hadoop 分散式文件系統 和 Apache Hbase 中的數據發出低延遲 SQL 查詢,而無需移動或轉換數據。
觀眾
本課程面向 分析師和數據科學家,他們通過 Business Intelligence 或 SQL 工具對存儲在 Hadoop 中的數據進行分析。
完成本課程后,學員將能夠
- 使用 Impala 從 Hadoop 集群中提取有意義的資訊。
- 編寫特定的程序以促進 Impala SQL 方言的 Business 智慧。
- 故障排除 Impala。
Apache NiFi for Administrators
21 時間:在這個以講師為主導的澳門現場或遠端培訓中,參與者將學習如何在實時實驗室環境中部署和管理Apache NiFi。
在培訓結束時,參與者將能夠:
- 安裝並配置 Apachi NiFi。
- 從不同的分散式數據源(包括資料庫和大數據湖)中獲取、轉換和管理數據。
- 自動化數據流。
- 啟用流分析。
- 應用各種方法進行數據引入。
- 轉換 Big Data 並轉化為業務洞察。
Apache NiFi for Developers
7 時間:在這個由講師指導的 澳門 現場培訓中,參與者將學習基於流程的程式設計的基礎知識,因為他們使用 Apache NiFi 開發許多演示擴展、元件和處理器。
在培訓結束時,參與者將能夠:
- 瞭解 NiFi 的架構和數據流概念。
- 使用 NiFi 和第三方 API 開發擴展。
- 定製開發自己的Apache Nifi處理器。
- 從不同和不常見的檔格式和數據源中攝取和處理實時數據。
Python, Spark, and Hadoop for Big Data
21 時間:這種以講師為主導的澳門現場培訓(現場或遠端)針對希望使用和集成Spark,Hadoop和Python以處理,分析和轉換大型複雜數據集的開發人員。
在培訓結束時,參與者將能夠:
- 設置必要的環境以開始使用 Spark、Hadoop 和 Python 處理大數據。
- 瞭解 Spark 和 Hadoop 的功能、核心元件和架構。
- 瞭解如何集成 Spark、Hadoop 和 Python 進行大數據處理。
- 探索 Spark 生態系統中的工具(Spark MlLib、Spark Streaming、Kafka、Sqoop、Kafka 和 Flume)。
- 構建類似於 Netflix、YouTube、Amazon、Spotify 和 Google 的協作過濾推薦系統。
- 使用 Apache Mahout 擴展機器學習演算法。