Spark for Developers培訓
目的:
本課程將介紹Apache Spark 。學生將學習Spark如何適應Big Data生態系統,以及如何使用Spark進行數據分析。該課程涵蓋Spark shell,用於交互式數據分析,Spark內部,Spark API,Spark SQL ,Spark流,機器學習和graphX。
聽眾:
開發人員/數據分析師
課程簡介
-
Scala 入門
Scala 簡介
實驗室:瞭解 Scala
Spark 基礎知識
背景和歷史
Spark 和 Hadoop
Spark 概念和體系結構
Spark 生態系統(core、spark sql、mlib、streaming)
實驗室:安裝和運行Spark
初探Spark
在本地模式下運行 Spark
Spark Web 用戶介面
火花殼
分析資料集 – 第 1 部分
檢查 RDD
實驗室:Spark shell 探索
RDD的
RDD 概念
分區
RDD 操作/轉換
RDD 類型
鍵值對 RDD
RDD上的MapReduce
緩存和持久性
實驗室:創建和檢查RDD; 緩存 RDD
Spark API 程式設計
Spark API / RDD API 簡介
向 Spark 提交第一個程式
調試/日誌記錄
配置屬性
實驗室:在Spark API中程式設計,提交作業
火花 SQL
SQL Spark 中的支援
數據幀
定義表和導入數據集
使用 SQL 查詢數據框
儲存格式 : JSON / Parquet
實驗室:創建和查詢數據框;評估數據格式
MLlib 中
MLlib 簡介
MLlib 演算法
實驗室:編寫 MLib 應用程式
圖形X
GraphX 庫概述
GraphX 介面
實驗室:使用Spark處理圖形數據
Spark 流式處理
流式處理概述
評估流媒體平臺
流式處理操作
滑動視窗操作
實驗室:編寫spark流式處理應用程式
Spark 和 Hadoop
Hadoop 簡介 (HDFS / YARN)
Hadoop + Spark 架構
在 Hadoop YARN 上運行 Spark
使用 Spark 處理 HDFS 檔
Spark 性能和調優
廣播變數
蓄電池
記憶體管理和緩存
Spark 操作
在生產環境中部署Spark
範例部署範本
配置
監測
故障排除
最低要求
先決條件
熟悉 Java / Scala / Python 語言(我們的 Scala 和 Python 實驗室) 對Linux開發環境有基本的瞭解(命令行導航/使用VI或nano編輯檔案)
需要幫助選擇合適的課程嗎?
Spark for Developers培訓 - Enquiry
Spark for Developers - 咨詢詢問
咨詢詢問
客戶評論 (6)
Doing similar exercises different ways really help understanding what each component (Hadoop/Spark, standalone/cluster) can do on its own and together. It gave me ideas on how I should test my application on my local machine when I develop vs when it is deployed on a cluster.
Thomas Carcaud - IT Frankfurt GmbH
Course - Spark for Developers
Ajay was very friendly, helpful and also knowledgable about the topic he was discussing.
Biniam Guulay - ICE International Copyright Enterprise Germany GmbH
Course - Spark for Developers
Ernesto did a great job explaining the high level concepts of using Spark and its various modules.
Michael Nemerouf
Course - Spark for Developers
The trainer made the class interesting and entertaining which helps quite a bit with all day training.
Ryan Speelman
Course - Spark for Developers
We know a lot more about the whole environment.
John Kidd
Course - Spark for Developers
Richard is very calm and methodical, with an analytic insight - exactly the qualities needed to present this sort of course.
Kieran Mac Kenna
Course - Spark for Developers
相關課程
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 時間:本課程面向希望在其應用程式中理解和實施人工智慧的開發人員和數據科學家。 特別關注數據分析、分散式人工智慧和自然語言處理。
Big Data Analytics with Google Colab and Apache Spark
14 時間:這項由 講師指導的現場培訓澳門(在線或現場)面向希望使用 Google Colab 和 Apache Spark 進行大數據處理和分析的中級數據科學家和工程師。
在本次培訓結束時,參與者將能夠:
- 使用 Google Colab 和 Spark 設置大數據環境。
- 使用 Apache Spark 高效處理和分析大型數據集。
- 在協作環境中可視化大數據。
- 將 Apache Spark 與基於雲端的工具整合。
Big Data Analytics in Health
21 時間:大數據分析涉及檢查大量不同數據集的過程,以便發現相關性,隱藏模式和其他有用的見解。
健康產業擁有大量複雜的異構醫學和臨床數據。對健康數據應用大數據分析在獲得改善醫療保健服務的見解方面具有巨大潛力。然而,這些數據集的巨大性給分析和臨床環境的實際應用帶來了巨大挑戰。
在這個以講師為主導的現場培訓(遠程)中,參與者將學習如何在健康狀況下進行大數據分析,因為他們將逐步進行一系列動手實踐練習。
在培訓結束時,參與者將能夠:
- 安裝和配置大數據分析工具,如Hadoop MapReduce和Spark
- 了解醫療數據的特徵
- 應用大數據技術處理醫療數據
- 在健康應用的背景下研究大數據系統和算法
聽眾
- 開發商
- 數據科學家
課程格式
- 部分講座,部分討論,練習和繁重的實踐練習。
注意
- 要申請本課程的定制培訓,請聯繫我們安排。
Introduction to Graph Computing
28 時間:在這個由 澳門 的講師指導式現場培訓中,參與者將瞭解用於處理圖形數據的技術產品和實施方法。目的是識別現實世界的物件、它們的特徵和關係,然後對這些關係進行建模,並使用 Graph Computing(也稱為圖形分析)方法將它們作為數據處理。我們從廣泛的概述開始,然後逐步完成一系列案例研究、動手練習和即時部署,然後縮小具體工具的範圍。
在本次培訓結束時,參與者將能夠:
- 瞭解如何持久保存和遍歷圖形數據。
- 為給定任務選擇最佳框架(從圖形資料庫到批處理框架)。
- 實現 Hadoop、Spark GraphX 和 Pregel 以跨多台機器並行執行圖計算。
- 從圖形、流程和遍歷的角度查看真實的大數據問題。
Hadoop and Spark for Administrators
35 時間:這種由講師指導的澳門現場培訓(現場或遠端)針對的是希望學習如何在組織內設置,部署和管理Hadoop集群的系統管理員。
在培訓結束時,參與者將能夠:
- 安裝和配置 Apache Hadoop。
- 瞭解 Hadoop 生態系統中的四個主要元件:HDFS、MapReduce、YARN 和 Hadoop Common。
- 使用 Hadoop 分散式檔案系統 (HDFS) 將集群擴展到數百或數千個節點。
- 將 HDFS 設定為本地 Spark 部署的記憶體引擎。
- 設置 Spark 以存取替代儲存解決方案,例如 Amazon S3 和 NoSQL 資料庫系統,例如 Redis、Elasticsearch、Couchbase、Aerospike 等。
- 執行管理任務,例如配置、管理、監控和保護 Apache Hadoop 集群。
Hortonworks Data Platform (HDP) for Administrators
21 時間:這個由講師指導的現場培訓在 澳門(在線或現場)介紹 Hortonworks Data Platform (HDP) 並引導參與者完成Spark + Hadoop 解決方案的部署。
在本次培訓結束時,參與者將能夠:
- 使用 Hortonworks 可靠地大規模運行 Hadoop。
- 將 Hadoop 的安全、治理和運營功能與Spark的敏捷分析工作流統一起來。
- 使用 Hortonworks 調查、驗證、認證和支援 Spark 專案中的每個元件。
- 處理不同類型的數據,包括結構化、非結構化、動態和靜態數據。
A Practical Introduction to Stream Processing
21 時間:在這個以講師為主導的澳門現場培訓(現場或遠端)中,參與者將學習如何設置不同的Stream Processing框架並將其與現有的大數據存儲系統以及相關的軟體應用程式和微服務集成。
在培訓結束時,參與者將能夠:
- 安裝和配置不同的 Stream Processing 框架,例如 Spark Streaming 和 Kafka Streaming。
- 瞭解並選擇最適合工作的框架。
- 以逐條記錄的方式連續、併發地處理數據。
- 將 Stream Processing 解決方案與現有資料庫、數據倉庫、數據湖等集成。
- 將最合適的流處理庫與企業應用程式和微服務集成 。
SMACK Stack for Data Science
14 時間:這種以講師為主導的澳門現場現場培訓針對的是希望使用SMACK堆棧為大數據解決方案構建數據處理平臺的數據科學家。
在培訓結束時,參與者將能夠:
- 實施用於處理大數據的數據管道體系結構。
- 使用 Apache Mesos 和 Docker 開發集群基礎架構。
- 使用 Spark 和 Scala 分析數據。
- 使用 Apache Cassandra 管理非結構化數據。
Apache Spark Fundamentals
21 時間:這種以講師為主導的澳門現場培訓(現場或遠端)針對的是希望建立和部署Apache Spark系統以處理大量數據的工程師。
在培訓結束時,參與者將能夠:
- 安裝和配置 Apache Spark。
- 快速處理和分析非常大的數據集。
- 瞭解Apache Spark和Hadoop MapReduce之間的區別,以及何時使用哪個。
- 將 Apache Spark 與其他機器學習工具整合。
Administration of Apache Spark
35 時間:這種由講師指導的現場培訓澳門(遠端或遠端)面向希望部署、維護和優化Spark集群的初級到中級系統管理員。
在培訓結束時,參與者將能夠:
- 在各種環境中安裝和配置 Apache Spark。
- 管理群集資源並監視Spark應用程式。
- 優化Spark集群性能。
- 實施安全措施並確保高可用性。
- 調試和排查常見的Spark問題。
Apache Spark in the Cloud
21 時間:Apache Spark的學習曲線在開始時逐漸增加,需要付出很多努力來獲得第一次回歸。本課程旨在突破第一個艱難的部分。參加本課程後,參與者將了解Apache Spark的基礎知識,他們將明確區分RDD和DataFrame,他們將學習Python和Scala API,他們將理解執行者和任務等。同樣遵循最佳實踐,本課程重點關注雲部署,Databricks和AWS。學生還將了解AWS EMR與AWS Glue之間的差異,AWS Glue是AWS最新的Spark服務之一。
聽眾:
數據工程師, DevOps ,數據科學家
Scaling Data Pipelines with Spark NLP
14 時間:這種由 講師指導的 澳門 現場培訓(在線或現場)面向希望使用 Spark NLP(基於 Apache Spark 構建)來開發、實施和擴展自然語言文本處理模型和管道的數據科學家和開發人員。
在本次培訓結束時,參與者將能夠:
- 設置必要的開發環境以開始使用 Spark NLP 構建 NLP 管道。
- 瞭解使用 Spark NLP 的功能、架構和優勢。
- 使用 Spark NLP 中提供的預訓練模型來實現文本處理。
- 瞭解如何為生產級項目構建、訓練和擴展 Spark NLP 模型。
- 對實際使用案例(臨床數據、客戶行為洞察等)應用分類、推理和情緒分析。
Python and Spark for Big Data (PySpark)
21 時間:在這個由講師指導的 澳門 現場培訓中,參與者將學習如何在動手練習中同時使用 Python 和 Spark 來分析大數據。
在培訓結束時,參與者將能夠:
- 瞭解如何將Spark與 Python 結合使用來分析 Big Data。
- 進行模仿真實世界案例的練習。
- 使用 PySpark 使用不同的工具和技術進行大數據分析。
Python, Spark, and Hadoop for Big Data
21 時間:這種以講師為主導的澳門現場培訓(現場或遠端)針對希望使用和集成Spark,Hadoop和Python以處理,分析和轉換大型複雜數據集的開發人員。
在培訓結束時,參與者將能夠:
- 設置必要的環境以開始使用 Spark、Hadoop 和 Python 處理大數據。
- 瞭解 Spark 和 Hadoop 的功能、核心元件和架構。
- 瞭解如何集成 Spark、Hadoop 和 Python 進行大數據處理。
- 探索 Spark 生態系統中的工具(Spark MlLib、Spark Streaming、Kafka、Sqoop、Kafka 和 Flume)。
- 構建類似於 Netflix、YouTube、Amazon、Spotify 和 Google 的協作過濾推薦系統。
- 使用 Apache Mahout 擴展機器學習演算法。
Apache Spark MLlib
35 時間:MLlib是Spark的機器學習(ML)庫。其目標是使實用的機器學習可擴展且簡單。它由常見的學習算法和實用程序組成,包括分類,回歸,聚類,協同過濾,降維,以及低級優化原語和更高級別的管道API。
它分為兩個包:
spark.mllib包含在RDD之上構建的原始API。
spark.ml提供了構建在DataFrame之上的更高級API,用於構建ML管道。
聽眾
本課程面向希望利用Apache Spark內置機器庫的工程師和開發人員