Big Data Architect培訓
第1天 - 提供重要的Big Data主題領域的高級概述。該模塊分為一系列部分,每個部分都附有實踐練習。
第2天 - 探討一系列與Big Data環境相關的分析實踐和工具的主題。它沒有涉及實現或編程細節,而是將概念保持在概念層面,重點放在使參與者能夠全面了解Big Data解決方案提供的常見分析功能和特性的主題上。
第3天 - 概述與Big Data解決方案平台架構相關的基本和必要主題領域。它涵蓋了開發Big Data解決方案平台所需的Big Data機制以及用於組裝數據處理平台的架構選項。還提供了常見方案,以便基本了解Big Data解決方案平台的使用方式。
第4天 - 通過探索與Big Data解決方案平台架構相關的高級主題,在第3天構建。特別是,介紹和討論了構成Big Data解決方案平台的不同架構層,包括數據源,數據入口,數據存儲,數據處理和安全性。
第5天 - 涵蓋了一系列練習和問題,旨在測試代表們應用第3天和第4天所涵蓋主題知識的能力。
課程簡介
第一天 - 基礎 Big Data
- 瞭解 Big Data
- 基本術語和概念
- Big Data Business & 技術驅動
- 與 Big Data 相關的傳統企業技術
- Big Data 環境中的數據特徵
- Big Data 環境中的數據集類型
- 基本面分析和分析
- Machine Learning 類型
- Business Intelligence & Big Data
- Data Visualization & Big Data
- Big Data 領養和規劃考慮
第二天 - 大 Data Analysis & 技術概念
- 大型 Data Analysis 生命週期(從業務案例評估到數據分析和可視化)
- A/B 測試、相關性
- 回歸、熱圖
- 時間序列分析
- 網路分析
- 空間 Data Analysis
- 分類, 聚類
- 異常值檢測
- 過濾(包括協作過濾和基於內容的過濾)
- 自然語言處理
- Sentiment Analysis,文本分析
- 檔案系統和分散式文件系統,NoSQL
- 分散式和並行數據處理,
- 處理工作負載、集群
- Cloud Computing & Big Data
- 基礎 Big Data 技術機制
第三天 - 基本型 大 Data Architecture
- 新的Big Data機制,包括......
- 安全引擎
- 集群管理員
- Data Governance Manager
- 可視化引擎
- Productivity 傳送門
- 資料處理架構模型,包括 ...
- Shared-Everything 和 Shared-Nothing 架構
- 企業 Data Warehouse 和大型 Data Integration 方法,包括......
- 系列
- 平行
- Big Data 設備
- 數據虛擬化
- 建築 Big Data 環境,包括......
- ETL
- 分析引擎
- 應用程式擴充
- Cloud Computing & Big Data 建築考慮,包括...
- 如何使用雲端交付和部署模型來託管和處理 Big Data 解決方案
第 4 天 - 進階大 Data Architecture
- Big Data 解決方案架構層包括 ...
- 數據源、
- 數據入口和存儲,
- 事件 Stream Processing 和複雜事件處理,
- 出口
- 可視化與利用,
- 大 Data Architecture 和安全,
- 維護和 Go版本
- Big Data 解決方案 Design Patterns,包括......
- 與數據入口相關的模式,
- 資料整理 /
- 資料儲存 /
- 數據處理
- Data Analysis,
- 資料出口 /
- Data Visualization
- Big Data 建築復合圖案
第 5 天 - 大 Data Architecture 實驗室
-
包含一組詳細的練習,要求代表解決各種相互關聯的問題,目的是促進對如何應用不同的數據架構技術、機制和技術來解決 Big Data 環境中的問題的全面理解。
需要幫助選擇合適的課程嗎?
Big Data Architect培訓 - Enquiry
Big Data Architect - 咨詢詢問
咨詢詢問
客戶評論 (1)
I generally liked the fernando's knowledge.
Valentin de Dianous - Informatique ProContact INC.
Course - Big Data Architect
相關課程
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 時間:本課程面向希望在其應用程式中理解和實施人工智慧的開發人員和數據科學家。 特別關注數據分析、分散式人工智慧和自然語言處理。
Unified Batch and Stream Processing with Apache Beam
14 時間:Apache Beam 是一個開源的統一程式設計模型,用於定義和執行並行數據處理管道。它的強大之處在於它能夠同時運行批處理和流式管道,執行由 Beam 支援的分散式處理後端之一執行:Apache Apex、Apache Flink、Apache Spark 和 Google Cloud Dataflow。Apache Beam 對於 ETL(提取、轉換和載入)任務非常有用,例如在不同的存儲介質和數據源之間移動數據、將數據轉換為更理想的格式以及將數據載入到新系統。
在這個由講師指導的現場培訓(現場或遠端)中,參與者將學習如何在 Java 或 Python 應用程式中實施 Apache Beam SDK,該應用程式定義了一個數據處理管道,用於將大數據集分解成更小的塊,以進行獨立的並行處理。
在本次培訓結束時,參與者將能夠:
- 安裝和配置 Apache Beam。
- 使用單個程式設計模型從其 Java 或 Python 應用程式執行批處理和流處理。
- 跨多個環境執行管道。
課程形式
- 部分講座、部分討論、練習和大量動手實踐
注意
- 本課程將在未來提供 Scala。請聯繫我們安排。
Data Vault: Building a Scalable Data Warehouse
28 時間:在這個由 澳門 講師指導的現場培訓中,參與者將學習如何構建 Data Vault。
在本次培訓結束時,參與者將能夠:
- 瞭解 Data Vault 2.0 背後的架構和設計概念,以及它與 Big Data、NoSQL 和 AI 的交互。
- 使用數據保險庫技術對數據倉庫中的歷史數據進行審計、跟蹤和檢查。
- 開發一致且可重複的 ETL(提取、轉換、載入)流程。
- 構建和部署高度可擴展且可重複的倉庫。
Data Virtualization with Denodo Platform
14 時間:這種由講師指導的 澳門 現場培訓(在線或現場)面向希望使用 Denodo 平臺通過數據虛擬化優化和加速數據管理的架構師、開發人員和管理員。
在本次培訓結束時,參與者將能夠:
- 安裝並配置 Denodo 平臺。
- 瞭解 Denodo 平臺的功能和架構。
- 了解數據虛擬化的關鍵概念、優勢和使用案例。
- 瞭解如何配置和管理 Denodo Platform 伺服器。
- 實施數據安全、使用者訪問和服務身份驗證。
- 應用工具和技術進行運營監控和性能優化。
Flink for Scalable Stream and Batch Data Processing
28 時間:這個由 澳門 的講師指導式現場培訓(在線或現場)介紹了分散式流和批處理數據處理背後的原理和方法,並引導參與者在 Apache Flink 中創建實時數據流應用程式。
在本次培訓結束時,參與者將能夠:
- 設置用於開發數據分析應用程式的環境。
- 瞭解 Apache Flink 的 圖形處理庫 (Gelly) 的工作原理。
- 打包、執行和監控基於 Flink 的容錯數據流應用程式。
- 管理各種工作負載。
- 執行高級分析。
- 設置多節點 Flink 集群。
- 衡量和優化性能。
- 將 Flink 與不同的 Big Data 系統集成。
- 將 Flink 功能與其他大數據處理框架的功能進行比較。
Introduction to Graph Computing
28 時間:在這個由 澳門 的講師指導式現場培訓中,參與者將瞭解用於處理圖形數據的技術產品和實施方法。目的是識別現實世界的物件、它們的特徵和關係,然後對這些關係進行建模,並使用 Graph Computing(也稱為圖形分析)方法將它們作為數據處理。我們從廣泛的概述開始,然後逐步完成一系列案例研究、動手練習和即時部署,然後縮小具體工具的範圍。
在本次培訓結束時,參與者將能夠:
- 瞭解如何持久保存和遍歷圖形數據。
- 為給定任務選擇最佳框架(從圖形資料庫到批處理框架)。
- 實現 Hadoop、Spark GraphX 和 Pregel 以跨多台機器並行執行圖計算。
- 從圖形、流程和遍歷的角度查看真實的大數據問題。
Hortonworks Data Platform (HDP) for Administrators
21 時間:這個由講師指導的現場培訓在 澳門(在線或現場)介紹 Hortonworks Data Platform (HDP) 並引導參與者完成Spark + Hadoop 解決方案的部署。
在本次培訓結束時,參與者將能夠:
- 使用 Hortonworks 可靠地大規模運行 Hadoop。
- 將 Hadoop 的安全、治理和運營功能與Spark的敏捷分析工作流統一起來。
- 使用 Hortonworks 調查、驗證、認證和支援 Spark 專案中的每個元件。
- 處理不同類型的數據,包括結構化、非結構化、動態和靜態數據。
Data Analysis with Hive/HiveQL
7 時間:本課程介紹如何從Hive提取數據的人員使用Hive SQL語言(AKA: Hive HQL, Hive SQL , Hive QL)
Impala for Business Intelligence
21 時間:Cloudera Impala 是適用於 Apache Hadoop 集群的開源大規模並行處理 (MPP) SQL 查詢引擎。
Impala 使用戶能夠 對存儲在 Hadoop 分散式文件系統 和 Apache Hbase 中的數據發出低延遲 SQL 查詢,而無需移動或轉換數據。
觀眾
本課程面向 分析師和數據科學家,他們通過 Business Intelligence 或 SQL 工具對存儲在 Hadoop 中的數據進行分析。
完成本課程后,學員將能夠
- 使用 Impala 從 Hadoop 集群中提取有意義的資訊。
- 編寫特定的程序以促進 Impala SQL 方言的 Business 智慧。
- 故障排除 Impala。
Confluent KSQL
7 時間:這個由 講師指導的 澳門 現場培訓(在線或現場)面向希望在不編寫代碼的情況下實現 Apache Kafka 流處理的開發人員。
在本次培訓結束時,參與者將能夠:
- 安裝和配置 Confluent KSQL。
- 僅使用 SQL 命令(無 Java 或 Python 編碼)設置流處理管道。
- 完全在 SQL 中執行數據過濾、轉換、聚合、連接、視窗化和會話化。
- 為流式 ETL 和即時分析設計和部署互動式連續查詢。
Apache NiFi for Administrators
21 時間:在這個以講師為主導的澳門現場或遠端培訓中,參與者將學習如何在實時實驗室環境中部署和管理Apache NiFi。
在培訓結束時,參與者將能夠:
- 安裝並配置 Apachi NiFi。
- 從不同的分散式數據源(包括資料庫和大數據湖)中獲取、轉換和管理數據。
- 自動化數據流。
- 啟用流分析。
- 應用各種方法進行數據引入。
- 轉換 Big Data 並轉化為業務洞察。
Apache NiFi for Developers
7 時間:在這個由講師指導的 澳門 現場培訓中,參與者將學習基於流程的程式設計的基礎知識,因為他們使用 Apache NiFi 開發許多演示擴展、元件和處理器。
在培訓結束時,參與者將能夠:
- 瞭解 NiFi 的架構和數據流概念。
- 使用 NiFi 和第三方 API 開發擴展。
- 定製開發自己的Apache Nifi處理器。
- 從不同和不常見的檔格式和數據源中攝取和處理實時數據。
Python and Spark for Big Data (PySpark)
21 時間:在這個由講師指導的 澳門 現場培訓中,參與者將學習如何在動手練習中同時使用 Python 和 Spark 來分析大數據。
在培訓結束時,參與者將能夠:
- 瞭解如何將Spark與 Python 結合使用來分析 Big Data。
- 進行模仿真實世界案例的練習。
- 使用 PySpark 使用不同的工具和技術進行大數據分析。
Spark Streaming with Python and Kafka
7 時間:這種以講師為主導的澳門現場培訓(現場或遠端)針對希望使用Spark Streaming功能處理和分析即時數據的數據工程師,數據科學家和程式師。
在本次培訓結束時,參與者將能夠使用 Spark Streaming 處理實時數據流,以便在資料庫、文件系統和即時儀錶板中使用。
Apache Spark MLlib
35 時間:MLlib是Spark的機器學習(ML)庫。其目標是使實用的機器學習可擴展且簡單。它由常見的學習算法和實用程序組成,包括分類,回歸,聚類,協同過濾,降維,以及低級優化原語和更高級別的管道API。
它分為兩個包:
spark.mllib包含在RDD之上構建的原始API。
spark.ml提供了構建在DataFrame之上的更高級API,用於構建ML管道。
聽眾
本課程面向希望利用Apache Spark內置機器庫的工程師和開發人員