Advanced Apache Iceberg培訓
Apache Iceberg 是一種用於大規模數據集的開源表格式,它將 SQL 表的可靠性和簡單性引入大數據。它旨在解決在數據湖中管理大數據的挑戰,這些挑戰通常涉及處理複雜的架構、大檔和不同的數據源。
這種由講師指導的現場培訓(在線或現場)面向希望優化數據處理工作流程、確保數據完整性並實施能夠處理現代大數據應用程式複雜性的強大數據湖倉一體解決方案的高級數據專業人員。
在培訓結束時,參與者將能夠:
- 深入瞭解 Iceberg 的架構,包括元數據管理和文件佈局。
- 配置 Iceberg 以在各種環境中實現最佳性能,並將其與多個數據處理引擎集成。
- 管理大規模 Iceberg 表,執行複雜的架構更改,並處理分區演變。
- 掌握優化大型數據集查詢性能和數據掃描效率的技術。
- 實施機制以確保數據一致性、管理事務保證和處理分散式環境中的故障。
課程形式
- 互動講座和討論。
- 大量的練習和練習。
- 在現場實驗室環境中動手實施。
課程自定義選項
- 如需申請本課程的定製培訓,請聯繫我們進行安排。
課程簡介
Apache Iceberg 簡介
- Apache Iceberg 概述
- 基本概念回顧
深入瞭解冰山架構
- 深入分析Iceberg的表格格式
- 詳細的體系結構概述,包括元數據和文件佈局
- 架構和分區演變的內部結構
高級安裝和配置
- 配置 Iceberg 以在不同環境中實現最佳性能
- 與各種數據處理引擎集成
- 高級設置:安全、加密和訪問控制
- 在分散式環境中設置 Iceberg
高級運維
- 管理大型 Iceberg 表
- 實施和管理複雜的架構更改
- 處理分區演變和隱藏分區
- 具有架構和分區更改的高級 CRUD 操作
查詢優化技術
- 減少查詢延遲的技術
- 分區修剪和檔修剪
- 元數據快取和優化策略
- 實現和測試查詢優化技術
大型數據集的性能調優
- 優化大規模數據集的性能
- 使用 Iceberg 的內置功能進行性能調優
- 實際場景中性能調優的案例研究
- 優化大規模數據集的性能
高級數據遷移和集成
- 從其他系統遷移複雜的數據結構
- 將 Iceberg 與實時數據流集成
- 遷移複雜數據集並集成實時數據流
可靠性和一致性
- 確保分散式環境中的數據一致性和完整性
- 實施和管理交易擔保
- 處理故障和恢復機制
- 實現可靠性和一致性功能
高級功能和定製
- 自訂目錄實現
- 使用自定義功能擴展 Iceberg
- 實現自定義目錄並擴展 Iceberg 功能
數據 Governance and compliance
- 實施數據治理策略
- 遵守數據法規
- 管理審計跟蹤和數據沿襲
- 實現治理和合規性功能
摘要和後續步驟
最低要求
- 熟悉核心概念、基本操作、冰山表管理
觀眾
- 數據工程師
- 數據架構師
- 數據分析師
- 軟體開發人員
需要幫助選擇合適的課程嗎?
Advanced Apache Iceberg培訓 - Enquiry
Advanced Apache Iceberg - 咨詢詢問
咨詢詢問
客戶評論 (3)
培訓師對概念有很好的把握
Josheel - Verizon Connect
Course - Amazon Redshift
機器翻譯
analytical functions
khusboo dassani - Tech Northwest Skillnet
Course - SQL Advanced
how the trainor shows his knowledge in the subject he's teachign
john ernesto ii fernandez - Philippine AXA Life Insurance Corporation
Course - Data Vault: Building a Scalable Data Warehouse
相關課程
SQL Advanced
14 時間:This instructor-led, live training in 澳門 (online or onsite) is aimed at intermediate-level database administrators, developers, and analysts who wish to master advanced SQL functionalities for complex data operations and database management.
By the end of this training, participants will be able to:
- Perform advanced querying techniques using unions, subqueries, and complex joins.
- Add, update, and delete data, tables, views, and indexes with precision.
- Ensure data integrity through transactions and manipulate database structures.
- Create and manage databases efficiently for robust data storage and retrieval.
Amazon Redshift
21 時間:Amazon Redshift 是 AWS 中基於雲的 PB 級數據倉庫服務。
在這個由講師指導的現場培訓中,參與者將學習 Amazon Redshift 的基礎知識。
在本次培訓結束時,參與者將能夠:
- 安裝與設定Amazon Redshift
- 使用 Amazon Redshift 載入、配置、部署、查詢和可視化數據
觀眾
- 開發人員
- IT 專業人員
課程形式
- 部分講座、部分討論、練習和大量動手實踐
注意
- 要申請本課程的定製培訓,請聯繫我們進行安排。
Apache Iceberg Fundamentals
14 時間:這種以講師為主導的 <>loc(在線或遠端)實時培訓面向希望獲得有效利用 Apache Iceberg 管理大規模數據集、確保數據完整性和優化數據處理工作流程所需的知識和技能的初級數據專業人員。
在培訓結束時,參與者將能夠:
- 全面瞭解 Apache Iceberg 的架構、功能和優勢。
- 瞭解表格式、分區、架構演變和時間旅行功能。
- 在不同的環境中安裝和配置 Apache Iceberg。
- 創建、管理和操作 Iceberg 表。
- 瞭解將數據從其他表格式遷移到 Iceberg 的過程。
Big Data Consulting
21 時間:這種以講師為主導的 澳門(在線或現場)現場培訓面向希望提高數據架構、治理、雲計算和大數據技術技能的中級 IT 專業人員,以有效管理和分析大型數據集以在組織內進行數據遷移。
在培訓結束時,參與者將能夠:
- 瞭解各種數據架構的基本概念和元件。
- 全面了解數據治理原則及其在監管環境中的重要性。
- 實施和管理數據治理框架,例如 Dama 和 Togaf。
- 利用雲端平臺實現高效的數據存儲、處理和管理。
Azure Data Lake Storage Gen2
14 時間:這種由講師指導的 澳門(遠端或遠端)實時培訓面向希望瞭解如何使用 Azure Data Lake Storage Gen2 實現有效數據分析解決方案的中級數據工程師。
在培訓結束時,參與者將能夠:
- 瞭解 Azure Data Lake Storage Gen2 的體系結構和主要功能。
- 優化數據存儲和訪問,提高成本和性能。
- 將 Azure Data Lake Storage Gen2 與其他 Azure 服務集成,以進行分析和數據處理。
- 使用 Azure Data Lake Storage Gen2 API 開發解決方案。
- 解決常見問題並優化存儲策略。
Data Vault: Building a Scalable Data Warehouse
28 時間:在這個由 澳門 講師指導的現場培訓中,參與者將學習如何構建 Data Vault。
在本次培訓結束時,參與者將能夠:
- 瞭解 Data Vault 2.0 背後的架構和設計概念,以及它與 Big Data、NoSQL 和 AI 的交互。
- 使用數據保險庫技術對數據倉庫中的歷史數據進行審計、跟蹤和檢查。
- 開發一致且可重複的 ETL(提取、轉換、載入)流程。
- 構建和部署高度可擴展且可重複的倉庫。
Druid: Build a Fast, Real-Time Data Analysis System
21 時間:Apache Druid是一個用Java編寫的開源,面向列的分佈式數據存儲。它旨在快速獲取大量事件數據,並對該數據執行低延遲OLAP查詢。德魯伊通常用於商業智能應用程序,以分析大量的實時和歷史數據。它還非常適合為最終用戶提供快速,交互式分析儀表板。德魯伊被阿里巴巴,Airbnb, Cisco ,eBay,Netflix,Paypal和雅虎等公司使用。
在這個由講師指導的實時課程中,我們探討了數據倉庫解決方案的一些局限性,並討論了德魯伊如何能夠補充這些技術以形成靈活且可擴展的流分析堆棧。我們通過許多示例,為參與者提供在實驗室環境中實施和測試基於德魯伊的解決方案的機會。
課程格式
- 部分講座,部分討論,繁重的實踐練習,偶爾的測試來衡量理解
Greenplum Database
14 時間:這種以講師為主導的澳門現場培訓(現場或遠端)針對的是希望設置Greenplum Database商業智慧和數據倉庫解決方案的管理員。
在培訓結束時,參與者將能夠:
- 使用Greenplum滿足加工需求。
- 執行ETL操作進行數據處理。
- 利用現有的查詢處理基礎結構。
IBM Datastage For Administrators and Developers
35 時間:這種以講師為主導的澳門現場培訓(現場或遠端)面向希望從管理和開發角度全面瞭解IBM DataStage的中級IT專業人員,使他們能夠在各自的工作場所有效地管理和利用此工具。
在培訓結束時,參與者將能夠:
- 瞭解 DataStage 的核心概念。
- 瞭解如何有效地安裝、配置和管理 DataStage 環境。
- 連接到各種數據源,並從資料庫、平面檔和外部源高效提取數據。
- 實施有效的數據載入技術。
Apache Kylin: From Classic OLAP to Real-Time Data Warehouse
14 時間:這是由講師指導的澳門(線上或線下)培訓,針對希望利用Apache Kylin構建即時數據倉庫並對大規模數據集進行多維分析的中級大數據專業人員。
在培訓結束時,參與者將能夠:
- 設置和配置Apache Kylin以處理即時流數據源。
- 設計和構建用於批處理和流數據的OLAP立方體。
- 使用Kylin的SQL界面執行具有亞秒級延遲的複雜查詢。
- 將Kylin與BI工具集成,以實現互動式數據可視化。
- 在Kylin中有效優化性能並管理資源。
Oracle SQL for development and database management
35 時間:這種講師指導的現場培訓在 澳門(在線或現場)進行,面向希望提高 Oracle SQL 開發和管理技能的中級資料庫專業人員。
在本次培訓結束時,參與者將能夠:
- 構建和優化複雜的 SQL 查詢。
- 使用 Oracle SQL 工具高效管理資料庫。
- 在資料庫開發和維護中應用最佳實踐。
- 在 Oracle 環境中管理使用者訪問和資料庫安全性。