SMACK Stack for Data Science培訓
SMACK 是数据平台软件的集合,即 Apache Spark, Apache Mesos, Apache Akka, Apache Cassandra, 和 Apache Kafka。 使用 SMACK 插槽,用户可以创建和规模数据处理平台。
这项由导师领导的直播培训(在线或在线)是针对数据科学家,他们希望使用SMACK stack来构建大数据解决方案的数据处理平台。
在本研讨会结束后,参与者将能够:
- 实施大数据处理的数据管道架构。
- 建立一个集群基础设施与(6)和(1)。
- 用 Spark 和 Scala 分析数据。
- 使用 Apache 管理未结构化数据(0)。
课程格式
- 互动讲座和讨论。
- 很多练习和练习。
- 在现场实验室环境中进行手动实施。
课程定制选项
- 要申请此课程的定制培训,请联系我们安排。
課程簡介
介紹
SMACK Stack 概述
- 什麼是 Apache Spark?Apache Spark 功能
- 什麼是 Apache Mesos?Apache Mesos 特性
- 什麼是 Apache Akka?Apache Akka 功能
- 什麼是 Apache Cassandra?Apache Cassandra 特性
- 什麼是 Apache Kafka?Apache Kafka 特性
Scala 語言
- Scala 語法和結構
- Scala 控制流程
準備開發環境
- 安裝和配置 SMACK 堆疊
- 安裝和設定 Docker
阿帕奇 Akka
- 使用執行元件
阿帕奇 Cassandra
- 創建用於讀取操作的資料庫
- 使用備份和恢復
連接
- 創建流
- 構建 Akka 應用程式
- 使用 Cassandra 儲存數據
- 查看連接器
Apache Kafka
- 使用集群
- 創建、發佈和使用消息
Apache Mesos
- 分配資源
- 運行集群
- 使用 Apache Aurora 和 Docker
- 運行服務和作業
- 在 Mesos 上部署 Spark、Cassandra 和 Kafka
Apache Spark
- 管理數據流
- 使用 RDD 和數據幀
- 執行數據分析
故障排除
- 處理服務故障和錯誤
總結和結論
最低要求
- 瞭解數據處理系統
觀眾
- 數據科學家
需要幫助選擇合適的課程嗎?
SMACK Stack for Data Science培訓 - Enquiry
SMACK Stack for Data Science - 咨詢詢問
咨詢詢問
客戶評論 (1)
very interactive...
Richard Langford
Course - SMACK Stack for Data Science
相關課程
Introduction to Data Science and AI using Python
35 時間:這是為期5天的Data Science和AI入門。
本課程隨附使用Python示例和練習
Apache Airflow for Data Science: Automating Machine Learning Pipelines
21 時間:這種由講師指導的 澳門 現場培訓(在線或現場)面向希望自動化和管理機器學習工作流程的中級參與者,包括使用 Apache Airflow 進行模型訓練、驗證和部署。
在本次培訓結束時,參與者將能夠:
- 設置 Apache Airflow 用於機器學習工作流編排。
- 自動執行數據預處理、模型訓練和驗證任務。
- 將 Airflow 與機器學習框架和工具整合。
- 使用自動化管道部署機器學習模型。
- 監控和優化生產中的機器學習工作流程。
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 時間:本課程面向希望在其應用程式中理解和實施人工智慧的開發人員和數據科學家。 特別關注數據分析、分散式人工智慧和自然語言處理。
Anaconda Ecosystem for Data Scientists
14 時間:這種由 講師指導的 澳門 現場培訓(在線或現場)面向希望使用 Anaconda 生態系統在單一平臺中捕獲、管理和部署軟體包和數據分析工作流 的數據科學家。
在本次培訓結束時,參與者將能夠:
- 安裝和配置 Anaconda 個元件和庫。
- 瞭解 Anaconda 的核心概念、功能和優勢。
- 使用 Anaconda Navigator 管理包、環境和頻道。
- 將 Conda、R 和 Python 包用於數據科學和機器學習。
- 瞭解管理多個數據環境的一些實際使用案例和技術。
AWS Cloud9 for Data Science
28 時間:這種以講師指導的現場培訓<本地>(在線或現場)面向希望使用 AWS Cloud9 簡化數據科學工作流程的中級數據科學家和分析師。
在本次培訓結束時,參與者將能夠:
- 在 AWS Cloud9 中設置數據科學環境。
- 在 Cloud9 中使用 Python、R 和 Jupyter Notebook 執行數據分析。
- 將 AWS Cloud9 與 S3、RDS 和 Redshift 等 AWS 數據服務整合。
- 利用 AWS Cloud9 進行機器學習模型的開發和部署。
- 優化基於雲的工作流程以進行數據分析和處理。
Big Data Business Intelligence for Telecom and Communication Service Providers
35 時間:概述
服务提供商(CSP)面临压力,以降低成本,最大限度地提高用户平均收入(ARPU),同时确保优秀的客户体验,但数据量仍在增长。 到2016年,全球移动数据流量将以78%的合并年增长率(CAGR)增长,每月达到10.8 exabytes。
与此同时,CSP正在产生大量的数据,包括呼叫细节记录(CDR),网络数据和客户数据。 充分利用这些数据的公司获得了竞争优势。 根据The Economist Intelligence Unit最近的一项调查,使用数据导向决策的公司享有5至6%的生产力增长。 然而,53%的公司只利用其有价值的数据的一半,其中四分之一的受访者指出,大量有用的数据正在失去。 数据量如此高,以至于手动分析是不可能的,而大多数遗产软件系统无法保持,导致有价值的数据被忽略或忽略。
使用高速可扩展的大数据软件,CSP 可以在更短的时间内挖掘所有数据,以便在更短的时间内做出更好的决策。 不同 Big Data 产品和技术提供一个终端软件平台,以收集,准备,分析和展示来自大数据的洞察力。 应用领域包括网络性能监测、欺诈检测、客户端检测和信用风险分析。 Big Data 分析产品规模处理数据的特拉比特,但这些工具的实施需要新的类型的基于云的数据库系统,如(3)或大规模平行计算处理器(KPU等)。
该课程工作在 Big Data BI for Telco 覆盖了所有新兴的领域,在这些领域,CSP 正在投资,以提高生产力,并打开新的业务收入流。 该课程将提供一个完整的360学位的视图 Big Data BI在Telco,以便决策者和管理人员可以有一个非常广泛和全面的概述的可能性 Big Data BI在Telco的生产力和收入收益。
课程目标
该课程的主要目标是引入4个领域的新(0)商业智能技术(9)(Marketing/销售、网络运营、金融运营和客户关系(4))。 学生将被介绍为如下:
- 引入 Big Data - 什么是 4Vs (容量,速度,多样性和可靠性) 在 Big Data - 从 Telco 视角的发行,提取和管理
- 如何分析与遗产数据分析不同
- 内部正当化 Big Data -Telco 视角
- 引入 Hadoop 生态系统 - 熟悉所有 Hadoop 工具,如 Hive, 猪, SPARC –什么时候和如何使用它们来解决 Big Data 问题
- 如何 Big Data 被提取到分析分析工具 - 如何 Business Analysis’s 可以通过集成 Hadoop 板块方法来减少数据收集和分析的疼痛点
- 基础介绍 Insight 分析、视觉分析和预测分析为 Telco
- 客户评估分析和如何评估分析可以在Telco案例研究中减少客户评估和客户不满
- 网络故障和服务故障分析来自网络 meta 数据和 IPDR
- 财务分析 - 欺诈、欺诈和从销售和运营数据中获得的ROI估计
- 客户收购问题 - 目标营销,客户分区和从销售数据中交叉销售
- 介绍和概述所有 Big Data 分析产品以及它们适合在 Telco 分析空间的位置
- 结论 - 如何采取一步一步的方法来引入 Big Data Business Intelligence 在您的组织
目标观众
- 网络运营,财务经理,CRM经理和Telco CIO办公室的顶级IT经理。
- Business 分析师在 Telco
- CFO办公室经理/分析师
- 运营经理
- QA管理员
Introduction to Google Colab for Data Science
14 時間:這種以講師為主導的澳門現場培訓(現場或遠端)面向希望使用[0 * ogle Colab學習數據科學基礎知識的初級數據科學家和IT專業人員。
在培訓結束時,參與者將能夠:
- 設置和導航 Google Colab.
- 編寫並執行基本 Python 代碼。
- 匯入和處理數據集。
- 使用 Python 個庫創建可視化效果。
A Practical Introduction to Data Science
35 時間:完成此培訓的參與者將獲得對 Data Science 及其相關技術、方法和工具的實際、真實理解。
參與者將有機會通過動手練習將這些知識付諸實踐。小組互動和教師反饋構成了課程的重要組成部分。
本課程首先介紹了 Data Science 的基本概念,然後進入了 Data Science 中使用的工具和方法。
觀眾
- 開發人員
- 技術分析師
- IT 顧問
課程形式
- 部分講座、部分討論、練習和大量動手實踐
注意
- 要申請本課程的定製培訓,請聯繫我們進行安排。
Data Science Programme
245 時間:当今世界信息和数据的爆炸式增长是无与伦比的,我们创新和突破可能性的能力比以往任何时候都快。数据科学家的角色是当今整个行业最需要的技能之一。
我们提供的不仅仅是通过理论学习;我们提供实用的、适销对路的技能,弥合学术界与工业界需求之间的差距。
这个为期 7 周的课程 可以根据您的特定行业要求进行定制,请联系我们了解更多信息或访问 Nobleprog Institute 网站
观众:
该课程面向研究生以及任何具有所需必备技能的人 ,这些技能将通过评估和面试确定。
交货:
该课程的交付将采用讲师指导的课堂和讲师 指导的在线课程;通常,第 1 周是“课堂主导”,第 2 周 - 第 6 周是“虚拟课堂”,第 7 周是“课堂主导”。
Introduction to Graph Computing
28 時間:在這個由 澳門 的講師指導式現場培訓中,參與者將瞭解用於處理圖形數據的技術產品和實施方法。目的是識別現實世界的物件、它們的特徵和關係,然後對這些關係進行建模,並使用 Graph Computing(也稱為圖形分析)方法將它們作為數據處理。我們從廣泛的概述開始,然後逐步完成一系列案例研究、動手練習和即時部署,然後縮小具體工具的範圍。
在本次培訓結束時,參與者將能夠:
- 瞭解如何持久保存和遍歷圖形數據。
- 為給定任務選擇最佳框架(從圖形資料庫到批處理框架)。
- 實現 Hadoop、Spark GraphX 和 Pregel 以跨多台機器並行執行圖計算。
- 從圖形、流程和遍歷的角度查看真實的大數據問題。
Kaggle
14 時間:這個由 講師指導的 澳門 現場培訓(在線或現場)面向希望在 Data Science 中使用 Kaggle 學習和建立職業生涯的數據科學家和開發人員。
在本次培訓結束時,參與者將能夠:
- 了解數據科學和機器學習。
- 探索數據分析。
- 瞭解 Kaggle 及其工作原理。
Accelerating Python Pandas Workflows with Modin
14 時間:這種由 講師指導的 澳門 現場現場培訓(在線或現場)面向希望使用 Modin 構建和實施並行計算的數據科學家和開發人員 Pandas 以加快數據分析速度。
在本次培訓結束時,參與者將能夠:
- 設置必要的環境,開始使用 Modin 大規模開發 Pandas 工作流。
- 瞭解 Modin 的功能、架構和優勢。
- 瞭解 Modin、Dask 和 Ray 之間的區別。
- 使用 Modin 更快地執行 Pandas 操作。
- 實現整個 Pandas API 和函數。
GPU Data Science with NVIDIA RAPIDS
14 時間:這種以講師為主導的澳門現場培訓(現場或遠端)針對希望使用RAPIDS構建GPU加速數據管道,工作流和可視化的數據科學家和開發人員,應用機器學習演算法,如XGBoost,cuML等。
在培訓結束時,參與者將能夠:
- 設置必要的開發環境以使用 NVIDIA RAPIDS 構建數據模型。
- 瞭解 RAPIDS 的特性、元件和優勢。
- 利用 GPU 加速端到端數據和分析管道。
- 使用 cuDF 和 Apache Arrow 實現 GPU 加速的數據準備和 ETL。
- 瞭解如何使用 XGBoost 和 cuML 演算法執行機器學習任務。
- 使用 cuXfilter 和 cuGraph 構建數據可視化並執行圖形分析。
Python and Spark for Big Data (PySpark)
21 時間:在這個由講師指導的 澳門 現場培訓中,參與者將學習如何在動手練習中同時使用 Python 和 Spark 來分析大數據。
在培訓結束時,參與者將能夠:
- 瞭解如何將Spark與 Python 結合使用來分析 Big Data。
- 進行模仿真實世界案例的練習。
- 使用 PySpark 使用不同的工具和技術進行大數據分析。
Apache Spark MLlib
35 時間:MLlib是Spark的機器學習(ML)庫。其目標是使實用的機器學習可擴展且簡單。它由常見的學習算法和實用程序組成,包括分類,回歸,聚類,協同過濾,降維,以及低級優化原語和更高級別的管道API。
它分為兩個包:
spark.mllib包含在RDD之上構建的原始API。
spark.ml提供了構建在DataFrame之上的更高級API,用於構建ML管道。
聽眾
本課程面向希望利用Apache Spark內置機器庫的工程師和開發人員