Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
課程簡介
每節課為2小時
第 1 天:第 1 節:業務概述,為什麼在 Govt.
- 美國國立衛生研究院、美國能源部的案例研究
- 政府機構的大數據適應率,以及他們如何圍繞大數據調整未來的運營Predictive Analytics
- 在國防部、國家安全局、美國國稅局、美國農業部等廣泛的應用領域。
- 將大數據與遺留數據對接
- 對預測分析中的使能技術有基本的瞭解
- 數據集成和儀錶板可視化
- 欺詐管理
- 業務規則/欺詐檢測生成
- 威脅檢測和分析
- 大數據實施的成本效益分析
第一天:第二節:Big Data-1介紹
- 大數據的主要特徵——數量、種類、速度和準確性。卷的 MPP 體系結構。
- 數據倉庫 – 靜態模式,緩慢演變的數據集
- MPP 資料庫,如 Greenplum、Exadata、Teradata、Netezza、Vertica 等。
- 基於Hadoop的解決方案 – 對數據集的結構沒有條件。
- 典型模式:HDFS、MapReduce(crunch)、從 HDFS 檢索
- 批處理 - 適用於分析/非互動式
- 卷 : CEP 流數據
- 典型選擇 – CEP 產品(例如 Infostreams、Apama、MarkLogic 等)
- 生產準備不足 – Storm/S4
- NoSQL 資料庫 – (列式和鍵值):最適合作為數據倉庫/資料庫的分析輔助工具
第 1 天:第 -3 節:Big Data-2 簡介
否SQL個解決方案
- KV Store - Keyspace、Flare、SchemaFree、RAMCloud、Oracle NoSQL 資料庫 (OnDB)
- KV 商店 - Dynamo、Voldemort、Dynomite、SubRecord、Mo8onDb、DovetailDB
- KV 儲存(分層)- GT.m、快取
- KV Store(已訂購)- TokyoTyrant、Lightcloud、NMDB、Luxio、MemcacheDB、Actord
- KV 快取 - Memcached、Repcached、Coherence、Infinispan、EXtremeScale、JBossCache、Velocity、Terracoqua
- 元組存儲 - Gigaspaces、Coord、Apache River
- 對象資料庫 - ZopeDB、DB40、Shoal
- 文檔存儲 - CouchDB、Cloudant、Couchbase、MongoDB、Jackrabbit、XML-Databases、ThruDB、CloudKit、Prsevere、Riak-Basho、Scalaris
- 廣泛的列式存儲 - BigTable、HBase、Apache Cassandra、Hypertable、KAI、OpenNeptune、Qbase、KDI
數據的種類:大數據中的Data Cleaning問題簡介
- RDBMS – 靜態結構/模式,不提倡敏捷、探索性環境。
- NoSQL – 半結構化的,足夠的結構來存儲數據,在存儲數據之前沒有精確的模式
- 數據清理問題
第一天:第四節:大數據介紹-3:Hadoop
- 何時選擇 Hadoop?
- 結構化 - 企業數據倉庫/資料庫可以存儲大量數據(有成本),但會強加結構(不利於主動探索)
- SEMI 結構化數據 – 傳統解決方案 (DW/DB) 難以實現
- 倉儲數據 = 即使在實施后也付出了巨大的努力和靜態
- 對於各種數據和數據量,在商用硬體上處理 – HADOOP
- 創建 Hadoop 集群所需的商品硬體
Map Reduce /HDFS 簡介
- MapReduce – 將計算分佈在多個伺服器上
- HDFS – 使資料在本地可用於計算過程(具有冗餘)
- 資料 – 可以是非結構化的/無模式的(與 RDBMS 不同)
- 開發人員有責任理解數據
- Programming MapReduce = 使用 Java(優點/缺點),手動將數據載入到 HDFS 中
第 2 天:第 1 節:Big Data 生態系統建設 Big Data ETL:Big Data 工具的世界——使用哪一個以及何時使用?
- Hadoop 與其他 NoSQL 解決方案
- 用於互動式、隨機存取資料
- Hadoop之上的Hbase(面向列的資料庫)
- 隨機存取資料,但施加了限制(最大 1 PB)
- 不適合臨時分析,適合日誌記錄、計數、時間序列
- Sqoop - 從資料庫導入到 Hive 或 HDFS(JDBC/ODBC 訪問)
- Flume – 將數據(例如.log數據)流式傳輸到HDFS
第2天:第二節:大數據Management系統
- 移動部件、計算節點啟動/失敗:ZooKeeper - 用於配置/協調/命名服務
- 複雜的流水線/工作流:Oozie – 管理工作流、依賴項、菊花鏈
- 部署、配置、群集管理、升級等(系統管理員):Ambari
- 在雲中:呼嘯
第 2 天:第 3 節:Business Intelligence 中的預測分析 -1:基礎技術和基於機器學習的 BI:
- 機器學習簡介
- 學習分類技術
- 貝葉斯預測準備訓練檔
- 支援向量機
- KNN p-Tree代數和垂直挖掘
- 神經網路
- Big Data 大變數問題 -隨機森林 (RF)
- Big Data 自動化問題 – 多模型集成射頻
- 通過Soft10-M實現自動化
- 文本分析工具-Treeminer
- 敏捷學習
- 基於智慧體的學習
- 分散式學習
- 用於預測分析的開源工具簡介:R、Rapidminer、Mahut
第2天:第4節預測分析生態系統2:Govt 中常見的預測分析問題。
- 洞察分析
- 可視化分析
- 結構化預測分析
- 非結構化預測分析
- 威脅/欺詐之星/供應商分析
- 推薦引擎
- 模式檢測
- 規則/場景發現 - 失敗、欺詐、優化
- 發現根本原因
- 情緒分析
- CRM分析
- 網路分析
- 文本分析
- 技術輔助審查
- 欺詐分析
- 即時分析
第3天:Sesion-1:即時和Scala在Hadoop上變得分析
- 為什麼常見的分析演算法在 Hadoop/HDFS 中失敗
- Apache Hama- 用於批量同步分散式計算
- Apache SPARK-用於即時分析的集群計算
- CMU Graphics Lab2 - 基於圖的分散式計算異步方法
- Treeminer 基於 KNN p-Algebra 的方法可降低硬體運營成本
第3天:第2節:電子發現和取證工具
- 基於 Big Data 的電子數據展示與舊數據 – 成本和性能的比較
- 預測編碼和技術輔助審查 (TAR)
- Tar 產品 (vMiner) 的現場演示,瞭解 TAR 如何工作以加快發現速度
- 通過 HDFS 更快地建立索引 – 資料速度
- NLP 或自然語言處理 – 各種技術和開源產品
- 外語電子取證 - 外語處理技術
第 3 天:第 3 節:大數據 BI for Cyber Security – 瞭解從快速數據收集到威脅識別的整個 360 度視圖
- 瞭解安全分析的基礎知識 - 攻擊面、安全配置錯誤、主機防禦
- 網路基礎設施/大型數據管道/用於即時分析的回應 ETL
- 規範性與預測性 – 從元數據中修復基於規則與自動發現威脅規則
第3天:第4節:Big Data在美國農業部:在農業中的應用
- 基於農業感測器的IoT(物聯網)簡介Big Data和控制
- 衛星成像簡介及其在農業中的應用
- 集成感測器和圖像數據,用於土壤肥力、栽培建議和預測
- 農業保險和 Big Data
- 作物損失預測
第 4 天:第 1 節:Govt-Fraud 分析中來自大數據的欺詐預防 BI:
- 欺詐分析的基本分類 - 基於規則的分析與預測分析
- 用於欺詐模式檢測的監督式與無監督式機器學習
- 供應商欺詐/項目多收費用
- Medicare 和 Medicaid 欺詐 - 用於索賠處理的欺詐檢測技術
- 差旅報銷欺詐
- 國稅局退稅欺詐
- 只要有數據,就會提供案例研究和現場演示。
第 4 天:第 2 節:Social Media 分析 - 情報收集和分析
- 用於提取社交媒體數據的大數據 ETL API
- 文字、圖像、元數據和視頻
- 來自社交媒體提要的情緒分析
- 社交媒體提要的上下文和非上下文過濾
- Social Media 用於整合各種社交媒體的儀錶板
- 社交媒體資料的自動分析
- 每個分析的現場演示將通過Treeminer工具提供。
第4天:第3節:Big Data 圖像處理和視頻饋送分析
- Big Data 中的圖像存儲技術 - 超過 PB 的數據的儲存解決方案
- LTFS 和 LTO
- GPFS-LTFS(大圖像資料分層儲存解決方案)
- 圖像分析的基礎
- 物體識別
- 圖像分割
- 運動跟蹤
- 3D圖像重建
第 4 天:第 4 節:Big Data NIH 中的應用:
- Bio-資訊學的新興領域
- 元基因組學和大數據挖掘問題
- 藥物基因組學、代謝組學和蛋白質組學的大數據預測分析
- 基因組學下游流程中的大數據
- 大數據預測分析在公共衛生中的應用
Big Data 用於快速存取各種資料和顯示的儀錶板:
- 現有應用平臺與大數據儀錶盤的整合
- 大數據管理
- 大數據儀錶板案例研究:Tableau 和 Pentaho
- 使用大數據應用程式在政府中推送基於位置的服務。
- 跟蹤系統和管理
第 5 天:第 1 節:如何證明 Big Data BI 在組織內實施的合理性:
- 定義 Big Data 實施的 ROI
- 節省分析師收集和準備數據時間的案例研究 - 提高生產力
- 通過節省許可資料庫成本獲得收入的案例研究
- 基於位置的服務的收入收益
- 從欺詐預防中節省成本
- 一種集成的電子錶格方法,用於計算 Big Data 實施的近似費用與收入收益/節省。
第 5 天:第 2 節:將遺留數據系統替換為 Big Data 系統的分步過程:
- 了解實用 Big Data 遷移路線圖
- 在構建 Big Data 實現之前需要哪些重要資訊
- 計算數據量、速度、多樣性和準確性的不同方法有哪些
- 如何估算數據增長
- 案例研究
第 5 天:第 4 節:審查 Big Data 供應商並審查他們的產品。問答環節:
- 埃森哲
- APTEAN(前身為 CDC Software)
- 思科系統
- 克勞德拉
- 山谷
- 電磁相容
- GoodData公司
- 番石榴
- 日立數據系統
- 霍頓工廠
- 惠普
- IBM公司
- 資訊網
- 英特爾
- Jaspersoft的
- Microsoft
- MongoDB(以前稱為 10Gen)
- MU西格瑪
- NetApp 的
- Opera 解決方案
- 神諭
- 貝爾塔霍
- 普拉特福拉
- Qliktech的
- 量子
- 機架空間
- 革命分析
- Salesforce的
- 樹液
- SAS學院
- 西森
- 軟體 AG/Terracotta
- Soft10 自動化
- Splunk的
- 平方
- Supermicro 超微
- Tableau 軟體
- Teradata的
- 大分析思維
- 潮汐系統
- 樹礦工
- VMware (EMC 的一部分)
最低要求
- 在其領域內瞭解政府業務運營和數據系統的基本知識
- 基本瞭解 SQL/Oracle 或關係資料庫
- 基本瞭解 Statistics(電子表格級別)
35 時間:
客戶評論 (1)
培訓師使課程與組織的要求保持一致的能力,而不僅僅是為了提供課程而提供課程。
Masilonyane - Revenue Services Lesotho
Course - Big Data Business Intelligence for Govt. Agencies
機器翻譯