大數據建模與分析挖掘應用培訓與咨詢
培訓目標
1.本課程讓學員充分掌握大數據平臺技術架構、大數據分析的基本理論、機器學習的常用算法、國內外主流的大數據分析與BI商業智能分析解決方案、以及大數據分析在搜索引擎、廣告服務推薦、電商數據分析、金融客戶分析方面的應用案例。
2.本課程強調主流的大數據分析挖掘算法技術的應用和分析平臺的實施,讓學員掌握主流的基于大數據Hadoop和Spark、R的大數據分析平臺架構和實際應用,并用結合實際的生產系統案例進行教學,掌握基于Hadoop大數據平臺的數據挖掘和數據倉庫分布式系統平臺應用,以及商業和開源的數據分析產品加上Hadoop平臺形成大數據分析平臺的應用剖析。
3.讓學員掌握常見的機器學習算法,深入講解業界成熟的大數據分析挖掘與BI平臺的實踐應用,并以客戶分析系統、日志分析和電商推薦系統為案例,串聯常用的數據挖掘技術進行應用教學。
培訓內容安排如下:
|
內容提要
|
授課詳細內容
|
|
業界主流的數據倉庫工具和大數據分析挖掘工具
|
1. 業界主流的基于Hadoop和Spark的大數據分析挖掘項目解決方案
2. 業界數據倉庫與數據分析挖掘平臺軟件工具
3. Hadoop數據倉庫工具Hive
4. Spark實時數據倉庫工具SparkSQL
5. Hadoop數據分析挖掘工具Mahout
6. Spark機器學習與數據分析挖掘工具MLlib
7. 大數據分析挖掘項目的實施步驟
|
|
大數據分析挖掘項目的數據集成操作訓練
|
1. 日志數據解析和導入導出到數據倉庫的操作訓練
2. 從原始搜索數據集中抽取、集成數據,整理后形成規范的數據倉庫
3. 數據分析挖掘模塊從大型的集中式數據倉庫中訪問數據,一個數據倉庫面向一個主題,構建兩個數據倉庫
4. 同一個數據倉庫中的事實表數據,可以給多個不同類型的分析挖掘任務調用
5. 去除噪聲
|
|
基于Hadoop的大型數據倉庫管理平臺—HIVE數據倉庫集群的多維分析建模應用實踐
|
6. 基于Hadoop的大型分布式數據倉庫在行業中的數據倉庫應用案例
7. Hive數據倉庫集群的平臺體系結構、核心技術剖析
8. Hive Server的工作原理、機制與應用
9. Hive數據倉庫集群的安裝部署與配置優化
10. Hive應用開發技巧
11. Hive SQL剖析與應用實踐
12. Hive數據倉庫表與表分區、表操作、數據導入導出、客戶端操作技巧
13. Hive數據倉庫報表設計
14. 將原始的日志數據集,經過整理后,加載至Hadoop + Hive數據倉庫集群中,用于共享訪問
|
|
Spark大數據分析挖掘平臺實踐操作訓練
|
15. Spark大數據分析挖掘平臺的部署配置
16. Spark數據分析庫MLlib的開發部署
17. Spark數據分析挖掘示例操作,從Hive表中讀取數據并在分布式內存中運行
|
|
聚類分析建模與挖掘算法的實現原理和技術應用
|
18. 聚類分析建模與算法原理及其在Spark MLlib中的實現與應用,包括:
a) Canopy聚類(canopy clustering)
b) K均值算法(K-means clustering)
c) 模糊K均值(Fuzzy K-means clustering)
d) EM聚類,即期望最大化聚類(Expectation Maximization)
e) 以上算法在Spark MLib中的實現原理和實際場景中的應用案例。
19. Spark聚類分析算法程序示例
|
|
分類分析建模與挖掘算法的實現原理和技術應用
|
20. 分類分析建模與算法原理及其在Spark MLlib中的實現與應用, 包括:
f) Spark決策樹算法實現
g) 邏輯回歸算法(logistics regression)
h) 貝葉斯算法(Bayesian與Cbeyes)
i) 支持向量機(Support vector machine)
j) 以上算法在Spark MLlib中的實現原理和實際場景中的應用案例。
21. Spark客戶資料分析與給用戶貼標簽的程序示例
22. Spark實現給商品貼標簽的程序示例
23. Spark實現用戶行為的自動標簽和深度技術
|
|
關聯分析建模與挖掘算法的實現原理和技術應用
|
24. 預測、推薦分析建模與算法原理及其在Spark MLlib中的實現與應用,包括:
k) Spark頻繁模式挖掘算法(parallel FP Growth Algorithm)應用
l) Spark關聯規則挖掘(Apriori)算法及其應用
m) 以上算法在Spark MLib中的實現原理和實際場景中的應用案例。
25. Spark關聯分析程序示例
|
|
推薦分析挖掘模型與算法技術應用
|
26. 推薦算法原理及其在Spark MLlib中的實現與應用,包括:
a) Spark協同過濾算法程序示例
b) Item-based協同過濾與推薦
c) User-based協同過濾與推薦
d) 交叉銷售推薦模型及其實現
|
|
回歸分析模型與預測算法
|
27. 利用線性回歸(多元回歸)實現訪問量預測
28. 利用非線性回歸預測成交量和訪問量的關系
29. 基于R+Spark實現回歸分析模型及其應用操作
30. Spark回歸程序實現異常點檢測的程序示例
|
|
圖關系建模與分析挖掘及其鏈接分析和社交分析操作
|
31. 利用Spark GraphX實現網頁鏈接分析,計算網頁重要性排名
32. 實現信息傳播的社交關系傳遞分析,互聯網用戶的行為關系分析任務的操作訓練
|
|
神經網絡與深度學習算法模型及其應用實踐
|
33. 神經網絡算法Neural Network的實現方法和挖掘模型應用
34. 基于人工神經網絡的深度學習的訓練過程
a) 傳統神經網絡的訓練方法
b) Deep Learning的訓練方法
35. 深度學習的常用模型和方法
a) CNN(Convolutional Neural Network)卷積神經網絡
b) RNN(Recurrent Neural Network)循環神經網絡模型
c) Restricted Boltzmann Machine(RBM)限制波爾茲曼機
36. 基于Spark的深度學習算法模型庫的應用程序示例
|
|
項目實踐
|
37. 日志分析系統與日志挖掘項目實踐
a) Hadoop,Spark,ELK技術構建日志數據倉庫
b) 互聯網微博日志分析系統項目
38. 推薦系統項目實踐
a) 數據分析與個性化推薦關聯分析項目
|
|
培訓總結
|
39. 項目方案的課堂討論,討論實際業務中的分析需求,剖析各個環節的難點、痛點、瓶頸,啟發出解決之道;完成講師布置的項目案例,鞏固學過的大數據分析挖掘處理平臺技術知識以及應用技能
|
如果您想學習本課程,請
預約報名
如果沒找到合適的課程或有特殊培訓需求,請
訂制培訓
除培訓外,同時提供相關技術咨詢與技術支持服務,有需求請發需求表到郵箱soft@w908.cn,或致電4007991916
技術服務需求表點擊在線申請
服務特點:
海量專家資源,精準匹配相關行業,相關項目專家,針對實際需求,顧問式咨詢,互動式授課,案例教學,小班授課,實際項目演示,快捷高效,省時省力省錢。
專家力量:
中國科學院軟件研究所,計算研究所高級研究人員
oracle,微軟,vmware,MSC,Ansys,candence,Altium,達索等大型公司高級工程師,項目經理,技術支持專家
中科信軟培訓中心,資深專家或講師
大多名牌大學,碩士以上學歷,相關技術專業,理論素養豐富
多年實際項目經歷,大型項目實戰案例,熱情,樂于技術分享
針對客戶實際需求,案例教學,互動式溝通,學有所獲