本課程簡介了數(shù)據(jù)挖掘的基本概念,從數(shù)據(jù)挖掘基本知識剛開始,解讀數(shù)據(jù)挖掘建模專用工具和應(yīng)用Python語言進應(yīng)用專用工具;學習培訓數(shù)據(jù)挖掘的建模全過程,包含數(shù)據(jù)信息探索、數(shù)據(jù)預處理及發(fā)掘建模的常用算法與基本原理。
培訓目標:
掌握一個詳細的數(shù)據(jù)信息分析全過程,從數(shù)據(jù)收集到發(fā)掘,清理,分析和輸出的全部全過程。。
學習培訓Python數(shù)據(jù)信息分析方式和專用工具的應(yīng)用
學習培訓各種各樣數(shù)據(jù)信息分析的優(yōu)化算法和架構(gòu)。
學習培訓各種各樣建模方法和專用工具的應(yīng)用
根據(jù)實例學習培訓顧客價值分析等數(shù)據(jù)挖掘應(yīng)用領(lǐng)域
課程大綱:
Python基本和計算機科學基本
1.Python語言和開發(fā)工具介紹
2.計算機科學簡述
3.數(shù)據(jù)信息分析步驟和流程
4.數(shù)據(jù)獲取途徑
5.相關(guān)法律法規(guī)
6.Python語言和計算機科學
7.了解基礎(chǔ)的字符串函數(shù)
8.挑選適合的算法設(shè)計
9.根據(jù)列表推導式了解目錄
10.應(yīng)用電子計數(shù)器,應(yīng)用文檔和互聯(lián)網(wǎng)
11.應(yīng)用正則表達式完成模式匹配
12.globbing文件夾名稱與別的字符串數(shù)組
13.Pickling和Unpickling數(shù)據(jù)信息
14.文字數(shù)據(jù)信息的解決
15.數(shù)據(jù)庫查詢數(shù)據(jù)信息的解決
16.通用性涵數(shù)和各種聚合函數(shù)
Python數(shù)據(jù)信息分析基本
1.構(gòu)建Python軟件開發(fā)平臺
2.所需考慮到的難題
3.基本服務(wù)平臺的構(gòu)建
4.Python應(yīng)用新手入門
5.運作方法
6.基礎(chǔ)指令
7.算法設(shè)計
8.庫的導進與加上
9.Python數(shù)據(jù)信息分析專用工具
10. Numpy
11. Scipy
12. Matplotlib
13. Pandas
14. StatsModels
15. Scikit-Learn
16. Keras
17. Gensim
數(shù)據(jù)信息探索
1.網(wǎng)站安全性分析
2.缺少值分析
3.出現(xiàn)異常值分析
4.一致性分析
5.數(shù)據(jù)信息特點分析
6.遍布分析
7.比照分析
8.統(tǒng)計量分析
9.規(guī)律性分析
10.貢獻率分析
11.關(guān)聯(lián)性分析
12.Python關(guān)鍵數(shù)據(jù)信息探索涵數(shù)
13.基礎(chǔ)統(tǒng)計分析特征函數(shù)
14.擴展統(tǒng)計分析特征函數(shù)
15.統(tǒng)計分析做圖涵數(shù)
數(shù)據(jù)預處理
1.數(shù)據(jù)清洗60
2.缺少值解決60
3.出現(xiàn)異常值解決64
4.數(shù)據(jù)集成64
5.實體識別64
6.沉余屬性鑒別65
7.數(shù)據(jù)信息轉(zhuǎn)換65
8.簡易涵數(shù)轉(zhuǎn)換65
9.規(guī)范性66
10.持續(xù)屬性離散化68
11.屬性結(jié)構(gòu)70
12.小波分析71
13.數(shù)據(jù)信息通信規(guī)約74
14.屬性通信規(guī)約74
15.標值通信規(guī)約77
16.Python關(guān)鍵數(shù)據(jù)預處理涵數(shù)80
數(shù)據(jù)挖掘建模
1.歸類與預測分析83
2.完成全過程83
3.常見的歸類與預測算法84
4.重歸分析85
5.決策樹算法89
6.神經(jīng)網(wǎng)絡(luò)算法95
7.5.1.6 歸類與預測算法點評100
8.5.1.7 Python歸類預測模型特性103
9.5.2 聚類算法分析104
10.5.2.1 常見聚類算法分析優(yōu)化算法104
11.5.2.2 K-Means聚類算法105
12.5.2.3 聚類算法分析優(yōu)化算法點評111
13.5.2.4 Python關(guān)鍵聚類算法分析優(yōu)化算法111
14.5.3 關(guān)聯(lián)規(guī)則113
15.5.3.1 常見關(guān)聯(lián)規(guī)則優(yōu)化算法114
16.5.3.2 Apriori優(yōu)化算法114
17.5.4 時鐘頻率方式119
18.5.4.1 時間序列分析優(yōu)化算法120
19.5.4.2 時間序列分析的預備處理120
20.5.4.3 穩(wěn)定時間序列分析分析122
21.5.4.4 非穩(wěn)定時間序列分析分析124
22.5.4.5 Python關(guān)鍵時鐘頻率方式優(yōu)化算法132
23.5.5 離群點檢驗134
24.5.5.1 離群點檢驗方式135
25.5.5.2 根據(jù)實體模型的離群點檢驗方式136
26.5.5.3 根據(jù)聚類算法的離群點檢驗方式138
數(shù)據(jù)挖掘?qū)崙?zhàn)演練新項目一—顧客價值分析
1.情況與發(fā)掘總體目標164
2.7.2 分析方式與全過程166
3.7.2.1 數(shù)據(jù)抽取168
4.7.2.2 數(shù)據(jù)信息探索分析168
5.7.2.3 數(shù)據(jù)預處理169
6.7.2.4 實體模型搭建173
數(shù)據(jù)挖掘?qū)崙?zhàn)演練新項目二--電商*客戶個人行為分析及服務(wù)項目強烈*
1.情況與發(fā)掘總體目標238
2.12.2 分析方式與全過程240
3.12.2.1 數(shù)據(jù)抽取242
4.12.2.2 數(shù)據(jù)信息探索分析244
5.12.2.3 數(shù)據(jù)預處理251
6.12.2.4 實體模型搭建256
協(xié)議書分析
1.Web端協(xié)議書分析
2.網(wǎng)頁登錄POST分析
3.掩藏表格分析
4.數(shù)據(jù)加密數(shù)據(jù)信息分析
5.短信驗證碼難題
6.IP代理商
7.Cookie登陸
8.傳統(tǒng)式驗證碼識別
9.人力打碼軟件
10.拖動滑塊驗證
11.PC手機客戶端抓包軟件分析
12.HTTPAnalyzer介紹
13.網(wǎng)易云音樂PC端API實戰(zhàn)演練分析
14.App抓包軟件分析
15.Wireshark介紹
16.酷我聽書App端API實戰(zhàn)演練分析
17.API網(wǎng)絡(luò)爬蟲:抓取mp3資源信息內(nèi)容
Scrapy爬蟲框架
1.Scrapy網(wǎng)絡(luò)爬蟲構(gòu)架
2.安裝Scrapy
3.建立cnblogs新項目
4.建立網(wǎng)絡(luò)爬蟲控制模塊
5.界定Item
6.換頁作用
7.搭建ItemPipeline
8.內(nèi)嵌數(shù)據(jù)儲存
9.起動網(wǎng)絡(luò)爬蟲
10.加強網(wǎng)絡(luò)爬蟲
11.調(diào)節(jié)方式
12.出現(xiàn)異常
13.操縱運作情況
14.ItemLoader
15.Item與ItemLoader
16.鍵入與輸出CPU
17.ItemLoaderContext
18.要求與回應(yīng)
19.下載工具分布式數(shù)據(jù)庫
20.Spider分布式數(shù)據(jù)庫
21.拓展
22.提升反爬蟲