當(dāng)數(shù)據(jù)量巨大時(shí),如何使數(shù)據(jù)更直觀、更有效地輸出有用的信息,需要借助數(shù)據(jù)可視化技術(shù)。經(jīng)過(guò)實(shí)戰(zhàn)項(xiàng)目全面掌握Matplotlib實(shí)現(xiàn)簡(jiǎn)單直觀的數(shù)據(jù)可視化,Echarts實(shí)現(xiàn)更加豐富的交互需求,在此基礎(chǔ)上認(rèn)識(shí)更多的可視化數(shù)據(jù)庫(kù)并靈活使用。
Python的中間部分:數(shù)據(jù)獲取和收集。
因特網(wǎng)上有大量的數(shù)據(jù)信息,可以通過(guò)爬蟲(chóng)技術(shù)*有效地獲取這些數(shù)據(jù)。爬行框架Scrapy是一種目前非常流行的爬行框架。Scrapy使用Python作為開(kāi)發(fā)語(yǔ)言,并提供了非常豐富的擴(kuò)展功能,掌握Scrapy爬蟲(chóng)框架的使用,就能有效地獲得因特網(wǎng)數(shù)據(jù)。
Python高級(jí):清理和挖掘數(shù)據(jù)。
這一階段主要完成對(duì)數(shù)據(jù)處理的學(xué)習(xí),使用Python來(lái)實(shí)現(xiàn)有關(guān)數(shù)據(jù)清理和存儲(chǔ)的技能。正式應(yīng)用到AI核心算法之前,需要對(duì)數(shù)據(jù)進(jìn)行遷移、清洗、分片等轉(zhuǎn)換處理,使用Python的numpy、pandas模塊,可以有效地處理源數(shù)據(jù)中的空值、噪音、不一致數(shù)據(jù)、重復(fù)數(shù)據(jù)等。資料來(lái)源、存儲(chǔ)環(huán)境多種多樣,分別來(lái)自JSON,CSV文件,MySQL,Redis,MongoDB數(shù)據(jù)庫(kù),HDFS文件系統(tǒng)等?梢允褂肞ython的json,csv,pymysql,redis,pymongo,pyhdfs模塊來(lái)*地解決數(shù)據(jù)存儲(chǔ)問(wèn)題。