最近在看數據分析方面的資料,里面提到了“數據清洗”,數據清洗是在數據統(tǒng)計工作完成之后進行的,我更愿意理解為數據校核,但它和校核又不同,數據校核僅僅是對數據的真實性、有效性進行校驗,但數據清洗需要對不符合要求的數據進行過濾,過濾的對象主要是殘缺的數據,錯誤的數據和重復的數據三大類。一般來說,數據清洗的過程都是由計算機來完成的。但其模型和算法又是通過人工設定的。
那這些又跟我們的工作有什么關系呢?我們知道,調度中心匯總了各種各樣的數據,我們要對這些數據進行分析,就要考慮由于設備、網絡、管網等種種原因,會造成某些數據殘缺、失效、重復,所以我們也要進行數據清洗的工作。過濾掉那些不符合要求的數據。對于殘缺的,重復的數據,我們可以利用EXCEL進行篩選,可對于錯誤的數據,就需要人工依靠經驗去辨別,往往一個分析結果出來,明顯異常,我們就會考慮某個數據是不是錯了,這個時候,再回到原始數據中去查找。顯而易見,這種方式是費時費力的。為了避免這種低效的工作方法,我們可以創(chuàng)建一個篩選模型,設定每個數據的標準范圍,當超出這個范圍時,讓該數據突出顯示。在硬件條件允許時,我們甚至利用不同的算法模型進行交叉比對。讓異常數據無所遁形。
數據分析對我們每個人的工作都有幫助,數據分析的應用場景十分廣泛,也存在數據分析師這個職業(yè),但有人預言,數據分析師這個職業(yè)是遲早要消失的,因為它是一項技能,應該會被越來越的人掌握,正如PPT一樣,很多人都會做PPT,所以也不會存在“PPT制作師”這個職業(yè)了。
(調度中心 邱石磊)