■ 鄭宇庭
在解決企業重大決策問題之前,往往必須蒐集相關資訊以供分析。在日常營運過程中執行作業會產生大量資料,在決策過程中有效運用這些資料,可以發揮很大的加值效益。而資料採礦(Data Mining)便能探勘資訊所隱含的真實意義,自動挖掘資料間微妙的關聯性或發覺某種決策模型,協助決策者建立預測及決策模型。也就是在龐大的資料庫中找出有價值的隱藏事件,並且加以分析。事實上,並不只是一種技術或一套軟體,而是結合數種專業技術的應用。
為了對資料採礦有更進一步了解,茲對於資料採礦的過去、現在與未來分做闡述。
資料採礦的過去
資料採礦的開山始祖Usama Fayyad,出生於突尼西亞,1987年就讀密西根大學時,參加奇異的暑期工作,從數千萬筆維修紀錄中找出規則,協助維修人員迅速發現問題。Fayyad發現的類型辨識演算法,不但成了他1991年論文的主題,也帶動資料採礦的發展。
離開密西根大學後,Fayyad加入美國航太總署噴射推進實驗室,他的演算法在太空探測、地質研究等工作上均展現了非常驚人的潛力,最後連美國軍方也開始應用此一技術來增強雷達解讀與辨識資料的能力。資料採礦最早被應用在天文學,藉由機器學習、類型辨識及統計等技術,在短短四小時內所發現的行星,勝過20多位天文學家四年的研究成果。
資料採礦的現在
隨著資訊科技的進步以及電子化時代的來臨,現今企業所面對的是截然不同的競爭環境,不僅競爭的強度與速度倍增,市場交易也使得各企業所需儲存與處理的資料量愈來愈龐大。在這種情況下,企業的焦點已從以往的資料整理與蒐集,轉向有效利用資料庫獲取資訊。
為適應外界的競爭,快速有效地從資料庫中取得有用的資訊,反映市場或消費者的需求,成為各企業的焦點。但是對於數量大、涉及面寬的資料,靠以往人工匯報表是無法完成的。因此,一種智慧化、能綜合應用種統計方法來分析龐大資料的軟體就應運而生,這就是目前國際上最熱門的統計話題:資料採礦技術的市場需求和它的技術支援背景。
資料採礦的技術可將原始資料轉換為可執行的企業指標,諸如如何了解客戶的全貌,進而預測未來的行為,以創造更高的客戶價值;建立客戶流失預測模型以防止客戶流動、建立風險及信用評估模型來降低企業經營風險、區隔挖掘新商機等等企業經營決策指標。也唯有將資訊轉化為企業利潤的提升,才能真正顯出資料倉儲及客戶關系管理等系統的投資效益。
資料採礦的未來
網際網路盛行前,握有最多資訊的便是贏家,邁入資訊爆炸的網路世代後,原先善於掌握資訊的贏家卻紛紛淹沒在資訊洪流中,於是蓋茲在「數位神經系統」一書中大力疾呼,「企業獲取及利用資訊的方式,將決定企業的競爭優勢」。
對於現代企業而言,資料可以被視為重要的資產,但必須把這些龐大的資料轉換為有用的資訊,才能產生真正的價值。研究結果顯示,企業所處理的資料每五年就會呈倍數成長。大部分企業並沒有資料不足的問題,過多的資料重複與不一致,才是最大的問題,這使得企業決策單位無法有效利用現存資訊,甚至使決策行為產生混亂與誤用。因此市場需要的是能夠將資料轉變成可靠與可用資訊的系統。
預見未來將會有更多的商業人士,而不只是分析人員投入資料採礦發掘的過程,將來使用工具來篩檢與分析資料採礦結果的情形,會愈來愈普遍。
有很多的事情,「做得好,不如做得早」。舉個例子來說,英文字母的A、E、I、O、U,應該是使用頻率最高的字母,理當放在鍵盤的右手邊,然而因為最早設計者忽視這個原理,導致日後所有鍵盤上最常用的這些字母都散落在各個角落。
資料採礦這個領域雖不算新,但近幾年才開始受到注目,有興趣的人應該把握機會儘早搶灘,因為做得早要比做得好來得重要多了。
(作者是政大統計系教授)
沒有留言:
張貼留言