資料不沉海 爬蟲程式賦予資料新生命

在「雲端」科技之後,近年「大數據(Big Data)」發展成一個震天價響的口號,各行各業對於投入大數據應用的研究開發是躍躍欲試,不願意放棄任何一條可能開挖到金礦的山路,即便只是一條溪徑,各產業也願意捲起衣褲放手一搏,只為了發現有黃金比喻的數據資料。
1Web Crawler圖片來源:bigsonata.com
資料的蒐集是利用在網路上爬行並截取所需要的資料,這是條漫漫長路。過去的資料結構較簡易、呈現的方式大致上以HTML或是Server-side Scripts為主,因此過去在進行資料蒐集作業時,是較為容易的;現今多利用Flash、AJAX等工具進行網站的建置,資料的結構也愈趨複雜,相對的也提升了蒐集資料的困難度。
為進行蒐集資料,首先必須先因應不同的網站而寫出不同的爬文程式,而任何的程式語言都可以作為爬文程式撰寫的工具。元智大學大數據中心的社群媒體資料分析研究團隊í表示,善用程式語言或是Open Source的函式(Library)可以提升程式撰寫的效率。然而,在進行程式語言的挑選時,爬行難易度以及爬行結果剖析準確度就為工具選擇的首要考量因素;再者,即考量程式語言的函式庫、套件(Package)等的多元性;最後,個人的喜好當然也是工具選擇的重要考量之一。
社群媒體資料分析研究團隊表示,目前團隊使用的工具之一是Python,而選擇Python的原因是因為Python提供較為便利的程式撰寫環境,並且提供專門針對支援爬蟲程式的套件;以上,相對於其它的程式語言而言,Python最大的優點即是實用性高、彈性大,面對不同的網站可以迅速的進行反應。一體兩面地,有優點固然有其缺點,Python在處理速度方面,相對於JAVA而言,是略遜一籌的;但該團隊表示,以當前的研究分析目的而言,這並不影響團隊在進行資料蒐集、處理的速度。現在,我們生活於一個資訊大爆炸的時代,搜尋引擎龍頭Google或其他營利或非營利團體皆會使用爬蟲程式進行網站資料的蒐集;而社群媒體分析研究團隊表示,在使用爬蟲程式進行爬蟲時,必須要特別注意的即是「禮貌」,使用者必須注意爬行頻率是否適當,如果爬行頻率過高,除了可能造成網站的困擾,爬蟲程式亦可能遭到網站封鎖。因此,爬行頻率也可謂為該領域的網路禮儀。
       圖2:促銷活動討論度分析。         圖3:品牌關鍵字強度分析。
圖4:品牌形象分析
現在許多使用者在購買產品前會先從網路上蒐集資料、藉由網民在各評論網站或社群網站上所分享的資訊或評價來決定購買意願;現下社群網站當道,無一企業不重視網路社群口碑的影響力,並著手展開創新的商業模式;然而,為更精確的掌握客戶的想法和需求,企業藉由海量資料進行大數據分析,無形的口碑也神奇的被量化了。目前社群媒體分析研究團隊是與國內某知名汽車廠商合作,主要已經完成Mobile01Facebook以及PPT等網站的爬蟲程式,再利用潛藏語意分析(latent semantic analysis)與獨立成份分析(independent component analysis)的自動偵測技術,為繁雜的評論進行情感標籤。
就此合作案例而言,該團隊藉由資料的蒐集、探勘並進行大數據分析以得出品牌的強、弱、危、機;而汽車廠商亦藉由該團隊所提出的分析和消費者產生了連結、互動,也因此更了解社群世界對各汽車品牌的觀感,並運用分析結果制訂出更有效的策略方案,在這波新興的社群經濟下,勢必會為企業以及消費者締造出雙贏的未來。
社群媒體資料分析研究團隊的研究特色在於透過發展資料分析核心技術,減少人力的負擔。主要成果í如下:
避免傳統文件情感分類需要人工準備大量訓練資料的人力耗損
提出使用Semi-supervised learningDA-SC技術來完成,僅需準備少量(14) domain-independent opinion lexicons,便可達到與傳統做法的分類效能 (請參閱圖5)

圖5:A domain-adapted sentiment classification approach
自動找出「情感標籤」的技術
傳統單獨使用Latent Semantic Analysis僅能找出latent features,單獨使用Independent Component Analysis僅能找出independent features。本研究發展出結合兩者的作法(請參閱圖6),不但能找出latent features,也能降低feature overlap。此外,本研究也發展出透過visualization選取features的工具(請參閱圖7)
圖6:A hybrid approach of LSA and ICA sentiment classification approach。
圖7:Visualized Feature Selection Tool。
新的Social Network Analysis metric來偵測網拍詐欺用戶
傳統用於偵測網拍詐欺用戶的Social Network Analysis metrick-corecenter weight常無法同時達到好的precision recall。本研究透過分析與詐欺用戶交易之用戶的特性,提出neighbor diversity來改善precision recall

綜觀而言,大數據和社群是密不可分,目前行動上網的普及率以及社群網站的熱門程度是以正向趨勢在延燒著;同時,拜社群網站所賜,民眾也愈能快速、便利的將自己的意見表達在網路上,無形的豐富了「數據」,
圖8:社群媒體傾向分析。
Big Data」也就因應而生。社群媒體分析研究團隊表示,Google Trends利用分析「網站流量」、「關鍵字」對使用者的「搜尋」來預測人類未來的活動趨勢,而Google Flu Trends就是一個非常知名的應用,從搜尋的關鍵字去預測流感的發生,簡而言之,當大家都開始討論同一件事情時,就表示著有一件事即將爆發。而就應用面來看,從資料擷取時就必須網羅組織內、外部資料;所謂的組織內資料是以有意的形式去進行蒐集並控管;而組織外資料即是我們俗稱的社群資料。該團隊表示,若僅以由公司內部所蒐集到的資料進行分析,其周延性及準確性是有所欠缺的;就現今普羅大眾而言,大多數使用者皆是以社群網站作為發表言論、想法的主要管道,然而,這些社群資料主要即是用來突破過去的侷限,讓企業更能全面性掌握消費者的心聲以利提供後續更優質的服務以及準確地提升產品品質。





í 團隊成員:林志麟教授、禹良治教授、楊錦生教授、李怡慧教授、李婷教授、袁鳳清教授

í 文獻參閱:
楊錦生、陳正雄、張百棧 (2014) . Harnessing consumer reviews for marketing intelligence: a domain-adapted sentiment classification approach.  文獻連結 
林志麟、Laksamee Khomnotai (2014) . Using Neighbor Diversity to Detect Fraudsters in Online Auctions.  文獻連結

沒有留言:

張貼留言