大數據藍海

應用大數據分析,提升半導體產業競爭力
自引進IC封裝開始,台灣半導體產業已發展40餘年,近年來總產值已近20,000億元新台幣[1],在全世界佔有一席之地。半導體產業競爭力來自於成本、良率及交貨時間,其中良率更是一家公司有競爭力之所在。近年來自動化生產及物聯網(Internet of things)的技術發展,使得所有半導體製程相關的資料得以蒐集與保存,這些資料包含產品資料、機台資料(equipment data)、量測資料(metrology data)、缺陷機資料(defect data)、晶圓接受度測試資料(wafer acceptance test data)及晶圓測試資料(circuit probing data)[2],如何有效的使用這些大數據資料一直是半導體產業重要的課題之一。除了提升產品良率之外,產品/製造流程缺陷追蹤、供應計畫(supply planning)、提升能源效率等都可以利用大數據分析提升公司競爭力[3]
圖五: 資料主要可分成三個步驟:資料前處理、資料分析、驗證與評估
處理這些資料主要可分成三個步驟:資料前處理、資料分析、驗證與評估(如圖五)[4]。在資料前處理時必須先修正資料錯誤,常見的資料錯誤有以下兩種:

1.資料出現異常值(outlier)。透過盒鬚圖(box plot)可輕易的分析出異常值,通常發生的在設備工程師在調整機台的時候或是由其他外在因素造成,因此這樣的值通常直接刪除。
2.資料出現遺漏值(missing value)。因偵測設備的限制,有時資料會有不完整的情況,處理這樣的狀況可透過補值的方式(內插法、平均法等)回填可能的資料或直接刪除該筆資料。

因每種資料的性質與內容不同,為有效使用這些資料,將資料庫整合為必要的步驟。如何整合這些資料庫首先需考量實際問題需求,再來考量資料庫資料的型態,例如機台資料為連續型資料、缺陷機資料為離散型資料,因應不同的資料型態必須選擇不同的方式去做合併。

在資料分析處理上,常見的方式可分成以下幾種方式:
1.利用資料分群演算法,例如K-means演算法、階層式分群(hierarchical clustering)演算法將原始資料分群。
2.將分群好的資料透過決策樹找出造成問題發生的可能因子[5],或透過機器學習演算法,例如SVM建立模型,預測問題是否會發生,藉此實作出預警系統。

資料分析完之後必須評估結果是否符合現實以避免過適現象(overfitting)。在此步驟往往會發生分析結果和過往經驗不一致的情況,除了花許多時間與工程師溝通確認之外,還需找不同的資料集交互驗證,已確保資料分析方式是可行的。

在處理大量的資料時面臨到許多的挑戰,例如:傳統的分析工具與方法通常適用在小規模的資料上,當資料量大且複雜時往往失去其效用、分析數據需耗費大量的計算時間,如何快速的處理大量資料是一項大的挑戰。近年來已有一些工具可解決以上的問題,例如:MLlib(Machine Learning Library)即可支援一些機器學習的套件在Spark平台、RHadoopSparkR套件可支援R的分析工具在HadoopSpark平台上。除了在分析資料時面臨的挑戰之外,TATA Consultancy Services(TCS)顧問公司在2013年從其他面向提出在處理大數據資料時面臨的許多挑戰,舉例來說:資料工程師需取得部門經理的高度信任、對於不同的商業決策需決定該使用哪些資料、利用大數據分析幫忙部門經理做決策[3],以上的問題待管理相關的人員來解決。
對於半導體產業來說,透過大數據資料分析歷史資料,挖掘其中有用的資訊以提升公司競爭力是非常有效的一種方式。科技部與台積電在2014年下半年即舉辦相關的比賽,希冀發掘半導體相關資料的各種有用資訊。相信往後會有越來越多人力與資源投入這領域,讓半導體產業邁入新的世代。

參考文獻
[1]  陳玲君, 2014 半導體產業年鑑. 2014.
[2] Li, T.S., C.L. Huang, and Z.Y. Wu, Data mining using genetic programming for construction of a semiconductor manufacturing yield rate prediction system. Journal of Intelligent Manufacturing, 2006. 17(3): p. 355-361.
[3] TATA Consultancy Services, The Emerging Big Returns on Big Data: A TCS 2013 Global Trend Study. . 2013.
[4] Chien, C.F., W.C. Wang, and J.C. Cheng, Data mining for yield enhancement in semiconductor manufacturing and an empirical study. Expert Systems with Applications, 2007. 33(1): p. 192-198.
[5] Hsu, C.-Y., C.-F. Chien, and Y.-C. Lai, Main Branch Decision Tree Algorithm for Yield Enhancement with Class Imbalance, in Intelligent Decision Technologies. 2012, Springer. p. 235-244.

相關文章
資料延伸閱讀
&  資料分群(data clustering)
把相似的資料透過特定的分類方法分成不同的組別或者更多的子集,這樣讓在同一個子集中的資料都有相似的屬性。
&  MLlib (Machine Learning Library)
Apache Spark的機器學習擴展資料庫。目前可支援多種常見的機器學習演算法,例如:線性SVM、邏輯式回歸(logistic regression)、二元分類、k-means分群、線性回歸…等。根據官網數據,在效能測試(邏輯式回歸)上較傳統的MapReduce100倍以上,在大數據資料分析中是個不錯的利器。
&  工業4.0 (industry 4.0)
由德國政府提出的高科技戰略計劃,用來提昇製造業的電腦化、數位化、與智能化。目標是建立具有適應性、資源效率、及人因工程學的智慧工廠。
&  工業互連網(Industrial Internet)
該計畫由奇異公司(General Electric)提出,目標是整合兩次工業重大革命的成果:1.工業革命帶來的眾多複雜機器,2.數位革命帶來的資訊、通訊系統。工業互連網匯集了許多領域,例如:機器學習、大數據資料分析、物聯網…等去蒐集許多機器上的資訊,藉由分析資料、使用這些資料去調整操作。
(本文作者:元智大數據與數位匯流創新中心簡廷因教授Email: tinin@saturn.yzu.edu.tw )
國內智慧電網的發展—遠端遙控幫省電
大數據於智慧電網應用範疇廣泛,主要是因為在電網運行舉凡發電,輸電,變電、配電、用電和調度、設備檢修和電力管理過程中會產生海量異構、多態的資料[1],有關智慧電網建設架構與效能請參見示意圖,示意圖中各個環節隨時會產生數據資料,這些資料可分為結構化資料和非結構化資料兩大類,其中對於數據資料的準確性、存儲與處理、異構多資料來源的融合,以及數據視覺化解構等,為當前大數據於智慧電網應用相關研究的重要課題[2]
國內智慧電網幫省電的例子很多,譬如某全台連鎖烘焙業者,長年以來電費支出都居高不下,2010年在裝設智慧電錶,採取智慧電網系統管理後,錯開麵包師傅開烤箱時間,避開用電量尖峰的時段,把用電峰值維持在與台電契約度數以下,經過1年,該公司省下約新台幣600萬元的電費[3]。此外如工研院透過網路雲端連結台南六甲園區的電力數據,在新竹園區即可遠端分析智慧遙控所有的電力開關,像是會議室因人員進出變化,感應器將數據傳輸到雲端系統實施分析,進而調節空調冷度,又或是因人員移動而調節燈光的光照度等,經由電腦成功控管,分別在2012年一年省下66萬度的電,以及2013年省下56萬度的電。又如國內第二大超商導入智慧電網管理模式,將冷氣、冷凍櫃、電燈等數據資料全部收集,試算分析後對電力調度做最適的調配,2014年就較往年節省2成電力,同時減少74.4萬公噸的碳排放量[4]

圖六:智慧電網建設架構與效能示意圖--元智大學楊念哲老師提供
其他有關大數據於智慧電網應用發展的案例尚包含有狀態感知、主動服務、主動控制、主動管理、主動策劃等幾方面,狀態感知有提供多種技術的集中視圖(地理空間和可視化分析)、使用先進計量基礎設施(Advanced Metering Infrastructure, AMI)和感測器數據分佈狀態估計等;主動服務有峰值負載管理和能源投資組合管理分析、消費者行為與使用時間的定價分析等;主動控制有電網和電能質量優化控制、可再生能源和存儲分析控制等;主動管理有停電恢復分析、使用AMI數據查找變壓器電壓問題等;主動策劃有客戶之長期負載與電壓分析等[5,6]

大數據技術在智慧電網的應用發展尚有許多可進步的空間,其與互聯網資料、經濟數據、交通情資、天氣狀況、商業及工業監測資料等的融合,將可促進智慧城市的建立,提供環保節能與高效使用的環境[7],除為普羅用戶提供便捷的電力外,並可為商業貿易經營、政府政策制定及公共事業管理提供有力的支持。

參考文獻
[1]Long-chuan YAN, Ya-xi LI, Bin-chen LI and Zi-yan ZHAO, “Opportunity and Challenge of Big Data for the Power Industry,” Electric Power It, Vol. 11, No. 4, pp. 1-4, 2013.
[2] 淺談美、亞、歐智慧電網發展現狀 | 2013-08-13 10:59:57 | 來源:中國經濟網 | 編輯:李金超 http://big5.cri.cn/gate/big5/gb.cri.cn/44571/2013/08/13/7031s4215873.htm 
[3] 智慧電網物盡其用 聰明管理用電行為 | 機電整合 | 雜誌櫃 | NOWnews 今日新聞網 http://mag.nownews.com/article.php?mag=11-59-1891#ixzz38M7dfI8r 
[4] 2014.11.02台灣產業趨勢報告-BIG DATA大未來/智慧電網幫省電 遠端遙控開關,中天電視 https://www.youtube.com/watch?v=1VQ6YDnkjq0 
[5] Guangyi Liu, “Big Data in Smart Grid,” China Electric Power Research Institute Report, 2014.
[6] Min Chen, Shiwen Mao and Yunhao Liu, “Big Data: A Survey,” Mobile Netw Appl, Vol. 19, pp. 171-209, 2014.
[7] Y. Song, G. Zhou and Y. Zhu, “Present Status and Challenges of Big Data Processing in Smart Grid,” Power System Technology, April 2013 - en.cnki.com.cn.

  (本文作者:本中心葉榮冠教授。Emailstyeh@saturn.yzu.edu.tw )
交通大數據的新創服務運用
近年來,透過群眾活動或社群網站進行資料收集的熱潮,已經燒到了這個世界網路所及的任何一個角落。即使沒有網路延伸到的角落,facebook以及Google也致力於應用太陽能無人機[1]以及熱氣球[2]來進行網路擴展的計劃。各式各樣的新創服務也藉社群網路的力量,透過不斷地收集以及分析群眾在不知不覺中貢獻的資料來服務更多人。
上週的大數據藍海,我們已經討論過瑞典斯德哥爾摩這個智慧交通的示範城市,透過15000輛的計程車持續產生的定位資料來收集路況資料。藉以規劃交通系統建制、並進行事故管理以及急難救助等服務。今天我們要提的則是由斯德哥爾摩的交通巨擘Taxi Stockholm所開發的另一個交通資訊結合旅遊的新應用-Taxi Trails[3],一個新形態的旅遊指引服務。
圖七:計程車載客路徑熱力圖
這個服務由瑞典知名廣告商所支持,屏除傳統使用人工建制景點資訊並搭配使用者評分的經營模式。該系統直接運用計程車每年高達八百萬筆的的載客路徑資料來進行分析,找出觀光客在地旅遊的各種運動軌跡。並藉由熱力圖(Heat map)的呈現方式來展示觀光景點之人潮密度分佈。透過使用者界面的操作,用戶可以選擇顯示週間或是週末、白天或是晚上等時間條件。甚至設置搭車族群分類的條件,分別挑出來自高級住宅區 Östermalm 的旅客或來自Södermalm等地的時尚旅客。除了乘客上下車的地點密度呈現之外,該網站也跟Google maps合作,透過地理資訊標示出上周熱門的景點並連結相關資訊給使用者參考。並透過高解析度的街景畫面,自由的在景點周遭漫步。

參考文獻
[1]Widening the net: Facebook drones to cover world in wi-fi
[2]http://www.independent.co.uk/news/world/americas/widening-the-net-facebook-drones-to-cover-world-inwifi-9222334.html
[3]Project Loon: Google's Wi-Fi Balloons for the World http://www.google.com/loon/
[4]Taxi Trails by Taxi Stockholm http://www.taxitrails.se/en
(本文作者:本中心葉奕成教授。Emailichenyeh@saturn.yzu.edu.tw )
大數據藍海 – 個人化醫療
隨著生物科技的進步,各式各樣的生物晶片已被廣泛應用在生物醫學與疾病治療中,結合生物資訊學(Bioinformatics)與大數據分析技術(Big data analytics),更加速了個人化醫療(Personalized Medicine)的發展,其中,次世代定序技術(Next-generation sequencing更是扮演著重要角色,能夠在不到一周的時間,即可完成以往傳統定序方法需花10年的工作,並且金錢成本也快速下降。然而,這些如天文數字般時時刻刻增長的龐大數據,我們該如何去分析與處理?於是,發展出更精準且全面性的大數據分析方法將是關鍵。縱觀業界,「訊聯生物科技」所開發之非侵入性胎兒染色體檢測(Non-Invasive Prenatal Testing),便是透過抽取孕婦的靜脈血,對其血漿中所含有的胎兒DNA資訊,結合次世代定序晶片和生物資訊技術進行分析,即可準確檢測胎兒是否患有唐氏症愛德華氏症巴陶氏症等染色體疾病。此外,「賽亞基因」開發肥胖體質檢測產品-體質基因檢測(Weight-Related Genotyping,透過檢測特定基因位置之個人基因型,由此可區分出「脂質型肥胖」、「澱粉型肥胖」、「代謝型肥胖」、「臟器型肥胖」或「頑固型肥胖」等肥胖體質類型,並透過分析結果來給予不同肥胖體質類型的受測者,減重、飲食與運動上的建議。「康健基因 Health Genetech」更整合生物實驗、建構基因體資料庫與次世代定序技術所產生的大數據資料;僅需使用棉棒採集口腔壁上之檢體,即可提供客戶一次檢查,卻終身受用的個人基因檢測服務,預測難以避免的疾病風險,更與多家醫院、診所合作,為病患進行個人化醫療之相關檢測。大數據技術正開啟個人化醫療的新頁。
(本文作者:本中心李宗夷教授。Emailfrancis@saturn.yzu.edu.tw )

沒有留言:

張貼留言