智慧型計算在大數據分析之應用

在資料爆炸量、多樣化以及數據更新快速的時代下,大數據分析之應用日益受到重視,在商業智慧領域也無法避免;過去所處理的數據大都是屬於結構性,亦為傳統資料庫用於協助解決商業行為的資料結構;近年來,由於數據產生的多元性,數據的產生有「4V」特性,即資料量大(Volume)、資料多樣性(Variety)、高誤差性(Veracity)、輸入和處理速度快(Velocity),尤其非結構資料(如Text, image, video等)的大量形成,強烈衝擊傳統資料庫的技術與應用;同時,因為大數據資料類別多、形成速度快,因此雲端技術的支援與資料傳輸速度的充足與否,便是其能否順利運作的重要關鍵,如訂票系統、觀看影片等,當資料都上傳至雲端時,除了有大量的資料存取空間外,頻寬也必需充足,才能讓使用者可及時下載所需資料。
但就因為數據產生越來越多、瞬間產生越來越快、樣式越來越大,而且有不正確性、雜訊等干擾因素存在,因此軟、硬體設備都需要升級,才能因應龐大且迅速產生的資料量。幸而Hadoop分散式並行處理系統的開發,讓資料在夠快的網路速度下可進行多個CPU的平行運算;此外,固態硬碟亦為大量資料儲存的重要硬體設備;換句話說,CPU的平行運算、固態硬碟、及網路速度,在大數據的資料處理上,三者缺一不可。本校張百棧教授所帶領的商業智慧團隊,其核心技術就在於處理大數據下之非結構性資料,利用智慧運算(Computational Intelligence, CI)技術,對非結構性資料進行資料探勘(Data Mining),而主要應用的領域在於股價訊號判定以及心跳資料判定,尤其是在股價訊號判定部分,該團隊可進一步利用機器學習(Machine Learning)的方式進行股價預測。

智慧型計算技術應用在病例資料之判讀

張百棧教授所帶領的團隊一直以來致力於推廣智慧型計算,並結合各領域知識(Domain Knowledge)來解決不同類型之問題,包括工廠排程問題、股市預測與醫療資訊三大領域。過去多年之研究在於結合四項智慧型計算技術:即探勘策略、()神經計算、演化式計算與自然計算,提出創新的Hybrid Model in Computational Intelligence (CI),利用SOM (Self-Organizing Maps) K-means 先將資料做分群,再將分群後的資料找出其模糊資料規則,來進行新的預測,所得到的正確率比沒有分群高出許多。這是因為分群後的資料同質性更高,從而求得之模糊資料規則也更具有代表性。此一模型也被國際上許多學者接受與引用。
該團隊亦將此一模式進行改良,並應用於醫療領域中生理訊號處理與病例辨識等問題。首先,將資料以案例式推理方法分群,之後以模糊決策樹與基因演算法,分別建立子群體之模糊規則,藉此判斷是否為肝臟疾病與乳腺癌的病例,此項研究成果已發表在著名的Applied Soft Computing期刊上。近年更發展出多導程心電圖之心臟疾病辨識,主要著重在心電訊號的處理:先將解碼後的心電訊號除去雜訊,並進行波型取樣,再以隱藏式馬可夫模型訓練方式,找出患病與健康病例之機率模型,最後結合高斯混合模型的訓練,來進行病例判讀。目前台灣已有知名醫院將患者的心電圖資訊上傳至雲端,讓醫師可以從智慧型裝置直接做判讀,但由於心電圖的判讀頗費心力,部份醫院會將這部分的工作外包,由具專業知識的全球人才進行心電圖的分析,然後再以機器學習演算法(Machine Learning )的方式進行病歷資料判讀與建立資料庫,這也就是大數據的應用。

分群技術與 TSK 模糊技術之股價指數預測

此一團隊亦運用各種軟性計算技術,建立股價指數預測之模型。其預測步驟是先將資料分群,而後運用TSK 模糊技術找出影響股價指數的重要因素,再以機器學習演算法或類神經網絡分析,進行台灣加權指數預測,並從中判定低點、高點的訊號,預測準確率達到9成以上。目前此一預測模式僅納入兩個影響因子,分別為基本面和技術面;但如政治、經濟、心理等「大環境」因素是最難控制的,因此未來可將出現在各線上新聞網站或社群媒體等之政經新聞中的文字,經處理、過濾後轉換成影響股價波動的情感訊號,準確率將可望再提高,有助於降低投資風險,並提高投資報酬。

個股股價轉折點及利潤賺取預測


圖一、方法流程圖
         此一團隊另一項股市預測技術,在於個別股價投資時點之研究。先將所欲投資的個股,其近半年至一年來的股價波動訊號,從非線性轉成線性後,在高、低點時之相關技術面指標如KDRSI、成交量等作為輸入變數(input),並將股價轉化為交易訊號(Trading signal)以作為輸出變數(output),進而從中找出具代表性的變數;之後再將篩選出的因子,輸入類神經網路中訓練,也就是Machine Learning,進而預測股價之高、低點轉折處。此部份可說是股價指數預測部份之延伸,由於已可成功預測股價指數,因此進一步探討如何在股票市場中賺取利潤便相當重要,預測出個股價格轉折點(Turning Point),便可讓投資者能逢低買進、逢高賣出,提升投資報酬率;此部份之技術基礎在於結合線段切割(Piecewise Linear Representation, PLR)系統與類神經網路預測(Back-propagation Neural Network, BPN)等技術,而以 PLR 作為判斷原始資料轉折點之預測工具。研究流程主要分為三個步驟:首先,為了增加投資報酬率,我們將提出選股原則,並以這些原則選出具有投資效益的個股;第二步驟,利用預測模型及事先交易決策分析個股買賣點,輸入變數為技術指標值,輸出變數為買賣時點;第三步驟,預測每日交易訊號,以獲得最佳買賣時機點,即股價轉折點(如圖一)
    綜上所述,張百棧教授所率領的商業智慧運算團隊,除了基礎分析技術超卓外,所應用分析的領域涵蓋面極廣並切合實際應用,尤其是對於生理資訊的判定方面,對於人類社會將會有長足的貢獻,研究成果相當值得期待。
(本文作者:由張百棧教授研究團隊提供)

沒有留言:

張貼留言