主題亮點

數據系統及其資料儲存子系統之設計與管理
Design and Management of Big Data Systems and Their Data Storage Subsystems
本中心之系統核心分項A以大數據系統、雲端系統架構為環境,探討其下資料儲存子系統之設計與管理議題,希能提升大數據系統與雲端系統之效能(performance)、可靠性(reliability)、可用性(availability)、能源效率(energy efficiency)以及使用壽命(lifetime)。明確的說,我們希望能利用資料之格式及存取特性,來最佳化其配置(provisioning)、索引(indexing)、儲存格式(format)、壓縮(compression)、副本管理(replica management)、多版本管理(multi-version management)等策略,以達前述之設計目標。此外,為了最大化效能的同時利用分布式儲存系統下的多個裝置,我們也針對各種負載平衡(load balancing)策略進行探討,以減少勞逸不均的現象並提升系統效能。本分項之相關研究有一定之國際能見度,於國內、外多個頂級或高品質期刊及研討會均持續有成果發表。近一年來,計有3篇論文發表於IEEE Transactions on Computers (TC)1篇論文發表於Elsevier Journal of Systems Architecture (JSA)、6篇論文發表於IEEEACM之國際研討會,此外還有2篇以進行中論文或海報形式之論文發表。此外,尚有10個以上進行中之研究計畫,正積極爭取產學合作,以發揮我們研究成果的實用性價值。本分項之研究焦點如下:

圖一:大數據與雲端之資料儲存系統研究議題
n   高能效之多版本儲存系統
(Energy-efficient Multi-version Keyvalue Store)
許多運算應用都需要同時維護多個版本的資料,來提供系統回溯、歷史紀錄查詢等功能。因此,高效率之多版本儲存系統便成為重要的研究焦點。除提供快速的資料更新與查詢能力外,在許多的應用環境,諸如物聯網(internet of things, IoT)中的嵌入式裝置或大型資料中心的伺服器集群上,能耗都是一個必須加以妥善考量的設計限制。在物聯網的嵌入式裝置上,由於裝置主要以電池作為驅動之能量來源,能耗會嚴重限制裝置的使用壽命。在大型資料中心的集群上,過高的能耗則可能提升系統的運行成本、造成散熱的問題、甚至縮減伺服器的使用壽命。有鑑於此,在這些裝置上,快閃記憶體(flash memory)及相變記憶體(phase-change memory, PCM)等非揮發式記憶體有希望取代傳統之機械式硬碟(mechanical hard disk),進而成為主要之儲存裝置。然而,由於這些非揮發式記憶體的特殊存取限制,例如寫入壽命限制(lifetime of write counts)及寫入速度又遠較讀取為慢(skewed write performance)等,往往需要設計特殊的資料管理架構,以最大化發揮這些非揮發式記憶體的優點。我們針對各種不同的多版本儲存系統,諸如鍵-值儲存(keyvalue store)、多版本雲端硬碟(multi-version cloud storage)、以及多版本檔案系統(multi-version)等,提出新穎之設計,其目標在於同時考量軟體層之資料存取特性,兼顧非揮發式記憶體之儲存媒體的存取特性與限制,以便更快速、可靠、可用、經濟的提供多版本資料存取能力予物聯網及大數據環境使用。此外,我們的設計也提供了可同時查詢多個版本之版本區間查詢(version-range query)及多個鍵值之鍵區間查詢(key-range query)的能力,進一步強化多版本資料庫系統之功能性。

圖二:鍵區間查詢與版本區間查詢

n   適於大數據叢集之高能效固態硬碟設計
(Design of Energy-efficient Solid-state Disks)
隨著以快閃記憶體為儲存媒介之固態硬碟(solid-state disk, SSD)逐漸在消費市場嶄露頭角,其於高效能運算環境之應用也正被迅速發掘中。雖則固態硬碟可提供遠較傳統機械式硬碟更快速的存取效能,其儲存媒體的硬體限制仍須要妥善處理。進一步而言,當固態硬碟被用在大數據環境中,由於大數據環境中大部份資料具有在資料收集時被一次性寫入、卻會在資料分析時被多次讀取的特性,其於固態硬碟實體儲存空間中的配置策略會顯著影響資料分析的性能。舉例而言,由於當前之主流固態硬碟架構均配有多通道架構(multi-channel architecture),包含可同時存取之多顆快閃記憶體晶片,若能在初次寫入資料時便將常見的大數據分析(big data analytics)或模式判別(pattern recognition)方法,例如著名k-近鄰演算法(k-nearest neighbors algorithm, kNN)或先驗演算法(Apriori algorithm),之資料存取順序納入考量,便可將預期會一起存取的資料放在可平行存取的多顆快閃記憶體晶片中,得以提升效能並均化各通道之磨耗情形(wear-leveling)。

圖三:基於快閃記憶體之固態硬碟
(來源:https://upload.wikimedia.org/wikipedia/commons/5/5e/Vertex_2_Solid_State_Drive_by_OCZ-top_oblique_PNr%C2%B00307.jpg
n   富延展性之大數據儲存系統架構
(Highly Scalable Storage Architecture for Big Data Storage Systems)
系統架構的延展性一向是大數據系統等分布式系統的重要設計目標之一。如系統具有優良之延展性,在需要時便能隨時增加運算資源(如伺服器或資料儲存裝置等)數量(scale-out)或抽換更強之裝置(scale-up)以提升服務之吞吐量。在大數據運算環境中,由於大量的資料扮演著舉足輕重的角色,如何提升資料儲存系統的延展性,遂成近年來研究的焦點之一。本分項的研究致力於探究大數據系統儲存堆疊(storage stack)之各層管理機制,希能大幅提高系統之可延展性,並優化資料儲存的服務品質(quality-of-service, QoS)。具體之機制包含:

1.在儲存空間充足時,藉由使用額外之儲存空間來存放資料之副本(replica),可使單一儲存裝置汰換時不需進行資料遷移(data mi-gration),而可達成無縫維護的目標。

2.在儲存空間不足時,改以冗餘資料(redundant data)來減少直接紀錄資料副本之大量空間消耗。舉例而言,若每10個區塊(chunks)的資料配合額外2個區塊的冗餘,則可由每個區塊都有單獨副本情形下之10個區塊之空間減損降低到2個區塊之空間減損,但隨之而來的代價是:若10個區塊中有任何區塊被更新,必須更新所有冗餘區塊,可能會增加系統不必要的寫入、降低存取效能以及減短系統壽命。因此,冗餘資料的配置及管理均須配合不同資料迥異的存取行為,以避免前述之問題。
(本文由本中心Data Center團隊提供)

優化智慧電網演算 提昇電力管理效率
Optimization Smart grid calculus to improve power management efficiency
大數據於智慧電網應用範疇廣泛,主要是因為在電網運行舉凡發電,輸電,變電、配電、用電和調度、設備檢修和電力管理過程中會產生海量異構、多態的資料[1],這些結構化和非結構化的數據資料,其準確性、異構多資料來源的整合、數據視覺化的解構…等議題,為當前大數據於智慧電網應用研究相關的重要課題[2]。元智大學大數據於智慧電網應用研究團隊為研發因應未來電力管理的需求與趨勢,鎖定配電調度、發電預測、精確傳輸、運算平台及大數據演算法等領域,架構出電力管理系統如圖四,此架構核心技術為預測、調控及最佳化,主要亮點為配電調度與發電預測,茲概述各區塊現階段研究成果如後:
圖四:電力管理系統架構圖
配電調度
1. 狀態估測:
主要聚焦於能源地圖之智慧電網耗能分析技術,將能源相關資訊以視覺化方式呈現,並將文字資訊中與資源使用密度有關的部分,藉由用戶端能源地圖的方式呈現,藉此整合能源密度地圖與智慧電網耗能分析技術,提供整體的能源使用趨勢,以提供進行能源運用決策;同時分析各電力系統的耗能元件,以達成完整的智慧電網所需要的資訊,藉由決策管理與電力系統耗能分析結合,可提供更為貼切的節能建議方案。本研究並以元智校園配電網為研究平台,研究結果將有助於設計出最適合校園配電網之規劃設計技術,達到提升整體供電品質、安全性與經濟效益之目的。圖五與圖六分別為2013/11/1 14:20~14:36全校園與一館電力損失分析結果圖,由圖中可看出全校園電力總負載為3615.43kW,系統電力損失為24.50kW,並可看出一館動力空調盤變壓器利用率為25.08%,插座盤變壓器利用率為15.18%,動力盤變壓器利用率為10.06%,以及照明盤變壓器利用率為27.34%

圖五全校園系統電力損失分析結果圖

圖六一館電力損失分析結果圖
2. 視覺節能調控
主動建築節能調控-以視覺方法執行室內光照度估測及人員行為辨識為產學界首創。本研究利用視覺方法執行建築耗能數據搜集及自動調控,取代以感測器為主之資料擷取及調控技術,用於建築照明、排風、暖氣、及冷氣等。主要創新技術有:1)自動取得精確的光照度值及分佈,取代傳統之外部固定式感測器,改為以視覺方法為主之模組;2)利用即時骨架運動偵測及識別,用以判斷室內人員的日常行為及動作,以利全時間光源位置、角度、強度之調整,同時滿足室內人員在設備使用上的需求以及節能目的。相關技術及系統分析已發表於國際期刊Energy and buildings [3] ,一個智慧型建築調控系統細部流程示意圖如圖七所示。

圖七:智慧建築調控流程示意圖
發電預測
1.負載預測
目前研究已完成一種新的特徵抽取技術,可以應用於硬體差異所造成不同量測的影響。在進行數據分析時,一般都假設量測誤差是不存在的,但實務上不同量測工具會有很大的差距。本研究利用不同廠牌型號,包含HTC, Sony, Samsung, Acer Asus的手機,筆電,平版等設備量測無線電波,並應用於室內定位演算法,相關成果已被接受將發表於國際期刊IEEE Trans. on Communications [4]中。圖八為不同之量測硬體下所記錄的無線電波訊號分布,實驗結果證實所提出技術確實有效,此新技術除提升直接定位系統強健性,也可應用於智慧電網下不同電表的量測誤差。若電表硬體的設計有顯著不同時,此演算法可降低因量測誤差所造成後端平台的誤判。
圖八:於不同之量測硬體下所記錄的無線電波訊號分布
2.電能管理
利用Hybrid multi-objective differential evolution algorithm (H-MODE)對所有的delay以及data center的電能消耗這兩個項目做最佳化,如圖九所示,用以了解二者的影響及關鍵所在,目前欠缺transmission delay model,以有效描述transmission delay和頻寬、數據傳輸速率及距離間的關係。
圖九:delaydata center電能消耗最佳化
精確傳輸
1.視覺傳輸頻寬
Power line communication (PLC)的傳輸頻寬已演進到可以傳輸視訊資料的能力,如HomePlug AV2。但以目前多媒體的發展速度而言,HomePlug AV2的頻寬對於高畫質視訊傳輸仍有不足之處,我們將透過最有效率的頻寬壓縮方式來解決頻寬不足的瓶頸,其架構圖如圖十一所示。目前一般的視訊影像壓縮標準都太過於複雜,因此我們將透特別針對PLC於高畫質視訊傳輸應用,來開發出精簡的視訊壓縮演算法,主要呈現較低的演算法複雜度,並且有效節省大量傳輸頻寬的消耗,讓PLC也能夠對於高畫質視訊進行傳輸。

圖十一:適用於PLC視訊壓縮概念架構圖
2.傳輸效能
為提高傳輸頻寬和品質,許多PLC傳輸標準都採用前瞻的前饋式錯誤更正碼(Forward Error Correction CodesFEC Codes)的機制,如HomePlug採用渦輪碼(Turbo Codes)和G.hn採用低密度奇偶校驗碼(Low-density Parity Check CodesLDPC)。本團隊提出應用於多媒體寬頻電力線傳輸之前饋式錯誤更正碼關鍵技術開發,設計與開發一個可量化、可重置與彈性化的軟式輸入軟式輸出(Soft-input Soft-outputSISO)解碼核心(Decoding Kernel),搭派外部記憶體與其他相關電路,即可同時支援HomePlug的渦輪解碼與G.hnLDPC解碼,以多套解碼核心則可快速地解決前饋式錯誤更正碼解碼的傳輸量與解碼效能問題,此概念目前仍是學術及工業上在PLC技術中的開發首例(圖十二)
圖十二:應用於多媒體寬頻電力線傳輸之可重置前饋式錯誤更正解碼核心之示意圖
3.傳輸品質
前饋式錯誤更正碼技術可透過大量平行架構與高頻寬記憶體來實現高吞吐量的錯誤更正能力,但會遭遇到記憶體容量與頻寬記憶體來實現高吞吐量的錯誤更正能力,但會遭遇到記憶體容量與頻寬問題不足的問題。透過三維積體電路技術實現錯誤更正碼三維晶片架構,可以有效改善上述記憶體的容量與頻寬問題。雖然三維晶片可以有效的解決上述問題,但也會受到容易過熱的狀況。本研究所開發之溫度控制器設計透過動態調整前饋式錯誤更正碼之解碼方式,能有效地在符合電力線傳輸標準之規範下,避免溫度過熱。所開發的溫度調節設計,最後將以晶片設計與FPGA實現的方式進行驗證,以確保功能之正確性,以期所發展的溫度調節設計能夠符合現今與未來前瞻性電力線傳輸規格系統的需求(圖十三)
圖十三:動態調整前饋式錯誤更正碼溫度控制器設計示意圖
大數據演算法-系統最佳化
即時與分散式最佳化於雲端環境下之智慧電網應用主要在發展最佳的演算法,目標為運用Analytics as Service (AaaS)進行大規模最佳化雲端計算的基礎架構,搭配滾動視窗橫跨整個歷史數據和所有收集的歷史特徵,以提前預測智能電錶出現故障的時間點。
運算平台-感測運算
目前已完成部分智慧聯網裝置暨雲端環境的建置,如圖十四,預期於前述各區塊完成所望目標,即可於此平台展現電力管理系統的功能。大數據技術在智慧電網的應用發展尚有許多可進步的空間,其與互聯網資料、經濟數據、交通資料、天氣資料、商業工業監測資料等的整合,將可進一步促進智慧電網的建立,提供既環保節能又高效使用的環境 [5]
圖十四:智慧聯網之智慧講桌應用系統架構圖
參考文獻
[1]Long-chuan YAN, Ya-xi LI, Bin-chen LI and Zi-yan ZHAO, “Opportunity and Challenge of Big Data for the Power Industry,” Electric Power It, Vol. 11, No. 4, pp. 1-4, 2013.
[2]淺談美、亞、歐智慧電網發展現狀 | 2013-08-13 10:59:57 | 來源:中國經濟網 | 編輯:李金超 http://big5.cri.cn/gate/big5/gb.cri.cn/44571/2013/08/13/7031s4215873.htm
[3]H. C. Shih, “A robust occupancy detection and tracking algorithm for the automatic monitoring and commissioning of a building,” Energy and Buildings, vol. 77, pp. 270-280, July 2014.
[4]Shih-Hau Fang and Chu-Hsuan Wang, “A Novel Fused Positioning Feature for Handling Heterogeneous Hardware Problem,” accepted by IEEE Trans. on Communications, June 2015.
[5]Y. Song, G. Zhou and Y. Zhu, “Present Status and Challenges of Big Data Processing in Smart Grid,” Power System Technology, April 2013 - en.cnki.com.cn.
(本文由本中心智慧電網團隊提供)

沒有留言:

張貼留言