大數(shù)據(jù)架構與關鍵技術_第1頁
已閱讀1頁,還剩15頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、4大數(shù)據(jù)參考架構和關鍵技術4.1大數(shù)據(jù)參考架構大數(shù)據(jù)作為一種新興技術,目前尚未形成完善、達成共識的技術標準體系。本章結合NIST和JTC1SC32的研究成果,結合我們對大數(shù)據(jù)的理解和分析,提出了大數(shù)據(jù)參考架構(見圖5)。圖5大數(shù)據(jù)參考架構圖大數(shù)據(jù)參考架構總體上可以概括為“一個概念體系,二個價值鏈維度”。“一個概念體系”是指它為大數(shù)據(jù)參考架構中使用的概念提供了一個構件層級分類體系即“角色—活動—功能組件”,用于描述參考架構中的邏輯構件及其

2、關系;“二個價值鏈維度”分別為“IT價值鏈”和“信息價值鏈”,其中“IT價值鏈”反映的是大數(shù)據(jù)作為一種新興的數(shù)據(jù)應用范式對IT技術產生的新需求所帶來的價值,“信息價值鏈”反映的是大數(shù)據(jù)作為一種數(shù)據(jù)科學方法論對數(shù)據(jù)到知識的處理過程中所實現(xiàn)的信息流價值。這些內涵在大數(shù)據(jù)參考模型圖中得到了體現(xiàn)。大數(shù)據(jù)參考架構是一個通用的大數(shù)據(jù)系統(tǒng)概念模型。它表示了通用的、技術無關的大數(shù)據(jù)系統(tǒng)的邏輯功能構件及構件之間的互操作接口,可以作為開發(fā)各種具體類型大數(shù)據(jù)

3、應用系統(tǒng)架構的通用技術參考框架。其目標是建立一個開放的大數(shù)據(jù)技術參考架構,使系統(tǒng)工程師、數(shù)據(jù)科學家、軟件開發(fā)人員、數(shù)據(jù)架構師和高級決策者,能夠在可以互操作的大數(shù)據(jù)生態(tài)系統(tǒng)中制定一個解決方案,解決由各種大數(shù)據(jù)特征融合而帶來的需要使用多種方法的問題。它提供了一個通用的大數(shù)據(jù)應用系統(tǒng)框架,支持各種商業(yè)環(huán)境,包括緊密集成的企業(yè)系統(tǒng)和松散耦合的垂直行業(yè),有助于理解大數(shù)據(jù)系統(tǒng)如何補充并有別于已有的分析、商業(yè)智能、數(shù)據(jù)庫等傳統(tǒng)的數(shù)據(jù)應用系統(tǒng)。等。在一

4、個大數(shù)據(jù)系統(tǒng)中,數(shù)據(jù)提供者的活動通常包括采集數(shù)據(jù)、持久化數(shù)據(jù)、對敏感信息進行轉換和清洗、創(chuàng)建數(shù)據(jù)源的元數(shù)據(jù)及訪問策略、訪問控制、通過軟件的可編程接口接口實現(xiàn)推或拉式的數(shù)據(jù)訪問、發(fā)布數(shù)據(jù)可用及訪問方法的信息等。數(shù)據(jù)提供者通常需要為各種數(shù)據(jù)源(原始數(shù)據(jù)或由其它系統(tǒng)預先轉換的數(shù)據(jù))創(chuàng)建一個抽象的數(shù)據(jù)源,通過不同的接口提供發(fā)現(xiàn)和訪問數(shù)據(jù)功能。這些接口通常包括一個注冊表,使得大數(shù)據(jù)應用程序能夠找到數(shù)據(jù)提供者、確定包含感興趣的數(shù)據(jù)、理解允許訪問的類

5、型、了解所支持的分析類型、定位數(shù)據(jù)源、確定數(shù)據(jù)訪問方法、識別數(shù)據(jù)安全要求、識別數(shù)據(jù)保密要求以及其他相關信息。因此,該接口將提供注冊數(shù)據(jù)源、查詢注冊表、識別注冊表中包含標準數(shù)據(jù)集等功能。針對大數(shù)據(jù)的4V特性和系統(tǒng)設計方面的考慮,暴露和訪問數(shù)據(jù)的接口需要根據(jù)變化的復雜性采用推和拉兩種軟件機制。這兩種軟件機制包括訂閱事件、監(jiān)聽數(shù)據(jù)饋送、查詢特定數(shù)據(jù)屬性或內容,以及提交一段代碼來執(zhí)行數(shù)據(jù)處理功能。由于需要考慮大數(shù)據(jù)量跨網絡移動的經濟性,接口還可

6、以允許提交分析請求(例如,執(zhí)行一段實現(xiàn)特定算法的軟件代碼),只把結果返回給請求者。數(shù)據(jù)訪問可能不總是自動進行,可以讓人類角色登錄到系統(tǒng)提供新數(shù)據(jù)應傳送的方式(例如,基于數(shù)據(jù)饋送建立訂閱電子郵件)。(3)大數(shù)據(jù)應用提供者大數(shù)據(jù)應用提供者在數(shù)據(jù)的生命周期中執(zhí)行一系列操作,以滿足系統(tǒng)協(xié)調者建立的系統(tǒng)要求及安全和隱私要求。大數(shù)據(jù)應用提供者通過把大數(shù)據(jù)框架中的一般性資源和服務能力相結合,把業(yè)務邏輯和功能封裝成架構組件,構造出特定的大數(shù)據(jù)應用系統(tǒng)。

7、大數(shù)據(jù)應用提供者角色的扮演者包括應用程序專家、平臺專家、咨詢師等。大數(shù)據(jù)應用提供者角色執(zhí)行的活動包括數(shù)據(jù)的收集、預處理、分析、可視化和訪問。大數(shù)據(jù)應用程序提供者可以是單個實例,也可以是一組更細粒度大數(shù)據(jù)應用提供者實例的集合,集合中的每個實例執(zhí)行數(shù)據(jù)生命周期中的不同活動。每個大數(shù)據(jù)應用提供者的活動可能是由系統(tǒng)協(xié)調者、數(shù)據(jù)提供者或數(shù)據(jù)消費者調用的一般服務,如Web服務器、文件服務器、一個或多個應用程序的集合或組合。每個活動可以由多個不同實例

8、執(zhí)行,或者單個程序也可能執(zhí)行多個活動。每個活動都能夠與大數(shù)據(jù)框架提供者、數(shù)據(jù)提供者以及數(shù)據(jù)消費者交互。這些活動可以并行執(zhí)行,也可以按照任意的數(shù)字順序執(zhí)行,活動之間經常需要通過大數(shù)據(jù)框架提供者的消息和通信框架進行通信。大數(shù)據(jù)應用提供者執(zhí)行的活動和功能,特別是數(shù)據(jù)收集和數(shù)據(jù)訪問活動,需要與安全和隱私角色進行交互,執(zhí)行認證授權并記錄或維護數(shù)據(jù)的出處。收集活動用于處理與數(shù)據(jù)提供者的接口。它可以是一般服務,如由系統(tǒng)協(xié)調者配置的用于接收或執(zhí)行數(shù)據(jù)收

9、集任務的文件服務器或Web服務器;也可以是特定于應用的服務,如用來從數(shù)據(jù)提供者拉數(shù)據(jù)或接收數(shù)據(jù)提供者推送數(shù)據(jù)的服務。收集活動執(zhí)行的任務類似于ETL的抽?。╡xtraction)環(huán)節(jié)。收集活動接收到的數(shù)據(jù)通常需要大數(shù)據(jù)框架提供者的處理框架來執(zhí)行內存隊列緩存或其他數(shù)據(jù)持久化服務。預處理活動執(zhí)行的任務類似于ETL的轉換(transfmation)環(huán)節(jié),包括數(shù)據(jù)驗證、清洗、去除異常值、標準化、格式化或封裝。預處理活動也是大數(shù)據(jù)框架提供者歸檔存儲

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論