簡介:招投標(biāo)項目信息大數(shù)據(jù)平臺,建設(shè)方案,2018,年,1,月,目,CONTENTS,錄,背景介紹,PARTONE,PARTTWO,平臺功能,PARTTHREE,技術(shù)方案,PARTFOUR,工期計劃,SYSTEMINTRODUCE,背景介紹,建設(shè)背景,11,、,市場,規(guī)模,行業(yè),產(chǎn)品,各省,人,市場拓展是,2018,年公司的重要工作內(nèi)容,公司的產(chǎn)品與各級政府的投資密切相,關(guān),我們需要根據(jù)市場規(guī)模情況,規(guī)劃公司相關(guān)人力等資源的支持和保障。,公司發(fā)展方向以產(chǎn)品銷售、集成開發(fā)服務(wù)、運維服務(wù)為主的三個業(yè)務(wù)線條,行業(yè),專家和主打產(chǎn)品是我們的核心競爭力,需集中優(yōu)勢資源做大做強。,各省市場拓展人員,需要與各省的各級政府達(dá)成協(xié)作,謀取更多項目收入,合作,的領(lǐng)域和資源的分配需協(xié)調(diào)。,制度,聯(lián)動,公司發(fā)展方向和行業(yè)、產(chǎn)品方向,專業(yè)人才的培養(yǎng),各省的協(xié)作等都,需要公司進(jìn)行資源分配等決策,需要,市場、政策、行業(yè)數(shù)據(jù)的支持,12,、,現(xiàn)狀分析,缺乏區(qū)域行業(yè)產(chǎn)品市場總體規(guī)模估算,,對投入多少市場人力技術(shù)等資源無法進(jìn)行有效評估;,缺乏區(qū)域行業(yè)產(chǎn)品市場行業(yè)占比分析,,對公司主要產(chǎn)品和服務(wù)發(fā)展拓展方向和領(lǐng)域不能提供支持;,缺乏區(qū)域行業(yè)產(chǎn)品市場競爭對手的分析,,對同行業(yè)的競爭對手公開市場行為無統(tǒng)一的分析;,區(qū)域行業(yè)產(chǎn)品市場招投標(biāo)項目信息及時獲取困難,,對關(guān)注領(lǐng)域的招標(biāo)信息不能主動獲得,人為因素多;,各省行業(yè)產(chǎn)品市場數(shù)據(jù)引領(lǐng)自身業(yè)務(wù),,沒有自己的數(shù)據(jù)支持隊伍,找外邊的咨詢又太貴;,解決思路,13,、,需及時獲取各省、市,ICT,公開市場項目、政策、行業(yè)等信息,進(jìn)行統(tǒng)計分析,用數(shù)據(jù)分,政府公告,行業(yè)動態(tài),招標(biāo)信息,析結(jié)果進(jìn)行有效的支撐。,,及時獲取各級政府發(fā)文、公告等信息,了解區(qū)域最新政策動態(tài),抓住政府時事,熱點,有效把握工作重點,提供更好的服務(wù)支持。,,及時獲取各大網(wǎng)站科技頻道行業(yè)領(lǐng)域熱點新聞,科技新聞等動態(tài),掌握行業(yè)最,新的動態(tài),調(diào)整行業(yè)重點及產(chǎn)品發(fā)展方向,跟隨技術(shù)進(jìn)步。,,及時獲取區(qū)域,解競爭對手的優(yōu)勢和劣勢,及時把握最新招標(biāo)公告,避免商機(jī)丟失。,ICT,招投標(biāo)、中標(biāo)等信息,獲得區(qū)域投資總量,獲取中標(biāo)情況,了,建設(shè)目標(biāo)和內(nèi)容,14,、,通過軟件系統(tǒng),及時獲取區(qū)域產(chǎn)品和服務(wù)公開市場招投標(biāo)項目信息,進(jìn)行分類匯總分析,輔助,數(shù)據(jù)爬蟲服務(wù),爬取指定區(qū)域的政,府招投標(biāo)網(wǎng)站上公,開的招標(biāo)和中標(biāo)信,息。,公司發(fā)展方向、行業(yè)、產(chǎn)品等方面的決策。,審計分類工具,數(shù)據(jù)展示門戶,分析報告模板,管理后臺,對爬取的項目信息,將審計過的可用的,根據(jù)市場業(yè)務(wù)的需,初期對企業(yè)內(nèi)部服,進(jìn)行分類和審計,,項目招投標(biāo)數(shù)據(jù)進(jìn),求,可以定制分析,務(wù),后期公眾號等,按行業(yè)分類,查重,,行匯總分析,多種,的模板,自動輸出,,提供云服務(wù),為其,合規(guī)校驗入庫。,方式展示。,數(shù)據(jù)說話。,他企業(yè)提供咨詢。,PLATFORMFUNCTION,平臺功能,總體功能結(jié)構(gòu),21,、,平臺總體由六部分組成,包括數(shù)據(jù)爬蟲服務(wù),數(shù)據(jù)存儲子系統(tǒng)、數(shù)據(jù)分析系統(tǒng)、數(shù)據(jù)展示子系統(tǒng),后臺管理,子系統(tǒng),微信公眾號子系統(tǒng)。,數(shù)據(jù)采集,數(shù)據(jù)校驗存儲,數(shù)據(jù)分析預(yù)警,數(shù)據(jù)展示,企業(yè)云服務(wù),數(shù)據(jù)展示門戶平臺,公眾號服務(wù)平臺,基于,MYSQL,的關(guān)系型數(shù)據(jù)中心,安,全,信,體,系,招標(biāo)項,目信息,中標(biāo)項,目信息,行業(yè)分,類信息,國家及,各地政,行業(yè)最,平臺用,其他信,息,審,府政策,新動態(tài),信息,信息,戶信息,用戶定,制消息,推送信,息,,核,息,規(guī),則,制,定,基于,MOGODB,的大數(shù)據(jù)存儲,數(shù)據(jù)爬蟲服務(wù),數(shù)據(jù)爬蟲服務(wù),22,、,數(shù)據(jù)爬蟲服務(wù)從政府采購網(wǎng)站、政府電子政務(wù)網(wǎng)站、主流媒體網(wǎng)站抓取相關(guān)信息,經(jīng)過初步分類,存儲到大,數(shù)據(jù)平臺。,數(shù)據(jù)爬蟲服務(wù)功能說明,編號,1,2,3,4,5,6,7,8,9,功能描述,主動觸發(fā),根據(jù)定制目標(biāo)信息網(wǎng)站列表,定時主動檢測是否有新信息發(fā)布,分析目標(biāo)網(wǎng)站,URL,,獲取要抓取的項目信息或政策等信息的,URL,清單,將,URL,存儲到消息隊列中,可采用,KAFAKA,或,ACTIVEMQ,等,爬蟲服務(wù)從消息隊列中獲得,URL,,根據(jù)不同網(wǎng)站適配器,進(jìn)行數(shù)據(jù)的爬取,進(jìn)行信息的檢查審核,關(guān)鍵信息是否缺失,對缺失的信息進(jìn)行標(biāo)記,進(jìn)行數(shù)據(jù)的簡單分類,主要是三類項目、政策和行業(yè),大部分的數(shù)據(jù)記錄通過檢查,未通過檢查的記錄存入指定錯誤明細(xì)表,通過,HIVESQL,寫入,HBASE,中,同時寫入分析服務(wù)消息隊列中一份,10,記錄日志,數(shù)據(jù)分析服務(wù),23,、,數(shù)據(jù)分析服務(wù)將初步分類的信息,根據(jù)定制的模版和行業(yè),進(jìn)行大數(shù)據(jù)處理,寫入關(guān)系型數(shù)據(jù)庫中,便于進(jìn),行數(shù)據(jù)的展示和結(jié)果的獲取。,數(shù)據(jù)分析服務(wù)功能說明,編號,1,2,3,4,5,6,7,8,功能描述,主動觸發(fā),根據(jù)消息隊列中定制消息變化,進(jìn)行網(wǎng)頁的分析處理,根據(jù)定制模版分析目標(biāo)網(wǎng)頁中關(guān)鍵的數(shù)據(jù)項,如項目名稱,中標(biāo)金額,中標(biāo)廠商等,對分析出的關(guān)鍵信息進(jìn)行合規(guī)檢查,對合法信息,記錄到,MYSQL,中,對缺失的信息進(jìn)行標(biāo)記,改進(jìn)適配器類型和定制模版,進(jìn)行數(shù)據(jù)的行業(yè)分類,標(biāo)記信息的行業(yè)屬性,可能有多個,通過大數(shù)據(jù),STORM,平臺進(jìn)行處理,記錄日志,未通過檢查的記錄存入指定錯誤明細(xì)表,數(shù)據(jù)展示服務(wù),24,、,數(shù)據(jù)展示服務(wù)將關(guān)系型數(shù)據(jù)庫中可使用數(shù)據(jù),通過自動化報表工具進(jìn)行展示,可根據(jù)業(yè)務(wù)需求,進(jìn)行行業(yè)分,類展示和匯總。,數(shù)據(jù)展示服務(wù)功能說明,編號,1,2,3,4,5,6,7,8,功能描述,用戶的管理,包括用戶的增加,刪除,修改,權(quán)限,登錄等,自動化報表工具,定制的主題報表,按行業(yè)等進(jìn)行匯總分析,也可按區(qū)域進(jìn)行,根據(jù)要求,對某廠商的分析,針對某具體廠商的單獨分析,同行業(yè)多廠商的對比分析,比較廠商的市場份額等,某區(qū)域總的政府投資總額分析,行業(yè)占比分析等,數(shù)據(jù)的推送服務(wù),根據(jù)某用戶的定制申請,可進(jìn)行主動推送某行業(yè)消息,記錄日志,數(shù)據(jù)適配器模型,25,、,數(shù)據(jù)適配器模型是根據(jù)目標(biāo)網(wǎng)站的,URL,,適配該網(wǎng)站招投標(biāo)信息、政策信息等功能區(qū)域的方法,通常需要根,據(jù)該網(wǎng)站的升級,不斷進(jìn)行更改。,數(shù)據(jù)適配器功能說明,編號,1,2,3,4,5,6,7,8,功能描述,網(wǎng)站清單的維護(hù),行業(yè)分類的維護(hù),適配器的定制,加載,變更,維護(hù),關(guān)鍵數(shù)據(jù)項的維護(hù),網(wǎng)頁適配器的維護(hù),對某具體網(wǎng)頁關(guān)鍵信息抓取的適配器定制,加載,變更等,適配器的測試工具,定期測試適配器是否正常工作,如檢測失敗,可進(jìn)行主動推送預(yù)警消息,記錄日志,TECHNICALSCHEME,技術(shù)方案,31,、,技術(shù)方案,,架構(gòu)圖,數(shù)據(jù)展示,WEB,BOOTSTRAP,AJAX,數(shù)據(jù)展示,H5,BOOTSTRAP,AJAX,ANDROID,客戶端,IONIC,SQLITE,ANGLAUERJS,VOLLEY,微信小程序、公眾號,JS,微信,API,接口總線,/,數(shù)據(jù)服務(wù),WEB,接口,RESTFUL,OAUTH,H5,接口,SPRINGMVC,JPA,客戶端,接口,SOLR,MEMCACHED,REDIS,數(shù)據(jù)分析服務(wù),任務(wù)管理,配置管理,KAFAKA,報表管理,行業(yè)管理,MYSQL,ACTIVEMQ,MONGODB,數(shù)據(jù)庫,數(shù)據(jù)爬蟲服務(wù),KAFAKA,MODEL,HTTPCLIENT,,32,、,技術(shù)方案,,網(wǎng)絡(luò)拓?fù)?網(wǎng)絡(luò)帶寬考慮,20M,獨享,初步滿足各省招投標(biāo)項目的數(shù)據(jù)使用,,30,個網(wǎng)站,每天約,10000,個左右招標(biāo),及中標(biāo)項目數(shù)據(jù)。,33,、,服務(wù)器,全部采用,X86,開放架構(gòu),單服務(wù)器配置建議如下所示。,服務(wù)器類型,服務(wù)器功能,MOGODB,服務(wù)器,數(shù)據(jù)存儲平臺,(,MOGODB,及,MYSQL,集群),MYSQL,服務(wù)器,數(shù)據(jù)爬蟲服務(wù)器,數(shù)據(jù)爬取及分析,平臺,數(shù)據(jù)分析審計服務(wù)器,數(shù)據(jù)展示,服務(wù)器,數(shù)據(jù)展示平臺,(包括接口),數(shù)據(jù)接口,服務(wù)器,數(shù)量,10,3,3,3,3,3,CPU,32,32,12,12,32,32,內(nèi)存,128G,128G,24G,24G,128G,128G,網(wǎng)口,21GB,21GB,21GB,21GB,21GB,21GB,操作系統(tǒng),CENTOS63,CENTOS63,CENTOS63,CENTOS63,CENTOS63,CENTOS63,內(nèi)置盤,12TB7200,RPM,SATADISKS,4600GB15KSAS,DISKSRAID01,1TB7200,RPM,SATADISKS,4600GB15KSAS,DISKSRAID01,22TB7200,RPM,SATADISKS,4600GB15KSAS,DISKSRAID01,34,、,關(guān)鍵技術(shù),STORM,APACHESTORM,是一個分布式實時大數(shù)據(jù)處理系統(tǒng)。,STORM,設(shè)計用于在容錯和水平可擴(kuò)展方法中處理大量數(shù),據(jù)。,STORM,是,TWITTER,開源的分布式實時大數(shù)據(jù)處理框架,被業(yè)界稱為實時版,HADOOP,,隨著大數(shù)據(jù)實時處理,解決方案(流計算)的應(yīng)用日趨廣泛,目前已是分布式技術(shù)領(lǐng)域最新爆發(fā)點,而,STORM,更是流計算技術(shù)中的,佼佼者和主流。,STORM,框架主要由,7,部分組成。,TOPOLOGY,一個實時應(yīng)用的計算任務(wù)被打包作為,TOPOLOGY,發(fā)布,這同,HADOOP,的,MAPREDUCE,任務(wù)相似。,SPOUT,,STORM,中的消息源,用于為,TOPOLOGY,生產(chǎn)消息,(數(shù)據(jù)),一般是從外部數(shù)據(jù)源(如,MESSAGEQUEUE,、,RDBMS,、,NOSQL,、,REALTIMELOG,)不間斷地讀取數(shù)據(jù),并發(fā)送給,TOPOLOGY,消息(,TUPLE,元組)。,BOLT,,STORM,中的消息處理者,用于為,TOPOLOGY,進(jìn)行消,息的處理,,BOLT,可以執(zhí)行過濾,聚合,,查詢數(shù)據(jù)庫等操,作,而且可以一級一級的進(jìn)行處理。,STREAM,產(chǎn)生的數(shù)據(jù)(,TUPLE,元組)。,STREAMGROUPING,在,BOLT,任務(wù)中定義的,STREAM,進(jìn)行區(qū),分。,TASK,每個,SPOUT,或者,BOLT,在集群執(zhí)行許多任務(wù)。,WORKER,,TOPOLOGY,跨一個或多個,WORKER,節(jié)點的進(jìn)程執(zhí),行。,35,、,關(guān)鍵技術(shù),MOGODB,MONGODB,是一個新的和普遍使用的數(shù)據(jù)庫,它是一個基于文檔的非關(guān)系數(shù)據(jù)庫提供程序。,雖然它比傳統(tǒng)的數(shù)據(jù)庫快,100,倍,但早期說它將廣泛地取代傳統(tǒng)的,RDBMS,。,但是,不可否認(rèn)的是在性能,和可擴(kuò)展性方面,MONGODB,有著明顯的優(yōu)勢。,關(guān)系數(shù)據(jù)庫具有典型的架構(gòu)設(shè)計,可以顯示表的數(shù)量以及這些表之間的關(guān)系,而在,MONGODB,中則沒有關(guān)系,的概念。,MONGODB,優(yōu)點,MONGODB,的架構(gòu)較少。它是一個文檔數(shù)據(jù)庫,它的一個集合持有不同的文檔。,從一個到另一個的文檔的數(shù)量,內(nèi)容和大小可能有差異。,MONGODB,中單個對象的結(jié)構(gòu)很清淅。,MONGODB,中沒有復(fù)雜的連接。,MONGODB,提供深度查詢的功能,因為它支持對文檔的強大的動態(tài)查詢。,MONGODB,很容易擴(kuò)展。它使用內(nèi)部存儲器來存儲工作集,這是其快速訪問的原因。,使用方便,重量輕,/,輕量級,比,RDBMS,快得多,應(yīng)該使用,MONGODB,在哪些場景,大而復(fù)雜的數(shù)據(jù),移動和社會基礎(chǔ)設(shè)施數(shù)據(jù),內(nèi)容管理和交付,用戶數(shù)據(jù)管理,數(shù)據(jù)中心。,35,、,關(guān)鍵技術(shù),KAFAKA,KAFKA,是一個分布式的、可分區(qū)的、可復(fù)制的消息系統(tǒng)。它提供了普通消息系統(tǒng)的功能,但具有自己獨特的,設(shè)計。,KAFKA,將消息以,TOPIC,為單位進(jìn)行歸納。,將向,KAFKATOPIC,發(fā)布消息的程序稱為,PRODUCERS,,將預(yù)訂,TOPICS,并消費消息的程,序稱為,CONSUMER,。,KAFKA,以集群的方式運行,可以由一個或多個服務(wù)組成,每,個服務(wù)叫做一個,BROKERPRODUCERS,通過網(wǎng)絡(luò)將消息發(fā)送到,KAFKA,集群,集群向消,費者提供消息,如右圖所示。,KAFKA,提供的一個抽象概念,TOPIC,。,一個,TOPIC,是對一組消息的歸納。對每個,TOPIC,,,KAFKA,對它的日志進(jìn),行了分區(qū),如左圖所示。,每個分區(qū)都由一系列有序的、不可變的消息組成,這些消息被連續(xù),的追加到分區(qū)中。分區(qū)中的每個消息都有一個連續(xù)的序列號叫做,OFFSET,,用來在分區(qū)中唯一的標(biāo)識這個消息。,在一個可配置的時間段內(nèi),,KAFKA,集群保留所有發(fā)布的消息,不管這,些消息有沒有被消費。,KAFKA,的性能是和數(shù)據(jù)量無關(guān)的常量級的,所,以保留太多的數(shù)據(jù)并不是問題。,PROJECTPLAN,工期計劃,41,、,項目管理,1,、招投標(biāo)項目信息大數(shù)據(jù)平,臺項目管理工作,主要從項,目啟動、項目計劃、項目執(zhí),行和項目收尾幾個階段進(jìn)行,管理,基于項目管理九要素,,重點控制質(zhì)量及風(fēng)險。,2,、項目涉及到較多的硬件資,源和網(wǎng)絡(luò)資源,建議先期進(jìn),行申請,也可通過云服務(wù)采,用租用方式。,3,、建議先行成立項目工作小,組,便于總體的項目配合以,及協(xié)調(diào)等工作,確定項目總,負(fù)責(zé)人。,41,、,工期計劃,全部工期估算為,3,個月左右。,謝,謝,,
下載積分: 4 賞幣
上傳時間:2024-01-07
頁數(shù): 24
大?。?2.46(MB)
子文件數(shù):