1. <rp id="zsypk"></rp>

      2. 大數(shù)據(jù)時(shí)代基于云計(jì)算的數(shù)據(jù)監(jiān)護(hù)研究論文

        時(shí)間:2021-04-15 18:27:21 論文 我要投稿

        大數(shù)據(jù)時(shí)代基于云計(jì)算的數(shù)據(jù)監(jiān)護(hù)研究論文

          在大數(shù)據(jù)時(shí)代,為了更好地管理和利用科學(xué)數(shù)據(jù),計(jì)算機(jī)圖靈獎(jiǎng)獲得者Jim Gray于2002年提出了數(shù)據(jù)監(jiān)護(hù)(Data Curation)的概念。十余年來,數(shù)據(jù)監(jiān)護(hù)一直是國內(nèi)外信息資源管理領(lǐng)域的熱點(diǎn)議題,研究主題集中在數(shù)據(jù)監(jiān)護(hù)的內(nèi)容、發(fā)展策略、合作模式、職業(yè)教育、成功實(shí)踐等領(lǐng)域。111鑒于云計(jì)算能夠?yàn)閿?shù)據(jù)監(jiān)護(hù)提供強(qiáng)有力的技術(shù)支撐,如云計(jì)算快速提供資源的能力有助于輔助完成資源密集型數(shù)據(jù)監(jiān)護(hù)任務(wù),網(wǎng)絡(luò)化云服務(wù)有利于實(shí)現(xiàn)數(shù)據(jù)監(jiān)護(hù)的協(xié)同工作,基于云計(jì)算開展數(shù)據(jù)監(jiān)護(hù)引起了國外信息資源管理學(xué)界和業(yè)界的廣泛關(guān)注。本文對基于云計(jì)算的數(shù)據(jù)監(jiān)護(hù)問題進(jìn)行探討,希望對我國的數(shù)據(jù)監(jiān)護(hù)工作有所借鑒。

        大數(shù)據(jù)時(shí)代基于云計(jì)算的數(shù)據(jù)監(jiān)護(hù)研究論文

          一、數(shù)據(jù)監(jiān)護(hù)工作流程

          數(shù)據(jù)監(jiān)護(hù)是為了確保數(shù)據(jù)當(dāng)前的使用目的,并能用于未來再發(fā)現(xiàn)及再利用,從數(shù)據(jù)產(chǎn)生伊始即對其進(jìn)行管理和完善的活動。121為了有效指導(dǎo)數(shù)據(jù)監(jiān)護(hù)實(shí)踐,提高數(shù)據(jù)監(jiān)護(hù)效率,一些數(shù)據(jù)監(jiān)護(hù)機(jī)構(gòu)和研究者對數(shù)據(jù)監(jiān)護(hù)過程進(jìn)行了概念化,提出了相應(yīng)的數(shù)據(jù)監(jiān)護(hù)生命周期模型。本文基于英國數(shù)據(jù)監(jiān)護(hù)中心的DCC數(shù)據(jù)監(jiān)護(hù)生命周期模型13與王芳和慎金花提出的細(xì)化的數(shù)據(jù)監(jiān)護(hù)生命周期模型,梳理出了數(shù)據(jù)監(jiān)護(hù)工作流程,見圖1。數(shù)據(jù)監(jiān)護(hù)工作流程由4個(gè)階段、11個(gè)業(yè)務(wù)環(huán)節(jié)組成,涵蓋了數(shù)據(jù)監(jiān)護(hù)的所有必要階段和核心工作。

          數(shù)據(jù)收集階段:數(shù)據(jù)采集。數(shù)據(jù)采集是數(shù)據(jù)監(jiān)護(hù)活動的起點(diǎn),指根據(jù)采集政策,從數(shù)據(jù)創(chuàng)建者、檔案館、知識庫或數(shù)據(jù)中心等接收數(shù)據(jù)。元數(shù)據(jù)創(chuàng)建。為采集到的數(shù)據(jù)創(chuàng)建管理、描述、結(jié)構(gòu)和技術(shù)元數(shù)據(jù),以便進(jìn)行數(shù)據(jù)管理和數(shù)據(jù)維護(hù),以及實(shí)現(xiàn)數(shù)據(jù)共享。

          數(shù)據(jù)處理階段:數(shù)據(jù)評價(jià)和選擇。評估數(shù)據(jù)并為長期監(jiān)護(hù)和保存選擇數(shù)據(jù)。數(shù)據(jù)評價(jià)和選擇直接關(guān)系到科學(xué)數(shù)據(jù)庫的質(zhì)量,并且?guī)в幸欢ǖ闹饔^性。數(shù)據(jù)剔除。根據(jù)成文的政策、指引或法律要求,處理未成為長期監(jiān)護(hù)和保存對象的數(shù)據(jù),將這些數(shù)據(jù)轉(zhuǎn)移到其他檔案館、知識庫、數(shù)據(jù)中心或其他保管機(jī)構(gòu)。根據(jù)法律要求,有些數(shù)據(jù)會被安全銷毀。數(shù)據(jù)導(dǎo)入。將經(jīng)過選擇的數(shù)據(jù)傳送至檔案館、知識庫、數(shù)據(jù)中心或其他數(shù)據(jù)監(jiān)護(hù)機(jī)構(gòu)。為保證數(shù)據(jù)的可用性,在導(dǎo)入數(shù)據(jù)之前,應(yīng)進(jìn)行去重、交叉注釋、格式認(rèn)證等。數(shù)據(jù)遷移。根據(jù)存儲環(huán)境的需求,或者為了確保數(shù)據(jù)對硬件和軟件退化的抗擾性,改換數(shù)據(jù)的格式、存儲系統(tǒng)、存儲類型。

          數(shù)據(jù)保存階段:數(shù)據(jù)長期保存。長期保存須確保數(shù)據(jù)的可信性、可靠性、可用性和完整性。長期保存包括數(shù)據(jù)清洗、數(shù)據(jù)驗(yàn)證、分配保存元數(shù)據(jù)、分配表征信息,保證數(shù)據(jù)具備可接受的數(shù)據(jù)結(jié)構(gòu)和文件格式。數(shù)據(jù)存儲。遵守相關(guān)標(biāo)準(zhǔn),選擇科學(xué)的組織方式和安全的存儲介質(zhì)組織并存儲數(shù)據(jù)。數(shù)據(jù)存儲既可以保證數(shù)據(jù)的安全性,又便于數(shù)據(jù)被隨時(shí)使用和加工處理。

          數(shù)據(jù)利用階段:數(shù)據(jù)獲取。采用適當(dāng)?shù)臉?biāo)準(zhǔn)發(fā)布數(shù)據(jù),并執(zhí)行嚴(yán)格的訪問控制和驗(yàn)證程序,保證用戶安全、準(zhǔn)確的訪問和獲取數(shù)據(jù)。數(shù)據(jù)復(fù)用。制訂數(shù)據(jù)復(fù)用規(guī)則,在不違反知識產(chǎn)權(quán)的前提下,提供數(shù)據(jù)復(fù)制、鏈接、引用等服務(wù)。數(shù)據(jù)轉(zhuǎn)換。根據(jù)原始數(shù)據(jù)創(chuàng)建新數(shù)據(jù)。例如,通過轉(zhuǎn)換格式、建立子集等途徑,創(chuàng)建新數(shù)據(jù)。

          二、云計(jì)算為數(shù)據(jù)監(jiān)護(hù)提供支撐

          云計(jì)算作為分布式計(jì)算、網(wǎng)絡(luò)存儲、負(fù)載均衡、熱備份冗余等計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)融合的產(chǎn)物,具有超大規(guī)模、虛擬化、通用性、高可擴(kuò)展性等諸多特點(diǎn)。云計(jì)算的特點(diǎn)與數(shù)據(jù)監(jiān)護(hù)的需求非常契合,可以為數(shù)據(jù)監(jiān)護(hù)提供強(qiáng)有力的技術(shù)支撐。

          彈性服務(wù):云計(jì)算服務(wù)的規(guī)模可快速伸縮,以自動適應(yīng)業(yè)務(wù)負(fù)載的動態(tài)變化。用戶使用的云計(jì)算資源與業(yè)務(wù)的實(shí)際需求相一致,避免了因?yàn)橘Y源供需不匹配而導(dǎo)致的服務(wù)質(zhì)量下降或資源浪費(fèi)。161數(shù)據(jù)監(jiān)護(hù)的數(shù)據(jù)剔除和數(shù)據(jù)遷移等任務(wù)不需要持續(xù)不斷的執(zhí)行,屬偶發(fā)性活動。云計(jì)算的彈性服務(wù)能夠很好地滿足偶發(fā)性數(shù)據(jù)監(jiān)護(hù)活動的資源調(diào)用需求。

          按需服務(wù):云計(jì)算以服務(wù)的形式為用戶提供基礎(chǔ)設(shè)施、存儲空間、應(yīng)用程序等,并能夠根據(jù)用戶的需求,自動分配各種資源。17用戶也可以根據(jù)需要在云中部署所需的應(yīng)用程序。云計(jì)算的按需服務(wù)為數(shù)據(jù)監(jiān)護(hù)中需要依賴主觀意識完成的任務(wù),如元數(shù)據(jù)創(chuàng)建、數(shù)據(jù)評價(jià)和選擇提供了極大的便利。

          泛在接入:用戶通過互聯(lián)網(wǎng)可以隨時(shí)隨地利用云計(jì)算服務(wù)。數(shù)據(jù)用戶越來越多的使用筆記本電腦、智能手機(jī)、平板電腦,將數(shù)據(jù)監(jiān)護(hù)業(yè)務(wù)流程轉(zhuǎn)移至云,能夠極大地方便用戶上傳、訪問和下載數(shù)據(jù)。數(shù)據(jù)監(jiān)護(hù)的數(shù)據(jù)采集、數(shù)據(jù)獲取和數(shù)據(jù)復(fù)用等業(yè)務(wù)環(huán)節(jié),可以從云計(jì)算的這一特點(diǎn)中受益。

          服務(wù)外包:用戶進(jìn)行數(shù)據(jù)處理所需的計(jì)算資源價(jià)格昂貴,將提供計(jì)算資源的業(yè)務(wù)委托給云服務(wù)商,既能夠節(jié)省開支,又能夠使用戶專注于自己的核心工作。云服務(wù)商為了利益最大化,保持最優(yōu)競爭力,都會迅速應(yīng)對技術(shù)變革,以更低的價(jià)格提供更快的處理器和更大的存儲空間。云計(jì)算服務(wù)外包的特點(diǎn)使數(shù)據(jù)監(jiān)護(hù)機(jī)構(gòu)將部分信息技術(shù)支持業(yè)務(wù)委托給云服務(wù)商,以獲得更低廉的價(jià)格和更優(yōu)質(zhì)的服務(wù)成為可能。

          三、基于云計(jì)算的數(shù)據(jù)監(jiān)護(hù)模型

          云計(jì)算提供從硬件設(shè)施到應(yīng)用軟件的多層次服務(wù)。根據(jù)服務(wù)的對象和功能差異可以將云計(jì)算劃分為三種服務(wù)模式:基礎(chǔ)設(shè)施即服務(wù)(IaaS)、平臺即服務(wù)(PaaS)、軟件即服務(wù)(SaaS);根據(jù)租用云計(jì)算的用戶對數(shù)據(jù)和環(huán)境的控制權(quán),可以將云計(jì)算劃分為公有云、私有云和混合云等部署模型。本文根據(jù)數(shù)據(jù)監(jiān)護(hù)不同業(yè)務(wù)階段的工作內(nèi)容和技術(shù)需求,并結(jié)合云計(jì)算的服務(wù)模式和部署模型,構(gòu)建了基于云計(jì)算的數(shù)據(jù)監(jiān)護(hù)模型,見圖2。下面分別從數(shù)據(jù)監(jiān)護(hù)的云計(jì)算服務(wù)模式和部署模型兩個(gè)方面分析基于云計(jì)算的數(shù)據(jù)監(jiān)護(hù)模型。

          (一)數(shù)據(jù)監(jiān)護(hù)的云計(jì)算服務(wù)模式

          IaaS層。IaaS提供基礎(chǔ)設(shè)施部署服務(wù)。IaaS通過虛擬化技術(shù)整合服務(wù)器、存儲設(shè)備、網(wǎng)絡(luò)資源、高性能計(jì)算集群等物理資源,構(gòu)建全局統(tǒng)一的動態(tài)虛擬化資源池;谠朴(jì)算的數(shù)據(jù)監(jiān)護(hù)模型的IaaS層為上層云計(jì)算服務(wù)提供海量硬件資源,實(shí)現(xiàn)硬件資源的按需酉己置。

          PaaS層。PaaS是云計(jì)算應(yīng)用程序運(yùn)行環(huán)境,提供應(yīng)用程序部署與管理服務(wù)。PaaS不僅能夠?qū)崿F(xiàn)海量數(shù)據(jù)的存儲,而且能夠提供面向海量數(shù)據(jù)的分析處理功能。在基于云計(jì)算的數(shù)據(jù)監(jiān)護(hù)模型的PaaS層,數(shù)據(jù)監(jiān)護(hù)機(jī)構(gòu)使用云供應(yīng)商的軟件工具和開發(fā)語言,開發(fā)數(shù)據(jù)收集和數(shù)據(jù)處理所需的各種應(yīng)用程序,實(shí)現(xiàn)應(yīng)用程序的多元化和定制化服務(wù),并將科學(xué)數(shù)據(jù)保存于海量數(shù)據(jù)存儲系統(tǒng)。

          SaaS層。SaaS提供以服務(wù)為形式的應(yīng)用程序。SaaS允許用戶使用部署于供應(yīng)商云基礎(chǔ)設(shè)施上的應(yīng)用程序,用戶也可以根據(jù)需求向供應(yīng)商定制應(yīng)用程序。在基于云計(jì)算的數(shù)據(jù)監(jiān)護(hù)模型的SaaS層,數(shù)據(jù)監(jiān)護(hù)機(jī)構(gòu)通過應(yīng)用程序向用戶提供數(shù)據(jù)利用服務(wù),實(shí)現(xiàn)數(shù)據(jù)共享和科研協(xié)作。

          (二)數(shù)據(jù)監(jiān)護(hù)的云計(jì)算部署模型

          數(shù)據(jù)監(jiān)護(hù)的各個(gè)階段分別面向數(shù)據(jù)監(jiān)護(hù)方和數(shù)據(jù)使用方,對應(yīng)不同的數(shù)據(jù)存取、處理等操作權(quán)限,因此需要采用相適應(yīng)的云計(jì)算部署模型。數(shù)據(jù)監(jiān)護(hù)過程中的數(shù)據(jù)利用階段位于SaaS層,為用戶提供方便高效的數(shù)據(jù)獲取等服務(wù),而公有云面向一般公眾提供敏捷彈性服務(wù)的特點(diǎn)與數(shù)據(jù)利用階段的功能需求相契合。用戶能夠通過網(wǎng)絡(luò)瀏覽器像使用個(gè)人電腦中的軟件那樣使用公有云的應(yīng)用程序,實(shí)現(xiàn)應(yīng)用程序的泛在訪問。因此,基于云計(jì)算的數(shù)據(jù)監(jiān)護(hù)模型的SaaS層應(yīng)采用公有云部署模型。數(shù)據(jù)收集和數(shù)據(jù)處理工作要求云計(jì)算提供量身定制的服務(wù)功能和非常穩(wěn)定的'服務(wù)質(zhì)量,而數(shù)據(jù)保存工作要求云計(jì)算能夠切實(shí)保障數(shù)據(jù)安全。私有云部署在用戶數(shù)據(jù)中心的防火墻內(nèi),能夠提供對數(shù)據(jù)、安全性和服務(wù)質(zhì)量的最有效控制,而且不會沖擊用戶已有的業(yè)務(wù)流程。因此,基于云計(jì)算的數(shù)據(jù)監(jiān)護(hù)模型的PaaS層適宜采用私有云部署模型。上述公有云和私有云的基礎(chǔ)設(shè)施共同構(gòu)成了基于云計(jì)算的數(shù)據(jù)監(jiān)護(hù)模型的IaaS層,并且公有云和私有云具有統(tǒng)一的接口標(biāo)準(zhǔn),保證服務(wù)的無縫遷移,即IaaS層采用混合云部署模型。

          四、基于云計(jì)算的數(shù)據(jù)監(jiān)護(hù)案例

          SRF項(xiàng)目:英國南安普頓大學(xué)的SRF項(xiàng)目,針對科學(xué)研究工作集成了許多已有的協(xié)作型數(shù)據(jù)管理工具,并將這些工具部署到一個(gè)共享的虛擬云平臺上,以SaaS的方式提供服務(wù)。SRF工具最大的特點(diǎn)是能夠在網(wǎng)絡(luò)日志中自動或者手工創(chuàng)建和共享實(shí)驗(yàn)數(shù)據(jù)。例如,SRF的一款代理軟件能夠植入實(shí)驗(yàn)儀器和計(jì)算機(jī),自動抽取儀器在實(shí)驗(yàn)過程中記錄的數(shù)據(jù),并轉(zhuǎn)換為XML格式,然后以博客的形式發(fā)布以實(shí)現(xiàn)協(xié)作復(fù)用。通過博客發(fā)布平臺實(shí)現(xiàn)實(shí)驗(yàn)過程、實(shí)驗(yàn)數(shù)據(jù)、實(shí)驗(yàn)分析的互聯(lián),組織實(shí)驗(yàn)數(shù)據(jù)記錄,構(gòu)建實(shí)驗(yàn)、實(shí)驗(yàn)數(shù)據(jù)、實(shí)驗(yàn)設(shè)備之間的關(guān)聯(lián)關(guān)系。在數(shù)據(jù)監(jiān)護(hù)生命周期中,SRF工具主要用于接收和抽取數(shù)據(jù),以保證實(shí)驗(yàn)數(shù)據(jù)在上傳至云的過程中會被格式化成標(biāo)準(zhǔn)格式。

          Data Flow項(xiàng)目:牛津大學(xué)的Data Flow項(xiàng)目,旨在創(chuàng)建免費(fèi)的云托管Data Stage和Data Bank,以便于管理、保存、發(fā)布研究數(shù)據(jù)。其中,Data Stage以在用戶電腦上運(yùn)行映射驅(qū)動器的方式,提供研究組水平的、安全的“本地”文件管理環(huán)境。另外,Data Stage還提供數(shù)據(jù)的網(wǎng)絡(luò)獲取和在線存儲服務(wù),用戶通過訪問控制程序的認(rèn)證之后,即可以訪問私人、共享、協(xié)作、公眾和公共數(shù)據(jù)目錄。Data Bank是一種虛擬化的、基于云部署的機(jī)構(gòu)研究數(shù)據(jù)倉儲。機(jī)構(gòu)可以選擇將Data Bank部署在Eduserv教育云或者機(jī)構(gòu)自己的基礎(chǔ)設(shè)施中。Data Bank還具備包括數(shù)據(jù)抽取、儲存、長期保存、訪問在內(nèi)的一系列數(shù)據(jù)監(jiān)護(hù)功能。

          Kindura項(xiàng)目:倫敦國王學(xué)院的Kindura項(xiàng)目,是一個(gè)基于混合云部署模型的科學(xué)數(shù)據(jù)管理試點(diǎn)項(xiàng)目,提供基于存儲的數(shù)據(jù)管理服務(wù)和基于計(jì)算的數(shù)據(jù)處理服務(wù)。Kindura項(xiàng)目通過DuraSpace推出的托管云服務(wù)一DuraCloud,將本地服務(wù)與各種云服務(wù)相銜接。用戶利用DuraCloud提供的統(tǒng)一界面,即可享受一站式數(shù)據(jù)存取服務(wù)。Kindura項(xiàng)目通過部署于服務(wù)器上的規(guī)則引擎,以及面向規(guī)則的集成數(shù)據(jù)管理系統(tǒng)(iRODS)的規(guī)則庫,決定具體數(shù)據(jù)存儲在本地還是存儲于云端:二進(jìn)制對象存儲在云端,元數(shù)據(jù)和Fedora對象存儲在本地。l9Kindura項(xiàng)目證明,混合云能夠有效節(jié)省數(shù)據(jù)監(jiān)護(hù)成本,并且能夠更加高效地利用本地存儲庫,提升數(shù)據(jù)處理能力。

          東南大學(xué)AMS-02項(xiàng)目:東南大學(xué)為大型國際合作項(xiàng)目AMS-02的數(shù)據(jù)監(jiān)護(hù)工作構(gòu)建的云計(jì)算平臺,提供IaaS、PaaS、SaaS服務(wù)。該云計(jì)算平臺架構(gòu)如圖3所示。在IaaS層,云計(jì)算基礎(chǔ)設(shè)施由3500顆CPU內(nèi)核和500TB高速存儲設(shè)備構(gòu)成,提供虛擬機(jī)和物理機(jī)的按需分配,并且自動配置操作系統(tǒng)、科學(xué)計(jì)算函數(shù)庫等運(yùn)行環(huán)境。在PaaS層,數(shù)據(jù)分析處理平臺提供大規(guī)模計(jì)算能力和海量數(shù)據(jù)存儲能力;應(yīng)用開發(fā)環(huán)境為AMS-02數(shù)據(jù)分析處理應(yīng)用提供編程接口。在SaaS層,以服務(wù)的形式部署云計(jì)算應(yīng)用程序,用戶通過訪問AMS-02應(yīng)用,可以獲取原始科學(xué)數(shù)據(jù)以及數(shù)據(jù)處理分析結(jié)果。云計(jì)算通過超級計(jì)算模式,整合大量的存儲、計(jì)算、帶寬等資源,為數(shù)據(jù)監(jiān)護(hù)提供了經(jīng)濟(jì)高效的解決方案。國內(nèi)的數(shù)據(jù)監(jiān)護(hù)尚處于起步階段,對基于云計(jì)算的數(shù)據(jù)監(jiān)護(hù)進(jìn)行深入的理論探討和實(shí)踐探索,有助于推動我國的數(shù)據(jù)監(jiān)護(hù)實(shí)現(xiàn)跨越式發(fā)展。

        【大數(shù)據(jù)時(shí)代基于云計(jì)算的數(shù)據(jù)監(jiān)護(hù)研究論文】相關(guān)文章:

        云計(jì)算環(huán)境數(shù)據(jù)安全研究論文11-03

        研究基于云計(jì)算角度下的數(shù)據(jù)存儲安全技術(shù)論文11-07

        云計(jì)算環(huán)境下的數(shù)據(jù)挖掘研究論文10-28

        大數(shù)據(jù)時(shí)代的大數(shù)據(jù)管理研究論文10-19

        基于數(shù)據(jù)抽取與訂閱實(shí)現(xiàn)數(shù)據(jù)共享分析及研究論文10-30

        大數(shù)據(jù)時(shí)代數(shù)據(jù)挖掘技術(shù)教學(xué)研究論文01-20

        分析論文:云計(jì)算環(huán)境下大數(shù)據(jù)06-26

        大數(shù)據(jù)時(shí)代的國際關(guān)系研究論文11-05

        淺析基于云計(jì)算的分布式數(shù)據(jù)挖掘系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)論文11-14

        99热这里只有精品国产7_欧美色欲色综合色欲久久_中文字幕无码精品亚洲资源网久久_91热久久免费频精品无码
          1. <rp id="zsypk"></rp>