淺析GIS多源數(shù)據集成模式論文
[摘要] 地理信息系統(tǒng)的迅速發(fā)展和廣泛應用導致了空間數(shù)據多源性的產生,為數(shù)據綜合利用和數(shù)據共享帶來不便。本文探討空間數(shù)據多源性的產生和表現(xiàn),指出多數(shù)據格式是多源空間數(shù)據集成的瓶頸;分析和評價了多源空間數(shù)據集成的三種模式,并展望了多源數(shù)據集成的發(fā)展方向。
一、多數(shù)據格式是多源空間數(shù)據集成的瓶頸
1、空間數(shù)據多源性的產生和表現(xiàn)
空間數(shù)據多源性的產生和表現(xiàn)主要可以概括為以下幾個層次:
(1)多語義性
地理信息指的是地理系統(tǒng)中各種信息,由于地理系統(tǒng)的研究對象的多種類特點決定了地理信息的多語義性。對于同一個地理信息單元(feature),在現(xiàn)實世界中其幾何特征是一致的,但是卻對應著多種語義,如地理位置、海拔高度、氣候、地貌、土壤等自然地理特征;同時也包括經濟社會信息,如行政區(qū)界限、人口、產量等。一個GIS研究的決不會是一個孤立的地理語義,但不同系統(tǒng)解決問題的側重點也有所不同,因而會存在語義分異問題。
(2)多時空性和多尺度
GIS數(shù)據具有很強的時空特性。一個GIS系統(tǒng)中的數(shù)據源既有同一時間不同空間的數(shù)據系列;也有同一空間不同時間序列的數(shù)據。不僅如此,GIS會根據系統(tǒng)需要而采用不同尺度對地理空間進行表達,不同的觀察尺度具有不同的比例尺和不同的精度。GIS數(shù)據集成包括不同時空和不同尺度數(shù)據源的集成。
(3)獲取手段多源性
獲取地理空間的數(shù)據的方法有多種多樣,包括來自現(xiàn)有系統(tǒng)、圖表、遙感手段、GPS手段、統(tǒng)計調查、實地勘測等。這些不同手段獲得的數(shù)據其存儲格式及提取和處理手段都各不相同。
(4)存儲格式多源性
GIS數(shù)據不僅表達空間實體(真實體或者虛擬實體)的位置和幾何形狀,同時也記錄空間實體對應的屬性,這就決定了GIS數(shù)據源包含有圖形數(shù)據(又稱空間數(shù)據)和屬性數(shù)據兩部分。圖形數(shù)據又可以分為柵格格式和矢量格式兩類。傳統(tǒng)的GIS一般將屬性數(shù)據放在關系數(shù)據庫中,而將圖形數(shù)據存放在專門的圖形文件中。不同的GIS軟件采取不同的文件存儲格式。
2、多源空間數(shù)據集成的迫切性
隨著Internet網絡的飛速發(fā)展和普及,信息共享已經成為一種必然的要求。地理信息也不例外,隨著信息技術以及GIS自身的發(fā)展,GIS已經從純粹地學技術系統(tǒng)的圈子跳了出來,正和IT行業(yè)完全融合,人們對空間信息的需求也越來越多。GIS要進一步發(fā)展,必須完全融入大型MIS(管理信息系統(tǒng))中。1998年美國副總統(tǒng)戈爾提出數(shù)字地球的概念,更是將地理信息技術推到了最前沿。然而地理信息要真正實現(xiàn)共享,必須解決地理信息數(shù)據多格式、多數(shù)據庫集成等瓶頸問題。隨著技術發(fā)展,GIS已經逐步走向完全以純關系數(shù)據存儲和管理空間數(shù)據的發(fā)展道路,這為GIS完全和MIS無縫集成邁出了重要的一步。但因為GIS處理的數(shù)據對象是空間對象,有很強的時空特性,獲取數(shù)據的手段也復雜多樣,這就形成多種格式的原始數(shù)據,再加上GIS應用系統(tǒng)很長一段時間處于以具體項目為中心孤立發(fā)展狀態(tài)中,很多GIS軟件都有自己的數(shù)據格式,這使得GIS的數(shù)據共享問題變得尤為突出。
空間數(shù)據作為數(shù)據類型的一種,同普通數(shù)據一樣需要走過從分散到統(tǒng)一的過程。在計算機的發(fā)展過程中,先是數(shù)據去適應系統(tǒng),每一個系統(tǒng)都為傾向于擁有自己的數(shù)據格式;隨著數(shù)據量的增多,數(shù)據庫系統(tǒng)應運而生;隨著時代的發(fā)展,信息共享的需求越來越多,不同數(shù)據庫之間的數(shù)據交換成了瓶頸;SQL(標準結構化查詢語言)以及ODBC的出現(xiàn)為這一難題提供了比較滿意的解決方案。但是空間數(shù)據如何引進這種思想,或者說將空間數(shù)據也納進標準組織和標準協(xié)議進行規(guī)范和管理,從而使空間數(shù)據共享成為現(xiàn)實。
二、 GIS多源數(shù)據集成模式比較
由于地理信息系統(tǒng)的圖形數(shù)據格式各異,給信息共享帶來了極大的不便,解決多格式數(shù)據源集成一直是近年來GIS應用系統(tǒng)開發(fā)中需要解決的重要問題。目前,實現(xiàn)多源數(shù)據集成的方式大致有三種,即:數(shù)據格式轉換模式、數(shù)據互操作模式、直接數(shù)據訪問模式。
1 、數(shù)據格式轉換模式
格式轉換模式是傳統(tǒng)GIS 數(shù)據集成方法(圖1)。在這種模式下,其他數(shù)據格式經專門的數(shù)據轉換程序進行格式轉換后,復制到當前系統(tǒng)中的數(shù)據庫或文件中。這是目前GIS系統(tǒng)數(shù)據集成的主要辦法。目前得到公認的幾種重要的空間數(shù)據格式有:ESRI公司的Arc/Info Coverage、ArcShape Files、E00格式;AutoDesk的DXF格式和DWG格式;MapInfo的MIF格式;Intergraph的dgn格式等等。 數(shù)據轉換模式主要存在的問題是:
(1)由于缺乏對空間對象統(tǒng)一的描述方法,從而使得不同數(shù)據格式描述空間對象時采用的數(shù)據模型不同,因而轉換后不能完全準確表達源數(shù)據的信息。
(2)這種模式需要將數(shù)據統(tǒng)一起來,違背了數(shù)據分布和獨立性的原則;如果數(shù)據來源是多個代理或企業(yè)單位,這種方法需要所有權的轉讓等問題。 美國國家空間數(shù)據協(xié)會(NSDI)確定制定了統(tǒng)一的空間數(shù)據格式規(guī)范SDTS(Spatial Data Transformation Standard),包括幾何坐標、投影、拓撲關系、屬性數(shù)據、數(shù)據字典,也包括柵格格式和矢量格式等不同的空間數(shù)據格式的轉換標準。許多軟件利用SDTS提供了標準的空間數(shù)據交換格式。目前,ESRI在ARC/INFO中提供了SDTSIMPORT以及SDTSEXPORT模塊,Intergraph公司在MGE產品系列中也支持SDTS矢量格式。SDTS在一定程度上解決了不同數(shù)據格式之間缺乏統(tǒng)一的空間對象描述基礎的問題。但SDTS目前還很不完善,還不能完全概括空間對象的不同描述方法,并且還不能統(tǒng)一為各個層次以及從不同應用領域為空間數(shù)據轉換提供統(tǒng)一的標準;并且SDTS沒有為數(shù)據的集中和分布式處理提供解決方案,所有的`數(shù)據仍需要經過格式轉換復制到系統(tǒng)中,不能自動同步更新。
2 、數(shù)據互操作模式
數(shù)據互操作模式是OpenGIS consortium (OGC) 制定的規(guī)范。OGC是為了發(fā)展開放式地理數(shù)據系統(tǒng)、研究地學空間信息標準化以及處理方法的一個非盈利組織。GIS互操作是指在異構數(shù)據庫和分布計算的情況下,GIS用戶在相互理解的基礎上,能透明地獲取所需的信息。OGC為數(shù)據互操作制定了統(tǒng)一的規(guī)范,從而使得一個系統(tǒng)同時支持不同的空間數(shù)據格式成為可能。根據OGC頒布的規(guī)范,可以把提供數(shù)據源的軟件稱為數(shù)據服務器(Data Servers),把使用數(shù)據的軟件稱為數(shù)據客戶(Data Clients),數(shù)據客戶使用某種數(shù)據的過程就是發(fā)出數(shù)據請求,由數(shù)據服務器提供服務的過程,其最終目的是使數(shù)據客戶能讀取任意數(shù)據服務器提供的空間數(shù)據。OGC規(guī)范基于OMG的CORBA、Microsoft的OLE/COM以及SQL等,為實現(xiàn)不同平臺間服務器和客戶端之間數(shù)據請求和服務提供了統(tǒng)一的協(xié)議。OGC規(guī)范正得到OMG和ISO的承認,從而逐漸成為一種國際標準,將被越來越多的GIS軟件以及研究者所接受和采納。目前,還沒有商業(yè)化GIS軟件完全支持這一規(guī)范。 數(shù)據互操作為多源數(shù)據集成提供了嶄新的思路和規(guī)范。它將GIS帶入了開放式的時代,從而為空間數(shù)據集中式管理和分布存儲與共享提供了操作的依據。OGC標準將計算機軟件領域的非空間數(shù)據處理標準成功地應用到空間數(shù)據上。但是OGC標準更多考慮到采用了OpenGIS協(xié)議的空間數(shù)據服務軟件和空間數(shù)據客戶軟件,對于那些歷史存在的大量非OpenGIS標準的空間數(shù)據格式的處理辦法還缺乏標準的規(guī)范。而從目前來看,非OpenGIS標準的空間數(shù)據格式仍然占據已有數(shù)據的主體。
數(shù)據互操作規(guī)范為多源數(shù)據集成帶來了新的模式,但這一模式在應用中存在一定局限性:首先,為真正實現(xiàn)各種格式數(shù)據之間的互操作,需要每個每種格式的宿主軟件都按照著統(tǒng)一的規(guī)范實現(xiàn)數(shù)據訪問接口,在一定時期內還不現(xiàn)實;其次,一個軟
件訪問其他軟件的數(shù)據格式時是通過數(shù)據服務器實現(xiàn)的,這個數(shù)據服務器實際上就是被訪問數(shù)據格式的宿主軟件,也就是說,用戶必須同時擁有這兩個GIS軟件,并且同時運行,才能完成數(shù)據互操作過程。
3、直接數(shù)據訪問模式
顧名思義,直接數(shù)據訪問指在一個GIS軟件中實現(xiàn)對其他軟件數(shù)據格式的直接訪問,用戶可以使用單個GIS軟件存取多種數(shù)據格式。直接數(shù)據訪問不僅避免了繁的數(shù)據轉換,而且在一個GIS軟件中訪問某種軟件的數(shù)據格式不要求用戶擁有該數(shù)據格式的宿主軟件,更不需要該軟件運行。直接數(shù)據訪問提供了一種更為經濟實用的多源數(shù)據集成模式。
目前使用直接數(shù)據訪問模式實現(xiàn)多源數(shù)據集成的GIS軟件主要有兩個,即: Intergraph 推出的GeoMedia系列軟件和中國科學院地理信息產業(yè)發(fā)展中心研制的SuperMap。GeoMedia實現(xiàn)了對大多數(shù)GIS/CAD軟件數(shù)據格式的直接訪問,包括:MGE、Arc/Info、Frame、Oracle Spatial、SQL Server、Access MDB等(圖2)。SuperMap 2.0則提供了存取SQL Server、Oracle Spatial、ESRI SDE、Access MDB、SuperMap SDB文件等的能力,在以后的版本中將逐步支持對Arc/Info Coverage、AutoCAD DWG、MicroStation DGN、ArcView等數(shù)據格式的直接訪問。
三、多源空間數(shù)據格式集成的展望
1 、文件方式和數(shù)據庫方式
傳統(tǒng)的空間數(shù)據往往采用文件方式,隨著技術的進步,逐漸將屬性數(shù)據移植到數(shù)據庫平臺上;隨著技術發(fā)展,圖形數(shù)據也可以和屬性數(shù)據一起存放在關系數(shù)據庫中。文件方式對數(shù)據管理安全性較差,存在著屬性和圖形分開管理的問題,不適合網絡共享發(fā)展的需要;數(shù)據庫方式則實現(xiàn)了空間數(shù)據和屬性數(shù)據一體化存儲和管理,便于開發(fā)兩層、三層甚至多層網絡應用系統(tǒng)。從發(fā)展趨勢來看,純關系數(shù)據庫方案取代文件方案是發(fā)展的必然趨勢,這也是IT發(fā)展的主流趨勢。隨著對信息量需求的增大以及信息需求種類增多,數(shù)據倉庫的建立,將是GIS文件系統(tǒng)向數(shù)據庫系統(tǒng)發(fā)展的主流。
2 、OpenGIS、SDTS與DLG/F
OpenGIS是目前的主流標準,但SDTS并不會停滯不前,相反筆者認為SDTS將會與OpenGIS走向一體化。SDTS 可以為OpenGIS提供一個轉換和存取空間數(shù)據的標準,該標準是不依賴任何一種特定GIS軟件格式的,該標準中利用頭文件描述格式的方式使得數(shù)據服務者不必專門提供格式說明,而數(shù)據客戶也不必專門學習該格式,只需讀取SDTS頭文件就可獲得數(shù)據服務者提供的數(shù)據格式。筆者認為利用SDTS做數(shù)據標準,利用OGC作數(shù)據互操作的標準(例如空間SQL標準),簡單地說就是如果說SDTS提供了數(shù)據格式的頭文件,而OGC標準則提供了讀寫這個頭文件的標準方法。如果再采用數(shù)據庫作后臺,利用空間數(shù)據引擎,空間數(shù)據引擎按照SDTS存取空間數(shù)據,按照OGC標準對客戶軟件提供操作接口,這將是空間數(shù)據集成的理想解決方案。 USGS還提供了一種稱作DLG/F的標準,該標準設計了空間數(shù)據在數(shù)據庫中的動態(tài)存儲結構,利用該結構可以將拓撲關系動態(tài)記錄下來,同時可以讓用戶添加自定義的空間數(shù)據類型。怎樣利用DLG/F完善SDTS和OpenGIS也將是OpenGIS以及SDTS發(fā)展的方向。
3 、統(tǒng)一空間實體編碼
多源空間數(shù)據據格式集成還有一個很重要的方面就是如何處理不同數(shù)據庫對空間實體采用的編碼方式不同的問題。從理論上來說,一個系統(tǒng)對同一空間實體的編碼應該是唯一的,實際上由于不同領域從不同視角對同一空間實體編碼并不一樣,甚至會出現(xiàn)不同空間實體具有相同編碼的情況,這些編碼放在同一系統(tǒng)中,就會出現(xiàn)空間實體標識的嚴重問題。從目前來看,OpenGIS和SDTS都是基于地理特征(Feature)定義空間實體的,但都還不能真正提供一個通用的空間實體編碼體系。
參考文獻
1.On spatial database integration, Thomas Devogele ,Geographical Information Science, 1998,12(4)
2.Issues and prospects for the next generation of the spatial data transfer standard (SDTS), DAVID ARCTUR, DAVID HAIR,GEORGE TIMSON, etc, Geographical Information Science, 1998,12(4)
3.Towards integrated geographic information processing,DAVID J.ABEL, BENG CHIN COOI, KIAN-LEE TAN etc, Geographical Information Science, 1998,12(4)
4.A framework for the integration of geographical information systems and modelbase management , DAVID A.BENNETT, Geographical Information Science, 1997,11(4)
5. Overcoming the semantic and other barriers to GIS interoperability , YASER BISHR, Geographical Information Science, 1998,12(4)