![]()
江西地名研究
關(guān)注我們,獲取更多地名資訊
![]()
摘要:為解決不同行業(yè)政務(wù)信息資源的融合,實(shí)現(xiàn)智慧城市各行業(yè)數(shù)據(jù)的共享,深入挖掘和發(fā)揮數(shù)據(jù)價(jià)值,提出一種基于地名地址匹配的數(shù)據(jù)融合方法,分別對(duì)含空間坐標(biāo)和僅包含位置描述的兩種不同類(lèi)型政務(wù)數(shù)據(jù)進(jìn)行匹配,提出利用分區(qū)單元計(jì)算、構(gòu)建分級(jí)分詞地名地址數(shù)據(jù)庫(kù)和文本模糊匹配等關(guān)鍵技術(shù),提高了地名地址匹配的效率和準(zhǔn)確度。并通過(guò)在智慧蓉城建設(shè)項(xiàng)目中實(shí)踐應(yīng)用,證實(shí)該方法能有效提升匹配效率和精度,實(shí)現(xiàn)多源、異構(gòu)、海量政務(wù)數(shù)據(jù)的高效融合。
關(guān)鍵詞:地名地址匹配;數(shù)據(jù)融合;政務(wù)信息集成;智慧城市;地理實(shí)體
![]()
0 引言
![]()
隨著大數(shù)據(jù)技術(shù)應(yīng)用及智慧城市建設(shè),我國(guó)政務(wù)信息建設(shè)的重心正逐步由信息化建設(shè)轉(zhuǎn)向政務(wù)信息資源的共享應(yīng)用階段發(fā)展。新型智慧城市的基礎(chǔ)是各行業(yè)數(shù)據(jù)的匯聚與融合,形成基礎(chǔ)動(dòng)態(tài)權(quán)威的綜合信息,用于城市治理的決策依據(jù)。但由于各部門(mén)信息化進(jìn)程和業(yè)務(wù)需求不同,造成了不同區(qū)域、不同部門(mén)間的數(shù)據(jù)難以共享的“信息孤島”現(xiàn)象。2019年龔健雅院士在新型基礎(chǔ)測(cè)繪技術(shù)體系高級(jí)研修班上提出了地理實(shí)體作為連接自然地理信息與人文社會(huì)經(jīng)濟(jì)信息的橋梁和紐帶,可通過(guò)地理實(shí)體編碼實(shí)現(xiàn)基礎(chǔ)地理信息數(shù)據(jù)庫(kù)、人口庫(kù)、法人庫(kù)、不動(dòng)產(chǎn)庫(kù)的關(guān)聯(lián)。據(jù)統(tǒng)計(jì)約80%的政務(wù)信息均與空間位置有直接或間接的關(guān)系,地名地址作為關(guān)聯(lián)和載體可實(shí)現(xiàn)不同部門(mén)間的數(shù)據(jù)融合和共享。如何建立適用于大數(shù)據(jù)環(huán)境下的地名地址匹配方法,建立地理實(shí)體與政務(wù)專(zhuān)題數(shù)據(jù)的關(guān)聯(lián),實(shí)現(xiàn)多源、異構(gòu)、海量數(shù)據(jù)的高效、快速融合,已成為政務(wù)信息資源共享應(yīng)用的關(guān)鍵。
本文依托智慧蓉城實(shí)景三維成都建設(shè)項(xiàng)目,通過(guò)對(duì)政務(wù)信息數(shù)據(jù)進(jìn)行深入分析,針對(duì)含空間坐標(biāo)的政務(wù)數(shù)據(jù)提出利用分區(qū)單元進(jìn)行語(yǔ)義和位置的地名地址匹配方法,針對(duì)僅含位置描述的數(shù)據(jù)提出通過(guò)利用地名地址詞典庫(kù)對(duì)中文地址進(jìn)行分級(jí)分詞處理,以提高地名地址匹配效率和準(zhǔn)確度,探索適合成都市地名地址特點(diǎn)的多源、異構(gòu)、海量政務(wù)信息融合方法。
![]()
1 數(shù)據(jù)源分析
![]()
1.1 政務(wù)信息分析
政務(wù)信息涉及國(guó)民經(jīng)濟(jì)、自然資源、不動(dòng)產(chǎn)、人口、法人等多個(gè)領(lǐng)域,具有數(shù)據(jù)量大、表現(xiàn)形式多樣、碎片化等特點(diǎn),其共同點(diǎn)是一般都包含地名地址信息。政務(wù)信息在與地理實(shí)體進(jìn)行關(guān)聯(lián)時(shí),必須首先找到與空間位置相關(guān)的信息,才能準(zhǔn)確地與對(duì)應(yīng)實(shí)體進(jìn)行關(guān)聯(lián)。一般分以下3種情況:
(1)最理想的情況是不同行業(yè)數(shù)據(jù)均帶有地理實(shí)體編碼信息。不同政府部門(mén)通過(guò)建立統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn),對(duì)同一實(shí)體的不同行業(yè)形態(tài)數(shù)據(jù)均采用了統(tǒng)一的實(shí)體編碼,可直接通過(guò)實(shí)體編碼進(jìn)行關(guān)聯(lián)和掛接。此種情況數(shù)據(jù)融合最為簡(jiǎn)單直接,但對(duì)部門(mén)協(xié)同和共建共享要求較高,就目前國(guó)內(nèi)建設(shè)情況來(lái)說(shuō)還較難實(shí)現(xiàn)。
(2)其次是某些行業(yè)數(shù)據(jù)帶有空間坐標(biāo)信息。如國(guó)土、規(guī)劃、房管、交通、民政等部門(mén)專(zhuān)題數(shù)據(jù)大多有空間坐標(biāo)信息,雖然數(shù)據(jù)標(biāo)準(zhǔn)、幾何精度、屬性采集和表達(dá)方式不同,但總體來(lái)說(shuō)其空間位置較為接近。本文節(jié)3提出一種基于空間位置的地名地址匹配方法,同時(shí)考慮空間位置和語(yǔ)義特征雙重因子,通過(guò)與現(xiàn)有的地名地址數(shù)據(jù)庫(kù)進(jìn)行匹配度分析,找到匹配度最高的進(jìn)行關(guān)聯(lián)。經(jīng)過(guò)數(shù)據(jù)融合,一來(lái)提高了地名地址數(shù)據(jù)庫(kù)的完整性和權(quán)威性,另外也為政務(wù)信息共享、深入挖掘數(shù)據(jù)價(jià)值奠定了基礎(chǔ)。
(3)最常見(jiàn)的是大多行業(yè)數(shù)據(jù)僅有位置描述無(wú)空間坐標(biāo)信息。如公安、稅務(wù)、工商、城管等部門(mén)數(shù)據(jù)中,通常以文本形式描述行政區(qū)域、道路、門(mén)牌號(hào)等地名地址信息。由于中文地名地址的特殊性,中文地名地址的匹配一直以來(lái)也是地理信息領(lǐng)域研究的熱點(diǎn)和難點(diǎn)問(wèn)題。本文節(jié)4提出一種基于位置描述的匹配方法,通過(guò)構(gòu)建成都市地名地址詞典庫(kù),對(duì)不規(guī)范的文本描述的位置信息通過(guò)模糊匹配技術(shù)先進(jìn)行規(guī)范化、分級(jí)分詞處理,再與現(xiàn)有地名地址數(shù)據(jù)庫(kù)進(jìn)行分級(jí)匹配,將其空間化后再與地理實(shí)體進(jìn)行關(guān)聯(lián)。
1.2 地名地址分析
成都市地名地址數(shù)據(jù)庫(kù)較為規(guī)范、完整,包含成都市域范圍內(nèi)的地名和門(mén)址、樓址以及空間坐標(biāo)信息,且所有記錄均含行政區(qū)劃名稱(chēng)、道路名、門(mén)牌號(hào)及樓棟號(hào)、院落名等標(biāo)準(zhǔn)分詞信息,可以此為基礎(chǔ)作為標(biāo)準(zhǔn)地址模型的空間定位依據(jù),如表1所示。
![]()
![]()
2 基于空間位置的地名地址匹配方法
![]()
2.1 設(shè)計(jì)思路
對(duì)于有空間坐標(biāo)的數(shù)據(jù)融合相比僅有位置描述的相對(duì)簡(jiǎn)單,一是要同時(shí)考慮語(yǔ)義和空間位置雙重因素的影響,二是與解決海量數(shù)據(jù)的匹配效率問(wèn)題。設(shè)計(jì)思路:首先創(chuàng)建分區(qū)單元,將專(zhuān)題數(shù)據(jù)和地名地址數(shù)據(jù)分別與分區(qū)單元面進(jìn)行空間疊加分析,獲取分區(qū)單元信息;以分區(qū)為計(jì)算單位依次計(jì)算每條專(zhuān)題數(shù)據(jù)與位于同一分區(qū)內(nèi)所有地名地址的匹配度,比較得到匹配度最高的地名地址,并輸出結(jié)果。基于空間位置的地名地址匹配方法思路如圖1所示。
![]()
2.2 實(shí)現(xiàn)關(guān)鍵技術(shù)
(1)數(shù)據(jù)預(yù)處理
由于不同部門(mén)的專(zhuān)題數(shù)據(jù)中位置描述信息不規(guī)范、不統(tǒng)一,需對(duì)位置描述信息進(jìn)行規(guī)范化處理。比如對(duì)樓棟號(hào)的描述就有“1、壹、A、甲······”,分隔符也有“下劃線、分隔符、左右斜杠······”等多種表達(dá),應(yīng)先對(duì)數(shù)據(jù)進(jìn)行規(guī)范化預(yù)處理以提高匹配度。
(2)分區(qū)單元確定
為提高海量數(shù)據(jù)的匹配效率和匹配精度,縮小比較范圍和計(jì)算量,需確定分區(qū)單元。分區(qū)單元粒度的劃分由數(shù)據(jù)源的幾何精度確定,如精度較高一般能落在同一院落內(nèi)部則優(yōu)先選用院落面進(jìn)行分區(qū);否則可采用由道路或水系分割形成的街區(qū)面、社區(qū)或村行政區(qū)劃面等。
(3)模糊匹配計(jì)算
將數(shù)據(jù)覆蓋范圍劃分成不同的分區(qū)單元后,利用空間疊加分析將地名地址數(shù)據(jù)和專(zhuān)題數(shù)據(jù)分別獲取分區(qū)單元信息,將同一分區(qū)單元的數(shù)據(jù)進(jìn)行模糊匹配,計(jì)算其相似度。利用Python計(jì)算每條專(zhuān)題數(shù)據(jù)與同一分區(qū)單元內(nèi)所有地名地址數(shù)據(jù)的匹配相似度S1、S2、S3······Sn,得到匹配度最高Smax的地名地址及其兩者之間的連線,輸出匹配結(jié)果。其中:
S max =max{S 1 、S 2 、S 3 ······S n }
根據(jù)輸出的匹配結(jié)果,含匹配最大相似度、匹配名稱(chēng)和距離等信息,結(jié)合人工進(jìn)一步分析對(duì)比。
2.3 應(yīng)用與分析
為驗(yàn)證該方法的有效性,在智慧蓉城地理實(shí)體生產(chǎn)與更新建設(shè)項(xiàng)目中,利用本方法對(duì)收集到的政務(wù)云平臺(tái)約51萬(wàn)條地址數(shù)據(jù)與成都市現(xiàn)有約22萬(wàn)條地址數(shù)據(jù)庫(kù)進(jìn)行匹配和融合。從數(shù)據(jù)來(lái)源上,政務(wù)云平臺(tái)數(shù)據(jù)大多來(lái)自部門(mén)專(zhuān)題數(shù)據(jù)以及互聯(lián)網(wǎng)數(shù)據(jù),成都市現(xiàn)有地址數(shù)據(jù)庫(kù)來(lái)源于外業(yè)調(diào)繪;從覆蓋區(qū)域上,政務(wù)云平臺(tái)數(shù)據(jù)覆蓋全市域,成都市現(xiàn)有地址數(shù)據(jù)庫(kù)主要覆蓋城市建成區(qū),但有重復(fù)覆蓋區(qū)域;從幾何精度和現(xiàn)勢(shì)性上,成都市現(xiàn)有地址數(shù)據(jù)庫(kù)均優(yōu)于政務(wù)云平臺(tái)數(shù)據(jù)。分區(qū)范圍優(yōu)先選用院落面,如無(wú)院落面則用街區(qū)面、社區(qū)或村面。
利用本方法計(jì)算匹配結(jié)果,語(yǔ)義完全一致而位置接近的(約2.3萬(wàn)條,占4.5%)直接采用原地名地址數(shù)據(jù)庫(kù)數(shù)據(jù),語(yǔ)義不一致但與周?chē)啾确线壿嫷模s26萬(wàn)條,占51%)以及完全新增(約21.5萬(wàn)條,占42.15%)的可用于補(bǔ)充完善地址數(shù)據(jù)庫(kù),有矛盾的如同一位置但門(mén)牌號(hào)或樓棟號(hào)不一致等進(jìn)行標(biāo)注(約1.2萬(wàn)條,占23.5%)待外業(yè)進(jìn)一步核實(shí)。利用本方法節(jié)省了約75%人工對(duì)比工作量,極大地提高了數(shù)據(jù)融合的效率和準(zhǔn)確度,提升了成都市地名地址數(shù)據(jù)庫(kù)的完整性、時(shí)效性和權(quán)威性。
![]()
3 基于位置描述的地名地址匹配算法
![]()
3.1 設(shè)計(jì)思路
對(duì)于僅有位置描述無(wú)空間坐標(biāo)的地名地址匹配,關(guān)鍵是對(duì)位置描述信息進(jìn)行中文地址分級(jí)分詞規(guī)范化處理,并基于規(guī)范化分詞結(jié)果與地名地址數(shù)據(jù)空間庫(kù)進(jìn)行逐級(jí)匹配,進(jìn)而得到匹配度最高的空間化結(jié)果。為提高不規(guī)范的位置描述信息的中文分詞精度和準(zhǔn)確度,引入完整性、規(guī)范性的地名地址詞典庫(kù),可有效簡(jiǎn)化分詞算法。再將分級(jí)分詞結(jié)果依次與現(xiàn)有的各級(jí)別地名地址數(shù)據(jù)庫(kù)依次進(jìn)行匹配,得到最終匹配結(jié)果,如圖2所示。
![]()
3.2 實(shí)現(xiàn)關(guān)鍵技術(shù)
(1)地名地址詞典庫(kù)構(gòu)建
為提高不規(guī)范、非結(jié)構(gòu)化中文地址信息分詞的正確性和效率,需構(gòu)建完整、豐富的地名地址詞典庫(kù)。將地名地址庫(kù)中包含的所有名稱(chēng)信息單獨(dú)導(dǎo)出為地名地址詞典庫(kù),如不同級(jí)別的行政區(qū)劃名稱(chēng)(“四川省”“成都市”“**街辦/鎮(zhèn)”“**社區(qū)、村”)、管理單元名稱(chēng)(“**工業(yè)園區(qū)”“*科技園”等)、道路名、院落名等,并同時(shí)添加歷史地名、行政區(qū)劃改革前后的所有地名(如“郫都區(qū)”“郫縣”等)。地名地址詞典庫(kù)中存放了可能涉及的各類(lèi)各級(jí)地名信息,是分詞算法匹配的主要對(duì)象,可為不規(guī)范的地名地址描述的中文分詞提供完整、規(guī)范的地名關(guān)鍵詞信息,可有效簡(jiǎn)化分詞算法,提高地名地址分詞的識(shí)別率和準(zhǔn)確性。
(2)中文地址分級(jí)分詞
由于不同部門(mén)的專(zhuān)題數(shù)據(jù)中,位置描述信息不規(guī)范、不統(tǒng)一,需對(duì)位置描述信息進(jìn)行規(guī)范化中文分詞處理。根據(jù)我國(guó)地名地址描述規(guī)范,一般分為行政區(qū)劃名、街道名或小區(qū)名、門(mén)樓址或標(biāo)志物名三個(gè)層次,而在實(shí)際表述中包括街道名+門(mén)址+樓址、街道名+門(mén)址、小區(qū)名+樓址、街道名+小區(qū)名+樓址等多種形式。可利用前期構(gòu)建的地名地址詞典庫(kù),依次對(duì)位置描述信息進(jìn)行模糊匹配,如位置描述信息中包含地名地址詞典庫(kù)中的分級(jí)名稱(chēng),如“四川省”“成都市”“錦江區(qū)”“柳江街道/街辦/街道辦事處”“墨香路”或“火炬動(dòng)力港”等詞匯,如匹配成功則自動(dòng)拆分成不同層級(jí)分詞模型。基于地名地址詞典庫(kù)的中文地址分級(jí)分詞方法思路如圖3所示。對(duì)位置描述進(jìn)行中文分級(jí)分詞結(jié)果示例如表2所示。
![]()
![]()
(3)不同分級(jí)的地名地址匹配
根據(jù)位置描述拆分的分級(jí)分詞模型,判斷該位置描述信息的可自動(dòng)匹配到哪個(gè)層級(jí)模型或哪種精度。匹配精度除了與位置描述信息的規(guī)范性、完整性有關(guān)外,也取決于地名地址數(shù)據(jù)庫(kù)的采集粒度、精度、完整性、現(xiàn)勢(shì)性等因素,如成都市地名地址數(shù)據(jù)庫(kù)最小粒度為樓址但有些城市的采集粒度可能細(xì)化到單元、房間號(hào)等,地名信息采集的完整性和現(xiàn)勢(shì)性也有所不同。在進(jìn)行地址匹配時(shí),優(yōu)先對(duì)最小粒度的地址進(jìn)行匹配,如含樓址信息的應(yīng)優(yōu)先匹配到樓址,其次為門(mén)址、院落、道路、村組、社區(qū)等。
3.3 應(yīng)用與分析
在成都市違建普查和環(huán)衛(wèi)設(shè)施普查項(xiàng)目中,提供的違建項(xiàng)目地址描述大多是“小區(qū)+樓址”形式,環(huán)衛(wèi)設(shè)施同時(shí)存在“街道名+門(mén)址”“小區(qū)”等多種形式。利用本方法先基于成都市分級(jí)分詞地名庫(kù)對(duì)地址描述進(jìn)行自動(dòng)中文地址分級(jí)分詞,進(jìn)而與地名地址數(shù)據(jù)庫(kù)進(jìn)行匹配,得到空間化的初步成果,分詞及匹配結(jié)果示例如表2所示。實(shí)踐證明,匹配效率與地名地址詞典庫(kù)的完整性以及原始地址描述準(zhǔn)確性有直接關(guān)系,如原始地址描述較為準(zhǔn)確完整匹配效率可達(dá)90%以上。此外,由于原始地址描述的詳細(xì)程度和具體定位不同,還需根據(jù)初步定位結(jié)果及余詞信息做進(jìn)一步人工核實(shí)。
![]()
4 結(jié)語(yǔ)
![]()
地名地址作為連接空間數(shù)據(jù)和非空間數(shù)據(jù)的紐帶,是實(shí)現(xiàn)城市政務(wù)信息共享的前提。本文通過(guò)地名地址匹配技術(shù),分別實(shí)現(xiàn)了對(duì)含空間坐標(biāo)和只有位置描述的兩類(lèi)政務(wù)信息融合的方法。實(shí)踐證明,本文方法不僅能提高多源、異構(gòu)、海量政務(wù)信息資源的整合效率,且為實(shí)現(xiàn)政務(wù)數(shù)據(jù)與地理實(shí)體的關(guān)聯(lián),打通不同行業(yè)信息的壁壘,推動(dòng)智慧城市建設(shè)和數(shù)據(jù)共享奠定了基礎(chǔ)。
作者:李新雙,陳軍勝,劉化冰,趙麗麗
來(lái)源:《城市勘測(cè)》2024年3期
選稿:耿 曈
編輯:杜佳玲
校對(duì):汪依婷
審訂:賀雨婷
責(zé)編:耿 曈
(由于版面內(nèi)容有限,文章注釋內(nèi)容請(qǐng)參照原文)
![]()
微信掃碼加入
中國(guó)地名研究交流群
QQ掃碼加入
江西地名研究交流群
歡迎來(lái)稿!歡迎交流!
轉(zhuǎn)載請(qǐng)注明來(lái)源:“江西地名研究”微信公眾號(hào)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.