

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、非結(jié)構(gòu)化數(shù)據(jù)占據(jù)了網(wǎng)絡(luò)信息資源的大部分內(nèi)容,它是網(wǎng)絡(luò)搜索引擎的主要數(shù)據(jù)來(lái)源和研究對(duì)象。非結(jié)構(gòu)化空間數(shù)據(jù)是網(wǎng)絡(luò)信息資源的重要組成部分,研究非結(jié)構(gòu)化網(wǎng)絡(luò)空間信息智能搜索與服務(wù)是通用搜索引擎在空間信息領(lǐng)域提供專(zhuān)業(yè)化信息服務(wù)的主要研究?jī)?nèi)容。它是搜索引擎技術(shù)與WebGIS等技術(shù)相結(jié)合的產(chǎn)物,可以為普通用戶(hù)提供本地信息服務(wù)(LocalService)和空間信息檢索工具,符合當(dāng)今信息檢索技術(shù)朝著智能化、個(gè)性化方向發(fā)展的潮流。 作為“863”項(xiàng)
2、目“空間信息智能網(wǎng)絡(luò)搜索技術(shù)”的延續(xù),本文以網(wǎng)絡(luò)搜索引擎技術(shù)為基礎(chǔ),結(jié)合自然語(yǔ)言處理、GIS和信息提取等技術(shù),對(duì)非結(jié)構(gòu)化Web空間信息的智能獲取、加工、服務(wù)方法進(jìn)行了深入、系統(tǒng)的研究和實(shí)踐。按照文本粒度的大小,本文分別在詞、句、篇、篇層等層面上研究了空間命名實(shí)體的識(shí)別、空間語(yǔ)義分析、空間概念提取、錨文本層次結(jié)構(gòu)語(yǔ)義索引等關(guān)鍵技術(shù)。利用這些技術(shù),本文設(shè)計(jì)實(shí)現(xiàn)了地圖網(wǎng)頁(yè)搜索系統(tǒng)、“詞虎”搜索器及“文圖智通”的原型系統(tǒng),并將這些技術(shù)和方法融入
3、到非結(jié)構(gòu)化Web空間信息智能搜索與服務(wù)系統(tǒng)(SIISE)的設(shè)計(jì)和實(shí)現(xiàn)中,初步構(gòu)造出一個(gè)完整的空間信息搜索系統(tǒng)雛形。具體說(shuō)來(lái),主要開(kāi)展了以下研究工作: [1]研究了海量空間命名實(shí)體(SNE)在線(xiàn)識(shí)別問(wèn)題。在分析一般命名實(shí)體識(shí)別方法的基礎(chǔ)上,提出利用SNE的空間特性、采用地理編碼的手段在線(xiàn)識(shí)別單句、全文中SNE的技術(shù)思想。對(duì)于單句,利用基礎(chǔ)地名詞典進(jìn)行切詞,通過(guò)編碼分析和SNE單元合并的策略進(jìn)行識(shí)別;對(duì)于全文,利用全文粗掃描獲取相關(guān)
4、的地理編碼,通過(guò)編碼分析鎖定文中涉及的空間范圍,然后按照一定的策略自動(dòng)加載匹配詞典識(shí)別文中其它SNE。實(shí)驗(yàn)表明,這種方法能識(shí)別出大量在詞典中不存在的組合式SNE,系統(tǒng)具備一定的自適應(yīng)性,較好地解決了因命名實(shí)體詞典數(shù)量龐大而導(dǎo)致的低效率問(wèn)題。 [2]研究了自然語(yǔ)言中的空間語(yǔ)義分析與空間概念提取方法。根據(jù)漢語(yǔ)表達(dá)空間概念的特點(diǎn)以及GIS表征空間信息的特點(diǎn)定義了空間語(yǔ)義角色,并利用空間語(yǔ)義角色定義了空間概念的形式化描述方法,提出了利用
5、空間語(yǔ)義角色分析自然語(yǔ)言中的空間語(yǔ)義和空間概念基本思路。方法是:先構(gòu)造空間語(yǔ)義詞典,采用淺層句法分析的原理,通過(guò)空間語(yǔ)義角色標(biāo)注、短語(yǔ)識(shí)別以及概念模式匹配等手段提取了文本中的空間概念。初步實(shí)驗(yàn)顯示,該方法具有較好的準(zhǔn)確率,召回率還有待提高。 [3]探索了錨文本層次結(jié)構(gòu)語(yǔ)義索引檢索機(jī)制。在深入剖析錨文本的特征以及網(wǎng)站錨文本層次結(jié)構(gòu)語(yǔ)義后發(fā)現(xiàn):從網(wǎng)站鏈接結(jié)構(gòu)中抽取出的錨文本層次結(jié)構(gòu)樹(shù)在一定程度上反映了創(chuàng)建者表達(dá)某類(lèi)知識(shí)時(shí)使用的概念層
6、次圖,結(jié)構(gòu)樹(shù)中同路徑結(jié)點(diǎn)上的錨文本間的層次關(guān)系與用戶(hù)用多關(guān)鍵詞進(jìn)行邏輯“與”操作時(shí)所隱含的查詢(xún)語(yǔ)義相近。利用這種特性本文提出了在搜索引擎中利用這種隱形語(yǔ)義的基本思想,具體闡述了利用編碼的方法實(shí)現(xiàn)錨文本層次結(jié)構(gòu)語(yǔ)義索引和檢索方法,并用RDF/RDFS進(jìn)行了描述,以擴(kuò)展它在語(yǔ)義Web等方面的應(yīng)用。 [4]研究了Web中地圖網(wǎng)頁(yè)的搜索與識(shí)別技術(shù),設(shè)計(jì)實(shí)現(xiàn)了地圖網(wǎng)頁(yè)搜索系統(tǒng)。用實(shí)驗(yàn)證實(shí)了地圖網(wǎng)頁(yè)中常表現(xiàn)出的這樣一種特性:網(wǎng)頁(yè)中地圖圖片或
7、地圖對(duì)象的視圖面積通常是最大的,且其長(zhǎng)寬比常在一定的范圍內(nèi)變動(dòng)。根據(jù)這一特性,本文提出了基于圖片視圖大小特征與外部關(guān)鍵詞信息相結(jié)合的方法識(shí)別地圖網(wǎng)頁(yè),并利用元搜索引擎的基本原理設(shè)計(jì)了地圖網(wǎng)頁(yè)搜索系統(tǒng)。該系統(tǒng)成為“863”項(xiàng)目“空間信息智能網(wǎng)絡(luò)搜索技術(shù)”的主要模塊之一 [5]拓展了研究成果的應(yīng)用問(wèn)題。利用空間命名實(shí)體識(shí)別技術(shù),設(shè)計(jì)實(shí)現(xiàn)了“文圖智通”及“詞虎”搜索器的原型系統(tǒng),并作為主要成員之一參加了“詞虎2.0”的開(kāi)發(fā)。同時(shí),以該
8、技術(shù)為基礎(chǔ),還設(shè)計(jì)了中文地址智能匹配算法。另外,利用空間語(yǔ)義分析與概念提取技術(shù),對(duì)地理本體實(shí)例搜索與服務(wù)問(wèn)題做了較為細(xì)致的研究,并對(duì)其在軍事文書(shū)自動(dòng)標(biāo)圖中的應(yīng)用作了簡(jiǎn)要分析。 [6]設(shè)計(jì)開(kāi)發(fā)了非結(jié)構(gòu)化空間信息智能搜索原型系統(tǒng),實(shí)現(xiàn)了其中大部分功能。該系統(tǒng)采用機(jī)器人搜索引擎的基本架構(gòu),突出了空間信息獲取、加工和檢索處理,并將本文中提出主要技術(shù)思想融合在一起,初步構(gòu)建出一個(gè)完整的空間搜索系統(tǒng)雛形。 本文主要?jiǎng)?chuàng)新點(diǎn)和原創(chuàng)性的工
9、作體現(xiàn)在以下兩點(diǎn): [1]發(fā)現(xiàn)Web信息檢索中這樣一種特性:網(wǎng)站創(chuàng)建者在構(gòu)建錨文本層次結(jié)構(gòu)圖時(shí)所表達(dá)的概念間的層次語(yǔ)義與用戶(hù)用多關(guān)鍵詞進(jìn)行邏輯“與”操作時(shí)所隱含的查詢(xún)語(yǔ)義相近。提出了在搜索引擎中利用錨文本層次結(jié)構(gòu)語(yǔ)義的基本思想,并給出了層次結(jié)構(gòu)樹(shù)的構(gòu)造方法、編碼方式、倒排索引方式以及錨文本層次結(jié)構(gòu)語(yǔ)義檢索方法。它對(duì)于基于關(guān)鍵詞的搜索引擎提供語(yǔ)義級(jí)的檢索結(jié)果有重要的參考價(jià)值。 [2]用實(shí)驗(yàn)證實(shí)了地圖網(wǎng)頁(yè)中常表現(xiàn)出這樣的特性
10、:網(wǎng)頁(yè)中地圖圖片或地圖對(duì)象的視圖面積通常是最大的,且其長(zhǎng)寬比值常在一定的范圍內(nèi)變動(dòng)。利用這種特性,提出了基于圖片視圖大小特征與外部關(guān)鍵詞信息相結(jié)合的方法識(shí)別地圖網(wǎng)頁(yè),較好地解決了從普通網(wǎng)頁(yè)中分離出地圖網(wǎng)頁(yè)的問(wèn)題。該方法已應(yīng)用于基于元搜索的地圖網(wǎng)頁(yè)搜索系統(tǒng)中。 此外,還有一些技術(shù)創(chuàng)新或應(yīng)用創(chuàng)新性的工作,主要表現(xiàn)在以下幾方面: [1]提出了利用SNE的空間特性、采用地理編碼的手段在線(xiàn)識(shí)別單句、全文中SNE的技術(shù)思想和實(shí)現(xiàn)方法
11、。該方法能識(shí)別出大量詞典中不存在的組合式SNE,具備一定的自適應(yīng)性,較好地解決了因命名實(shí)體詞典數(shù)量龐大而導(dǎo)致的低效率問(wèn)題。該技術(shù)已應(yīng)用于“詞虎”系列產(chǎn)品中。 [2]定義了空間語(yǔ)義角色,提出了利用空間語(yǔ)義角色和淺層句法分析的方法進(jìn)行空間語(yǔ)義分析和空間概念提取。它為空間信息智能化服務(wù)提供了途徑。 [3]提出了空間信息啟發(fā)式搜索模式。通過(guò)計(jì)算錨文本中空間命名實(shí)體的出現(xiàn)情況以及URL目錄深度來(lái)衡量網(wǎng)頁(yè)相對(duì)重要度,使重要URL優(yōu)先
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 非結(jié)構(gòu)化對(duì)等網(wǎng)絡(luò)資源搜索技術(shù)研究.pdf
- 非結(jié)構(gòu)化P2P網(wǎng)絡(luò)搜索技術(shù)研究.pdf
- 非結(jié)構(gòu)化P2P網(wǎng)絡(luò)搜索算法研究.pdf
- 非結(jié)構(gòu)化P2P 網(wǎng)絡(luò)資源搜索策略研究.pdf
- 非結(jié)構(gòu)化P2P網(wǎng)絡(luò)文件搜索系統(tǒng)的研究與實(shí)現(xiàn).pdf
- 非結(jié)構(gòu)化P2P網(wǎng)絡(luò)搜索算法的研究與改進(jìn).pdf
- 非結(jié)構(gòu)化對(duì)等網(wǎng)絡(luò)中的信任機(jī)制及搜索策略研究.pdf
- 非結(jié)構(gòu)化P2P網(wǎng)絡(luò)資源搜索算法研究.pdf
- 非結(jié)構(gòu)化p2p網(wǎng)絡(luò)資源搜索算法研究
- 結(jié)構(gòu)化對(duì)等網(wǎng)絡(luò)的搜索機(jī)制研究.pdf
- 非結(jié)構(gòu)化P2P網(wǎng)絡(luò)中數(shù)據(jù)查詢(xún)搜索策略研究.pdf
- 基于非結(jié)構(gòu)化P2P網(wǎng)絡(luò)的資源搜索算法研究.pdf
- 非結(jié)構(gòu)化P2P拓?fù)淦ヅ溥壿嬀W(wǎng)絡(luò)的構(gòu)造與搜索優(yōu)化.pdf
- 基于非結(jié)構(gòu)化P2P網(wǎng)絡(luò)資源搜索算法的研究與實(shí)現(xiàn).pdf
- 基于節(jié)點(diǎn)興趣的非結(jié)構(gòu)化P2P網(wǎng)絡(luò)搜索機(jī)制的研究.pdf
- 非結(jié)構(gòu)化網(wǎng)絡(luò)課程的設(shè)計(jì)與開(kāi)發(fā).pdf
- 非結(jié)構(gòu)化到結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換的研究與實(shí)現(xiàn).pdf
- 基于相關(guān)度的非結(jié)構(gòu)化P2P網(wǎng)絡(luò)搜索優(yōu)化算法.pdf
- 結(jié)構(gòu)化網(wǎng)格和非結(jié)構(gòu)化網(wǎng)格
- 非結(jié)構(gòu)化P2P網(wǎng)絡(luò)環(huán)境下資源發(fā)現(xiàn)和搜索方法研究.pdf
評(píng)論
0/150
提交評(píng)論