基于結果模式的Deep Web數據集成關鍵技術研究.pdf_第1頁
已閱讀1頁,還剩133頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、Deep Web中蘊含的信息數量與質量都要遠遠高于Surface Web,因此如何有效的獲取Deep Web信息并加以集成備受人們關注。目前,國內外的許多研究者已經設計了一些典型的Deep Web數據集成系統框架,并對其中的一些相關技術如Deep Web數據源發(fā)現、Deep Web數據源分類、查詢接口集成、Deep Web數據源選擇及查詢分解等進行了深入的研究,并取得了大量成果。Deep Web查詢結果處理作為Deep Web數據集成系

2、統中的一個核心功能,需要實時獲取、標注并合并數量龐大的結果數據,其性能和效果將直接影響Deep Web數據集成系統。現有的查詢結果處理工作在一定程度上實現了自動數據獲取、數據標注和結果合并,然而仍存在一些問題,如語義標注性能問題、重復語義標注問題、數據異構與沖突處理問題、數據抽取性能問題、重復模式匹配問題等,這些問題嚴重影響Deep Web數據集成的性能和有效性。為實現具有高效準確的查詢結果處理能力的Deep Web數據集成,本文從De

3、ep Web數據源結果模式的定義出發(fā),提出基于結果模式的Deep Web數據集成機制,對Deep Web數據源結果模式的生成方法、沖突的分類及結果模式沖突檢測方法、基于結果模式的Deep Web數據抽取算法和結果輸出模式的生成技術等查詢結果處理技術進行了深入研究。
   (1)在分析了現有Deep Web數據集成系統的工作流程及存在不足的基礎上,提出了基于結果模式的Deep Web數據集成方法。通過分析Deep Web結果數據的

4、特點,給出了結果模式的定義,它兼顧Deep Web結果數據的語義特征和結構特征,為高效準確的查詢結果處理奠定了理論基礎。在此基礎上,提出了基于結果模式的Deep Web數據集成機制,它以結果模式為核心,通過檢測并建立領域內各個Deep Web數據源結果模式間的沖突記錄,從而實現實時準確地建立與用戶查詢請求相對應的結果輸出模式,為統一各數據源返回的查詢結果奠定基礎。結果模式及結果模式間的沖突記錄一旦建立,便可在查詢結果處理階段重復使用,從

5、而為高效準確的查詢結果處理提供了有效支撐。
   (2)針對語義標注性能與重復語義標注問題,本文研究了支持高效語義標注的結果模式生成方法。針對結果模式結構特征,提出了基于網頁數據特征矩陣的結果模式結構生成方法,根據Deep Web數據源中數據組織特點,給出了網頁數據特征矩陣的定義,進而通過構建與分析網頁數據特征矩陣來生成結果模式結構特征,為同類結果頁面中屬性值的獲取奠定了基礎。針對結果模式語義特征,根據結果模式可以通過對大量樣本

6、數據的離線分析來獲取這一特點,提出了基于CPN網絡的結果模式語義標注方法。給出了有效描述結果數據的基本特征,采用CPN網絡學習出數據特征與數據語義之間的關系,語義標注規(guī)則一旦建立,便可實時、快速、準確地標注同類結果頁面中的屬性值,從而有效提高了語義標注性能。
   (3)針對Deep Web數據源的高度自治性所導致的數據源間的異構問題,本文給出了數據源間沖突的分類及結果模式沖突檢測方法。通過分析Deep Web查詢接口和結果數據

7、的特點,系統地闡述了Deep Web數據源間可能存在的沖突,并就每一種沖突給出了明確的沖突描述及相應的解決策略。在此基礎上,給出了同一領域中結果模式間的沖突檢測算法,從而獲得結果模式間沖突記錄,為進一步的結果輸出模式生成和查詢結果規(guī)范化奠定了良好基礎。
   (4)針對多數Deep Web數據抽取方法無法支持數據語義的獲取及嵌套屬性的處理,考慮到結果模式的結構特征可以有效地支持待抽取結果頁面中屬性值的獲取,結果模式的語義特征可以

8、有效地支持屬性值的語義標注,因此本文提出了基于結果模式的Deep Web數據抽取方法,給出了基于結果模式的Deep Web數據抽取算法,有效地提高了Deep Web數據抽取的性能。
   (5)針對不同的用戶查詢請求可能涉及相同的Deep Web數據源所導致的重復模式匹配問題,在結果模式及結果模式間沖突記錄的基礎上,本文給出了針對不同用戶查詢請求實時生成相應的結果輸出模式的方法。針對結果模式沖突檢測階段檢測出的兩兩數據源間的沖突

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論