

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、伴隨著電子商務的迅速發(fā)展,網上購物越來越受到消費者的喜愛。然而越來越多的商品讓消費者感覺到無法下手購買,要從海量的商品信息中找到最適合自己要求的商品,是一個比較困難和費時的過程。web信息抽取的一個直接應用就是幫助人們在紛繁復雜的商品信息海洋中快速準確地查找所需商品。目前缺乏專門針對購物網站的信息抽取技術,采用通用的Web信息抽取技術,難以快速而準確地定位目標商品信息。所以有必要對購物網站商品信息抽取作進一步研究。
本文通
2、過分析購物網站的頁面結構,針對大多數購物網站HTML頁面的表格結構特性,提出一種新的網頁模型,將購物網站中的商品展示頁面分為三個區(qū)域:核心區(qū)域、準核心區(qū)域和非核心區(qū)域。并在此頁面模型基礎上,提出區(qū)域定位的概念,將商品信息抽取問題分解為頁面預處理、區(qū)域定位和區(qū)域結構分析三個關鍵步驟。
頁面預處理模塊主要負責HTML頁面中的標簽修復、噪聲處理。通過分析頁面結構,對HTML文檔解析來構造DOM樹,把HTML文檔中不需要處理的元素
3、從DOM樹中剔除,比如廣告圖片、腳本代碼等,從而最大限度的減少噪聲信息對抽取工作的影響。
區(qū)域定位模塊主要負責從DOM樹中定位用戶感興趣的商品信息區(qū)域。在區(qū)域定位過程中,結合商品屬性關鍵字,找到匹配節(jié)點,再自底向上,定位準核心區(qū)域,然后根據準核心區(qū)域的期望值及區(qū)域內節(jié)點類型比例,定位核心區(qū)域。
區(qū)域結構分析模塊的主要功能是分析核心區(qū)域的結構,定位商品“屬性-值”對信息,最終抽取目標商品信息。
在
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- B2C購物網站商品信息推送系統(tǒng)的研究與設計.pdf
- 網上商品購物網站畢業(yè)論文
- 基于java的購物網站
- 購物網站排行
- 基于Web的商品信息抽取與融合的研究與實現.pdf
- 網上購物網站
- php論文(購物網站)
- 國外著名購物網站
- 基于結構語義熵的互聯(lián)網商品信息抽取技術研究.pdf
- 網站設計—電子購物網站設計
- 網絡商品信息搜索與抽取技術應用研究.pdf
- 基于jspjava購物網站設計和實現
- 購物網站規(guī)劃書
- 購物網站大全
- 基于搜索引擎的商品信息抽取與融合的研究及實現.pdf
- 基于java的購物網站設計與實現
- 基于java的購物網站(畢業(yè)論文)
- 基于jsp的購物網站設計與開發(fā)
- 基于java的購物網站(畢業(yè)論文)
- 購物網站的設計與開發(fā).pdf
評論
0/150
提交評論