CLIQUE網格聚類算法在醫(yī)學空間數據中的應用.pdf_第1頁
已閱讀1頁,還剩40頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、目的:
  糖尿病指的是由于身體機能失衡,所導致的以血糖高于正常值范圍為主要表現(xiàn)的全身進行性疾病,其并發(fā)癥多,患病率高,已經逐漸成為了影響世界各國的一個重要公共問題。根據國際糖尿病聯(lián)盟(IDF)截止到2013年底的數據顯示,2013年間,全球死于糖尿病相關疾病的人數超過了510萬,達到了全年死亡人口的8.39%,全年的相關醫(yī)療花費達到了5480億美元,占到了全部花費的11%,其中我國從進入21世紀以來,糖尿病人口數不斷上升,到20

2、13年底,已經成為了世界上患病人數最多的國家,達到了9840萬人。所以如何運用統(tǒng)計學的方法對糖尿病數據進行分析,從而有效地預防該病的發(fā)生和發(fā)展,具有很好的現(xiàn)實意義。本文的研究主要有以下兩個目的:第一將 CLIQUE網格聚類算法運用到糖尿病患者的時空數據中并與基于劃分(K-means算法)和基于密度(DBSCAN算法)的算法進行比較;第二對聚類結果中各個維度(如年齡、性別、生活習慣等方面)進行進一步分析,預防糖尿病的發(fā)生。
  方法

3、:
  空間數據挖掘中的聚類分析是數據挖掘研究中一個重要領域,它既可以作為一個單獨的工具發(fā)現(xiàn)數據庫中隱藏分布的一些信息,也可以作為其他數據挖掘算法的預處理步驟。它主要目的是將數據集劃分為若干個簇,使得簇內差異最小,簇間差異最大。在描述簇間的相似度大小時,主要是根據對象間的距離來確定的,距離越大,相似度越小,常用的距離有歐幾里得距離和曼哈坦距離以及明考斯基距離。
  網格聚類技術是指把數據空間分成確定數目的網格單元來構建網格結

4、構,然后再在得到的網格上進行聚類操作,與傳統(tǒng)的聚類算法相比,基于網格的聚類算法具有更高的效率,且能夠識別任意形狀的簇,網格聚類分析現(xiàn)已被廣泛的應用于模式識別、數據分析以及圖像處理等領域。
  結果:
  得到了聚類時間以及內在外在方法的聚類精度方面的結果,通過對這些結果的分析可以得出以下的結論。
  結論:
  本文利用統(tǒng)計學上的三種聚類算法對美國130所醫(yī)院10年間的糖尿病病人的相關數據進行實例分析,并對聚類結

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論