本文內容整理自醫咖會《SPSS聚類分析及臨床研究應用》專欄,小咖針對其中關于聚類分析的類型與計算原理相關內容進行了整理,可點擊左下角“閱讀原文”查看完整視頻。
聚類分析根據原理可以分為兩種類型,系統聚類/層次聚類和動態樣本聚類,前者為Q型和R型聚類,后者為常說的K-means聚類。
![]()
聚類分析根本上是對相似性/距離的度量,需計算樣本/變量之間的相似系數/距離。對于連續型變量的距離,計算公式如下,最常用的是歐氏距離,這個公式其實在中學時向量計算中就有所接觸。
![]()
連續型變量的相似度計算公式如下:
![]()
對于離散型變量的相似度,可以使用卡方和Phi方統計量。
![]()
聚類過程中可能會產生中間類別,逐級聚類至幾個大類。這些小類之間的相似度計算公式如下:
![]()
最短距離法即尋找兩個類別中距離最近的兩個變量,將這兩個變量之間的距離定義為兩個類別的距離;最長距離法則相反。類間平均鎖鏈法考慮每個變量與另一類別中每個變量的距離,最后取平均距離;類內平均鎖鏈法則考慮每個變量與自身所屬類別和另一個類別中的所有變量的距離。重心法在每個類別中尋找“重心”,將兩個重心之間距離定義為兩類別的距離。
以上計算公式均以Q型聚類為例,R型與其相似,只是前者計算樣本間的距離,一般使用距離公式,后者為變量之間的距離,一般使用相似系數。K-means聚類本質上屬于基于距離的樣本聚類,但計算更為簡便,聚類更為快速。Q型聚類案例如下,當樣本量過大時,樹形圖過于復雜不利于展示,通常使用K-means聚類。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.