欧美女同视频激情_国产原创中文字幕在线观看_4438xx亚洲最大五色丁香_成年做羞羞的视频网站在线观看_a毛片免费全部播_原神胡桃乳液vx网站进入_一区亚洲欧美中文日韩v在线观看_校园春色亚洲_搞机time软件app免费下载安装_十八禁无遮拦视频大全

數(shù)模競(jìng)賽里廣泛應(yīng)用的算法--聚類(lèi)分析

標(biāo)簽: 數(shù)模競(jìng)賽

社區(qū)小助手 2023-07-28 11:08:20

一、聚類(lèi)分析概述

1、聚類(lèi)(Clustering):

聚類(lèi)是一個(gè)將數(shù)據(jù)集劃分為若干(class)或類(lèi)(cluster)的過(guò)程,并使得同一個(gè)組內(nèi)的數(shù)據(jù)對(duì)象具有較高的相似度;而不同組中的數(shù)據(jù)對(duì)象是不相似的。


相似或不相似是基于數(shù)據(jù)描述屬性的取值來(lái)確定的,通常利用各數(shù)據(jù)對(duì)象間的距離來(lái)進(jìn)行表示。聚類(lèi)分析尤其適合用來(lái)探討樣本間的相互關(guān)聯(lián)關(guān)系從而對(duì)一個(gè)樣本結(jié)構(gòu)做一個(gè)初步的評(píng)價(jià)。


2、聚類(lèi)與分類(lèi)的區(qū)別

聚類(lèi)是一種無(wú)(教師)監(jiān)督的學(xué)習(xí)方法。與分類(lèi)不同,其不依賴(lài)于事先確定的數(shù)據(jù)類(lèi)別,以及標(biāo)有數(shù)據(jù)類(lèi)別的學(xué)習(xí)訓(xùn)練樣本集合。 因此,聚類(lèi)是觀(guān)察式學(xué)習(xí),而不是示例式學(xué)習(xí)。


3、什么是好的聚類(lèi)

一個(gè)好的聚類(lèi)方法將產(chǎn)生以下的高聚類(lèi):

  • 最大化類(lèi)內(nèi)的相似性

  • 最小化類(lèi)間的相似性

聚類(lèi)結(jié)果的質(zhì)量依靠所使用度量的相似性和它的執(zhí)行。聚類(lèi)方法的質(zhì)量也可以用它發(fā)現(xiàn)一些或所有隱含模式的能力來(lái)度量。


聚類(lèi)分析有兩種:

一種是對(duì)樣品的分類(lèi),稱(chēng)為Q型,

一種是對(duì)變量(指標(biāo))的分類(lèi),稱(chēng)為R型。


R型聚類(lèi)分析的主要作用:

(1) 不但可以了解個(gè)別變量之間的親疏程度,而且可以了解各個(gè)變量組合之間的親疏程度。

(2) 根據(jù)變量的分類(lèi)結(jié)果以及它們之間的關(guān)系,可以選擇主要變量進(jìn)行Q型聚類(lèi)分析或回歸分析。(R2為選擇標(biāo)準(zhǔn))


Q型聚類(lèi)分析的主要作用:

(1) 可以綜合利用多個(gè)變量的信息對(duì)樣本進(jìn)行分析

(2) 分類(lèi)結(jié)果直觀(guān),聚類(lèi)譜系圖清楚地表現(xiàn)數(shù)值分類(lèi)結(jié)果

(3) 聚類(lèi)分析所得到的結(jié)果比傳統(tǒng)分類(lèi)方法更細(xì)致、全面、合理。


二、樣品間的相似度量--距離

1、常用距離的定義

1.png

2.png

3.png

2、相似系數(shù)

11.png

22.png

33.png

3、類(lèi)間距離

111.png

222.png

333.png


三、譜系聚類(lèi)算法

1、譜系聚類(lèi)算法的步驟:

(1)選擇樣本間距離的定義及類(lèi)間距離的定義

(2)計(jì)算n個(gè)樣本之間的距離,得到距離矩陣

(3)構(gòu)造個(gè)類(lèi),每類(lèi)只含有一個(gè)樣本

(4)合并符合類(lèi)間距離要求的兩類(lèi)為一個(gè)新類(lèi)

(5)計(jì)算新類(lèi)與當(dāng)前各類(lèi)的距離。若類(lèi)的個(gè)數(shù)為1,則轉(zhuǎn)到步驟6,否則回到步驟4

(6)畫(huà)出聚類(lèi)圖

(7)決定類(lèi)的個(gè)數(shù)和類(lèi)

1111.png

2222.png

四、K-平均聚類(lèi)算法

1、K-平均聚類(lèi)算法步驟:

(1)從n個(gè)數(shù)據(jù)對(duì)象任意選擇k個(gè)對(duì)象作為初始聚類(lèi)中心

(2)循環(huán) (3)到 (4)直到每個(gè)聚類(lèi)不再發(fā)生變化為止

(3)根據(jù)每個(gè)聚類(lèi)對(duì)象的均值(中心對(duì)象 ),計(jì)算每個(gè)對(duì)象與這些中心對(duì)象的距離,并根據(jù)最小距離重新對(duì)相應(yīng)對(duì)象進(jìn)行劃分:

(4)重新計(jì)算每個(gè)(有變化)聚類(lèi)的均值(中心對(duì)象)


2、算法的基本思想:

(1)首先,隨機(jī)的選擇k個(gè)對(duì)象,每個(gè)對(duì)象初始的代表了一個(gè)簇的平均值;

(2)對(duì)剩余的每個(gè)對(duì)象,根據(jù)其與各個(gè)簇中心的距離,將它賦給最近的簇;

(3)然后重新計(jì)算每個(gè)簇的平均值。

(4)這個(gè)過(guò)程不斷重復(fù),直到準(zhǔn)則函數(shù)收斂。


3、算法的特點(diǎn):

只適用于聚類(lèi)均值有意義的場(chǎng)合,在某些應(yīng)用中,如:數(shù)據(jù)集中包含符號(hào)屬性時(shí),直接應(yīng)用k-means算法就有問(wèn)題。

用戶(hù)必須事先指定k的個(gè)數(shù)。對(duì)噪聲和孤立點(diǎn)數(shù)據(jù)敏感,少量的該類(lèi)數(shù)據(jù)能夠?qū)垲?lèi)均值起到很大的影響。



本文轉(zhuǎn)自公眾號(hào)“數(shù)學(xué)建模老哥”


回復(fù)

回復(fù)

重置 提交