Skala apa yang digunakan untuk analisis klaster. Analisis klaster hierarkis

Salah satu alat untuk memecahkan tantangan ekonomi adalah analisis klaster. Dengan bantuannya, cluster dan objek lain dari kumpulan data diklasifikasikan ke dalam grup. Teknik ini dapat diterapkan di program excel... Mari kita lihat bagaimana ini dilakukan dalam praktik.

Dengan bantuan analisis klaster, dimungkinkan untuk memilih sesuai dengan karakteristik yang sedang diselidiki. Tugas utamanya adalah untuk membagi array multidimensi menjadi kelompok-kelompok homogen. Sebagai kriteria pengelompokan, digunakan koefisien korelasi pasangan atau jarak Euclidean antara objek menurut parameter yang diberikan. Nilai-nilai yang paling dekat satu sama lain dikelompokkan bersama.

Meskipun paling sering pandangan yang diberikan analisis digunakan dalam ekonomi, juga dapat digunakan dalam biologi (untuk mengklasifikasikan hewan), psikologi, kedokteran dan di banyak bidang aktivitas manusia lainnya. Analisis klaster dapat diterapkan menggunakan seperangkat alat Excel standar untuk tujuan ini.

Contoh penggunaan

Kami memiliki lima objek, yang dicirikan oleh dua parameter yang dipelajari - x dan kamu.

V STATISTIK mengimplementasikan metode klasik analisis klaster, termasuk metode k-means, klaster hierarkis, dan join dua input.

Data dapat datang baik dalam bentuk aslinya maupun dalam bentuk matriks jarak antar objek.

Pengamatan dan variabel dapat dikelompokkan menggunakan ukuran jarak yang berbeda (Euclidean, Euclidean square, Manhattan, Chebyshev, dll.) dan aturan yang berbeda untuk menggabungkan cluster (tunggal, koneksi penuh, rata-rata berpasangan tidak berbobot dan berbobot untuk grup, dll.).

Rumusan masalah

File data asli berisi informasi berikut tentang kendaraan dan pemiliknya:

Tujuan dari analisis ini adalah untuk mengklasifikasikan mobil dan pemiliknya ke dalam kelas, yang masing-masing sesuai dengan kelompok risiko tertentu. Pengamatan yang termasuk dalam satu kelompok dicirikan oleh probabilitas yang sama untuk terjadinya suatu peristiwa yang diasuransikan, yang selanjutnya dinilai oleh perusahaan asuransi.

Penggunaan analisis klaster untuk memecahkan masalah ini paling efektif. Dalam kasus umum, analisis klaster dimaksudkan untuk menggabungkan beberapa objek ke dalam kelas (cluster) sedemikian rupa sehingga yang paling mirip jatuh ke dalam satu kelas, dan objek dari kelas yang berbeda sebanyak mungkin berbeda satu sama lain. Indikator kuantitatif kesamaan dihitung dengan cara tertentu berdasarkan data yang mencirikan objek.

Skala pengukuran

Semuanya algoritma cluster perlu perkiraan jarak antara cluster atau objek, dan jelas bahwa ketika menghitung jarak, perlu untuk mengatur skala pengukuran.

Karena pengukuran yang berbeda benar-benar digunakan jenis yang berbeda timbangan, data perlu distandarisasi (dalam menu Data pilih barang Untuk menstandarisasi), sehingga setiap variabel akan memiliki mean 0 dan standar deviasi 1.

Sebuah tabel dengan variabel standar ditunjukkan di bawah ini.

Langkah 1. Klasifikasi hierarki

Langkah pertama adalah mencari tahu apakah mobil membentuk cluster "alami" yang dapat dikonseptualisasikan.

Ayo pilih Analisis Cluster di menu Analisis - Analisis eksplorasi multivariat untuk menampilkan panel awal modul Analisis Cluster... Dalam dialog ini, pilih Klasifikasi hierarkis dan tekan Oke.

tekan tombolnya Variabel, memilih Semuanya, di lapangan Objek memilih Pengamatan (string). Sebagai aturan serikat pekerja, perhatikan Metode koneksi penuh, sebagai ukuran kedekatan - Jarak Euclidean... tekan Oke.

Metode linkage lengkap mendefinisikan jarak antara cluster sebagai jarak terbesar antara dua fitur dalam cluster yang berbeda (yaitu, "tetangga terjauh").

Ukuran kedekatan, yang ditentukan oleh jarak Euclidean, adalah jarak geometris dalam ruang n-dimensi dan dihitung sebagai berikut:

Hasil terpenting dari pengelompokan pohon adalah hierarki pohon. Klik pada tombol dendrogram vertikal.

Diagram pohon mungkin tampak sedikit membingungkan pada awalnya, tetapi setelah beberapa penelitian, diagram pohon menjadi lebih mudah dipahami. Diagram dimulai dari atas (untuk dendrogram vertikal) dengan masing-masing kendaraan di clusternya sendiri.

Segera setelah Anda mulai bergerak ke bawah, mobil-mobil yang "saling menyentuh lebih dekat" bergabung dan membentuk kelompok. Setiap node pada diagram di atas mewakili penyatuan dua atau lebih cluster, posisi node pada sumbu vertikal menentukan jarak di mana cluster yang sesuai telah digabungkan.

Langkah 2. K-means clustering

Berdasarkan penyajian visual hasil, dapat diasumsikan bahwa mobil membentuk empat cluster alami. Mari kita periksa asumsi ini dengan membagi data awal dengan metode K mean menjadi 4 cluster, dan periksa signifikansi perbedaan antara kelompok yang diperoleh.

Di panel awal modul Analisis Cluster memilih Pengelompokan K-Means.

tekan tombolnya Variabel dan pilih Semuanya, di lapangan Objek memilih Pengamatan (string), atur 4 cluster partisi.

metode K-berarti adalah sebagai berikut: perhitungan dimulai dengan k pengamatan yang dipilih secara acak (dalam kasus kami, k = 4), yang menjadi pusat kelompok, setelah itu komposisi objek dari klaster berubah untuk meminimalkan variabilitas dalam klaster dan memaksimalkan variabilitas antar klaster.

Setiap pengamatan berikutnya (K + 1) termasuk dalam kelompok, ukuran kesamaan dengan pusat gravitasi yang minimal.

Setelah mengubah komposisi cluster, pusat baru gravitasi, paling sering sebagai vektor rata-rata untuk setiap parameter. Algoritma berlanjut sampai komposisi cluster berhenti berubah.

Ketika hasil klasifikasi diperoleh, Anda dapat menghitung nilai rata-rata indikator untuk setiap cluster untuk menilai perbedaannya satu sama lain.

Di jendela Hasil dari metode K mean memilih ANOVA untuk menentukan signifikansi perbedaan antara cluster yang dihasilkan.

Jadi nilai p<0.05, что говорит о значимом различии.

tekan tombolnya Elemen dan jarak cluster untuk melihat pengamatan yang termasuk dalam masing-masing cluster. Opsi ini juga memungkinkan Anda untuk menampilkan jarak Euclidean objek dari pusat (nilai rata-rata) dari cluster yang sesuai.

Kluster pertama:

Kluster kedua:

Kluster ketiga:

Kluster keempat:

Jadi, pada masing-masing dari keempat cluster tersebut terdapat objek dengan pengaruh yang sama terhadap proses kerugian.

Langkah 3. Statistik deskriptif

Pengetahuan tentang statistik deskriptif dalam setiap kelompok tentu penting bagi setiap peneliti.

Tugas Pengelompokan di Data Mining

Pengantar analisis klaster

Dari seluruh luas wilayah penerapan analisis klaster, misalnya masalah peramalan sosial ekonomi.

Ketika menganalisis dan meramalkan fenomena sosial ekonomi, peneliti sering dihadapkan pada multidimensi deskripsi mereka. Ini terjadi ketika memecahkan masalah segmentasi pasar, membangun tipologi negara berdasarkan jumlah indikator yang cukup besar, memprediksi kondisi pasar untuk barang-barang individual, mempelajari dan memprediksi depresi ekonomi dan banyak masalah lainnya.

Metode analisis multivariat adalah alat kuantitatif yang paling efektif untuk mempelajari proses sosial-ekonomi yang dijelaskan oleh sejumlah besar karakteristik. Ini termasuk analisis cluster, taksonomi, pengenalan pola, analisis faktor.

Analisis Cluster paling jelas mencerminkan fitur analisis multivariat dalam klasifikasi, analisis faktor - dalam studi komunikasi.

Terkadang pendekatan analisis klaster disebut dalam literatur sebagai taksonomi numerik, klasifikasi numerik, pengenalan belajar mandiri, dll.

Aplikasi pertama dari analisis klaster ditemukan dalam sosiologi. Nama analisis cluster berasal dari kata bahasa Inggris cluster - a bunch, a cluster. Untuk pertama kalinya pada tahun 1939, subjek analisis klaster diidentifikasi dan dijelaskan oleh peneliti Trion. Tujuan utama dari analisis klaster adalah untuk membagi himpunan objek dan fitur yang diteliti ke dalam kelompok atau klaster yang homogen dalam arti yang sesuai. Ini berarti bahwa tugas mengklasifikasikan data dan mengidentifikasi struktur yang sesuai di dalamnya sedang diselesaikan. Metode analisis klaster dapat diterapkan dalam berbagai kasus, bahkan dalam kasus pengelompokan sederhana, di mana semuanya bermuara pada pembentukan kelompok berdasarkan kesamaan kuantitatif.

Keuntungan besar dari analisis klaster karena memungkinkan Anda untuk membagi objek bukan dengan satu parameter, tetapi dengan seluruh rangkaian fitur. Selain itu, analisis klaster, berbeda dengan kebanyakan metode matematis dan statistik, tidak memberlakukan batasan apa pun pada jenis objek yang dipertimbangkan, dan memungkinkan seseorang untuk mempertimbangkan berbagai data awal yang hampir bersifat arbitrer. Ini sangat penting, misalnya, untuk meramalkan konjungtur, ketika indikator memiliki bentuk yang beragam, yang menyulitkan penerapan pendekatan ekonometrik tradisional.

Analisis klaster memungkinkan kita untuk mempertimbangkan sejumlah besar informasi dan secara tajam mengurangi, memadatkan sejumlah besar informasi sosial-ekonomi, menjadikannya kompak dan visual.

Analisis klaster sangat penting dalam kaitannya dengan kumpulan deret waktu yang menjadi ciri pembangunan ekonomi (misalnya, situasi ekonomi dan komoditas secara umum). Di sini dimungkinkan untuk memilih periode ketika nilai indikator yang sesuai cukup dekat, serta untuk menentukan kelompok deret waktu, yang dinamikanya paling mirip.

Analisis cluster dapat digunakan secara siklis. Dalam hal ini penelitian dilakukan sampai tercapai hasil yang diinginkan. Selain itu, setiap siklus di sini dapat memberikan informasi yang dapat sangat mengubah arah dan pendekatan penerapan analisis klaster lebih lanjut. Proses ini dapat diwakili oleh sistem umpan balik.

Dalam tugas peramalan sosial-ekonomi, kombinasi analisis klaster dengan metode kuantitatif lainnya (misalnya, dengan analisis regresi) sangat menjanjikan.

Seperti metode lainnya , analisis klaster memiliki kelemahan dan keterbatasan tertentu: Secara khusus, komposisi dan jumlah cluster tergantung pada kriteria partisi yang dipilih. Ketika array data asli direduksi menjadi bentuk yang lebih kompak, distorsi tertentu dapat terjadi, dan fitur individual dari objek individual juga dapat hilang karena penggantiannya dengan karakteristik nilai umum dari parameter cluster. Saat mengklasifikasikan objek, sangat sering kemungkinan tidak adanya nilai cluster dalam kumpulan yang dipertimbangkan diabaikan.

Dalam analisis klaster, diyakini bahwa:

a) karakteristik yang dipilih pada prinsipnya mengakui pembagian yang diinginkan ke dalam kelompok;

b) unit pengukuran (skala) dipilih dengan benar.

Pilihan skala memainkan peran besar. Biasanya, data dinormalisasi dengan mengurangi mean dan membaginya dengan standar deviasi sehingga variansnya adalah satu.

1 masalah pengelompokan

Tugas pengelompokan adalah, berdasarkan data yang terkandung dalam himpunan x, menghancurkan banyak benda G pada M (M- keseluruhan) cluster (subset) Q 1,Q2, ...,Q m, sehingga setiap objek G j milik satu dan hanya satu subset dari partisi dan sehingga objek milik cluster yang sama adalah serupa, sedangkan objek milik cluster yang berbeda tidak serupa.

Misalnya, mari G mencakup n negara, salah satunya dicirikan oleh GNP per kapita ( F 1), nomor M mobil untuk 1.000 orang ( F2), konsumsi listrik per kapita ( F3), konsumsi baja per kapita ( F 4) dll. Kemudian X 1(vektor pengukuran) adalah seperangkat karakteristik yang ditentukan untuk negara pertama, X 2- untuk kedua, X 3 untuk yang ketiga, dst. Tantangannya adalah untuk memecah negara berdasarkan tingkat pembangunan.

Solusi untuk masalah analisis klaster adalah partisi yang memenuhi kriteria optimalitas tertentu. Kriteria ini dapat berupa fungsi tertentu yang menyatakan tingkat keinginan dari berbagai partisi dan pengelompokan, yang disebut fungsi tujuan. Misalnya, jumlah kuadrat simpangan dalam grup dapat diambil sebagai fungsi tujuan:

di mana x j- mewakili pengukuran J objek ke.

Untuk menyelesaikan masalah analisis klaster, perlu didefinisikan konsep kesamaan dan heterogenitas.

Jelas bahwa objek Saya th dan J-th akan jatuh ke dalam satu cluster ketika jarak (jarak) antara titik x Saya dan X j akan cukup kecil dan jatuh ke dalam kelompok yang berbeda ketika jaraknya cukup besar. Dengan demikian, memukul satu atau kelompok objek yang berbeda ditentukan oleh konsep jarak antara x Saya dan X j dari EP, di mana EP - R-dimensi ruang Euclidean. Fungsi non-negatif d (X Saya, X j) disebut fungsi jarak (metrik) jika:

sebuah) d (Xsaya, Xj)³ 0 , untuk semua x Saya dan X j dari EP

B) d (Xi, X j) = 0, jika dan hanya jika x Saya= X j

v) d (Xi, X j) = d (X j, X Saya)

G) d (Xsaya, Xj)£ d (Xi, X k) + d (X k, X j), di mana X j; xsaya dan X k- sembarang tiga vektor dari EP.

Berarti d (Xsaya, Xj) untuk xSaya dan x j disebut jarak antara xSaya dan X j dan sama dengan jarak antara GSaya dan G j sesuai dengan karakteristik yang dipilih (F 1, F 2, F 3, ..., F p).

Fungsi jarak yang paling umum digunakan adalah:

1. Jarak Euclidean d 2 (Xi, X j) =

2... l 1- norma d 1 (Xi, X j) =

3. Tertinggi adalah norma D ¥ (Xi, X j) = sup

k = 1, 2, ..., p

4... aku- norma d p ​​(Xi, X j) =

Metrik Euclidean adalah yang paling populer. Metrik l 1 adalah yang termudah untuk dihitung. Norma tertinggi mudah dibaca dan mencakup prosedur pemesanan, a l p- norma mencakup fungsi jarak 1, 2, 3 ,.

Misalkan n dimensi X 1, X 2, ..., Xn disajikan sebagai matriks data ukuran P´ n:

Maka jarak antara pasangan vektor d (X Saya, Xj) dapat direpresentasikan sebagai matriks jarak simetris:

Kebalikan dari jarak adalah konsep kesamaan antara objek. G Saya . dan G j... Fungsi real non-negatif S (X Saya; X j) = S Saya J disebut ukuran kemiripan jika:

1) 0 £ S (X i, X j)< 1 untuk X Saya ¹ X j

2) S ( xSaya, XSaya) = 1

3) S ( xSaya, XJ) = S (XJ, X Saya )

Pasangan nilai ukuran kesamaan dapat digabungkan menjadi matriks kesamaan:

Nilai Saku j disebut tingkat kesamaan.

2. Metode pengelompokan

Saat ini ada banyak metode analisis cluster. Mari kita membahas beberapa di antaranya (metode yang diberikan di bawah ini biasanya disebut metode varians minimum).

Membiarkan x- matriks observasi: X = (X 1, X 2, ..., X u) dan kuadrat jarak Euclidean antara x Saya dan X j ditentukan dengan rumus:

1) Metode tautan penuh.

Inti dari metode ini adalah bahwa dua objek yang termasuk dalam kelompok (cluster) yang sama memiliki koefisien kesamaan yang kurang dari nilai ambang batas tertentu. S... Dalam hal jarak Euclidean D ini berarti bahwa jarak antara dua titik (objek) dari cluster tidak boleh melebihi beberapa nilai ambang batasH... Lewat sini, Hmendefinisikan diameter maksimum yang diijinkan dari subset yang membentuk sebuah cluster.

2) Metode jarak lokal maksimum.

Setiap objek dianggap sebagai cluster titik tunggal. Objek dikelompokkan menurut aturan berikut: dua cluster digabungkan jika jarak maksimum antara titik satu cluster dan titik lain minimal. Prosedurnya terdiri dari n - 1 langkah dan hasilnya adalah partisi yang cocok dengan semua kemungkinan partisi dalam metode sebelumnya untuk nilai ambang batas apa pun.

3) Metode kata.

Dalam metode ini, sebagai fungsi tujuan, jumlah kuadrat deviasi intragroup digunakan, yang tidak lebih dari jumlah kuadrat jarak antara setiap titik (objek) dan rata-rata di atas cluster yang berisi objek ini. Pada setiap langkah, dua cluster digabungkan yang mengarah pada peningkatan minimal dalam fungsi tujuan, yaitu. jumlah kuadrat intragrup. Metode ini bertujuan untuk menggabungkan cluster yang berjarak dekat.

4) Metode pusat.

Jarak antara dua cluster didefinisikan sebagai jarak Euclidean antara pusat (means) dari cluster ini:

d 2ij = (` X -` Y) T (` X -` Y) Pengelompokan dilakukan secara bertahap pada masing-masing n – 1 langkah menggabungkan dua cluster G dan P memiliki nilai minimum d 2 ij Jika n 1 lebih banyak n 2, maka pusat-pusat penggabungan dua klaster saling berdekatan dan karakteristik klaster kedua praktis diabaikan saat menggabungkan klaster. Terkadang metode ini terkadang juga disebut metode grup berbobot.

3. Algoritma pengelompokan berurutan

Mempertimbangkan = (Ι 1, 2,…n) cluster sebanyak-banyaknya (Ι 1), (Ι 2),… ​​(n)... Mari kita pilih dua di antaranya, misalnya, Ι Saya dan j, yang dalam artian lebih dekat satu sama lain dan akan kita gabungkan menjadi satu cluster. Kumpulan cluster baru, yang sudah terdiri dari n -1 cluster, akan menjadi:

(Ι 1), ( 2) ..., Saya, j),…, (Ιn).

Mengulangi proses, kami memperoleh set cluster berurutan yang terdiri dari: (n -2), (n -3), (n –4) dll. cluster. Di akhir prosedur, Anda bisa mendapatkan cluster yang terdiri dari n objek dan bertepatan dengan set awal = (Ι 1, 2,…n).

Sebagai ukuran jarak, kami mengambil kuadrat dari metrik Euclidean D Saya j 2... dan hitung matriksnya D = (di j 2), di mana dsaya j 2- kuadrat jarak antara

Ι Saya dan j:

….

n

h 12 2

h 13 2

….

d 1n 2

h 23 2

….

d 2n 2

….

d 3n 2

….

….

….

n

Biarkan jarak antara Ι Saya dan Ι j akan minimal:

D Saya J 2 = min (d i j 2, i¹ J). Mari kita bentuk dengan bantuan Ι Saya dan Ι j cluster baru

saya, j)... Mari membangun yang baru ((n-1), (n-1)) matriks jarak

(Ι saya, j)

….

n

(Ι saya; j)

d saya j 2 1

d saya j 2 2

….

d i j 2 n

h 12 2

h 1 3

….

d 1 2 n

….

d 2 n

….

d 3n

(n -2) baris untuk matriks terakhir diambil dari yang sebelumnya, dan baris pertama dihitung ulang. Perhitungan dapat dikurangi seminimal mungkin jika seseorang dapat mengungkapkan d i j 2 k, k = 1, 2, ...,n; (k¹ Saya¹ J) melalui elemen-elemen matriks asli.

Awalnya, jarak ditentukan hanya antara cluster elemen tunggal, tetapi perlu untuk menentukan jarak antara cluster yang berisi lebih dari satu elemen. Ini dapat dilakukan dengan berbagai cara, dan tergantung pada metode yang dipilih, kami mendapatkan algoritma analisis klaster dengan properti yang berbeda. Anda dapat, misalnya, menempatkan jarak antara cluster saya + j dan beberapa cluster lainnya k sama dengan rata-rata aritmatika dari jarak antara cluster Saya dan k dan cluster J dan k:

d i + j, k = (d i k + d j k).

Tetapi Anda juga dapat menentukan d i + j, k sebagai minimum dari dua jarak ini:

d i + j, k = min (d i k + d j k).

Dengan demikian, langkah pertama dari algoritma hierarki aglomerasi dijelaskan. Langkah-langkah selanjutnya serupa.

Kelas algoritma yang cukup luas dapat diperoleh jika rumus umum berikut digunakan untuk menghitung ulang jarak:

d i + j, k = A (w) min (d ik d jk) + B (w) max (d ik d jk), di mana

A (w) = jikad ik£ d jk

A (w) = jikad ik> d jk

B (w) = jikaD Saya k £ d jk

B (w) =, jikad ik> d jk

di mana dan aku dan n j- jumlah elemen dalam cluster Saya dan J, sebuah w Adalah parameter bebas, pilihan yang menentukan algoritma tertentu. Misalnya untuk w = 1 kami mendapatkan apa yang disebut algoritma "koneksi rata-rata", di mana rumus untuk menghitung ulang jarak mengambil bentuk:

d i + j, k =

V pada kasus ini jarak antara dua cluster pada setiap langkah operasi algoritma ternyata sama dengan rata-rata aritmatika dari jarak antara semua pasangan elemen sedemikian rupa sehingga satu elemen dari pasangan menjadi milik satu cluster, yang lain ke yang lain.

Arti yang jelas dari parameter w menjadi jelas jika kita menempatkan w® ¥ ... Rumus untuk menghitung ulang jarak mengambil bentuk:

d i + j, k =menit (D Saya, kdj)

Ini akan menjadi apa yang disebut algoritma "tetangga terdekat", yang memungkinkan untuk memilih kelompok bentuk kompleks yang sewenang-wenang, asalkan bagian yang berbeda dari kelompok tersebut dihubungkan oleh rantai elemen yang dekat satu sama lain. Dalam hal ini, jarak antara dua cluster pada setiap langkah operasi algoritma ternyata sama dengan jarak antara dua elemen terdekat milik dua cluster tersebut.

Cukup sering, diasumsikan bahwa jarak awal (perbedaan) antara elemen yang dikelompokkan diberikan. Dalam beberapa tugas, ini benar. Namun, hanya objek yang ditetapkan dan karakteristiknya serta matriks jarak yang dibangun berdasarkan data ini. Metode yang berbeda digunakan tergantung pada apakah jarak antara objek atau antara karakteristik objek dihitung.

Dalam kasus analisis klaster objek, ukuran perbedaan yang paling sering adalah kuadrat jarak Euclidean

(di mana x ih, x jh- nilai H-fitur untuk Saya th dan J objek -th, dan M- jumlah karakteristik), atau jarak Euclidean itu sendiri. Jika bobot yang berbeda dikaitkan dengan fitur, maka bobot ini dapat diperhitungkan saat menghitung jarak

Terkadang jarak digunakan sebagai ukuran perbedaan, dihitung dengan rumus:

yang disebut: jarak "Hamming", "Manhattan" atau "blok kota".

Ukuran alami kesamaan karakteristik objek dalam banyak masalah adalah koefisien korelasi di antara mereka

di mana m saya, m j,D Saya,D J- masing-masing, mean dan standar deviasi untuk karakteristik Saya dan J... Ukuran perbedaan antara karakteristik dapat berupa nilai 1 - r... Dalam beberapa masalah, tanda koefisien korelasi tidak signifikan dan hanya bergantung pada pilihan unit pengukuran. Dalam hal ini, sebagai ukuran perbedaan antara karakteristik, kami menggunakan ô 1 - r i j ô

4. Jumlah cluster

Masalah yang sangat penting adalah masalah pemilihan jumlah cluster yang dibutuhkan. Terkadang dimungkinkan untuk memilih m jumlah cluster apriori. Namun, dalam kasus umum, jumlah ini ditentukan dalam proses mempartisi himpunan menjadi cluster.

Penelitian dilakukan oleh Fortier dan Solomon, dan ditemukan bahwa jumlah cluster harus diambil untuk mencapai probabilitas sebuah bahwa partisi terbaik ditemukan. Jadi, jumlah partisi yang optimal adalah fungsi dari pecahan yang diberikan B terbaik atau, dalam arti tertentu, partisi yang dapat diterima dalam himpunan semua kemungkinan. Total hamburan akan semakin besar, semakin tinggi proporsinya B partisi yang dapat diterima. Fortier dan Solomon telah mengembangkan tabel yang dapat digunakan untuk mencari jumlah partisi yang dibutuhkan. S (sebuah , B ) tergantung pada sebuah dan B (di mana sebuah - probabilitas bahwa partisi terbaik ditemukan, B adalah bagian dari partisi terbaik dalam jumlah total partisi) Selain itu, sebagai ukuran heterogenitas, bukan ukuran hamburan yang digunakan, tetapi ukuran keanggotaan yang diperkenalkan oleh Holzenger dan Harman. Tabel nilai S (sebuah , B ) diberikan di bawah ini.

Tabel nilaiS (sebuah , B )

B \ sebuah

0.20

0.10

0.05

0.01

0.001

0.0001

0.20

8

11

14

21

31

42

0.10

16

22

29

44

66

88

0.05

32

45

59

90

135

180

0.01

161

230

299

459

689

918

0.001

1626

2326

3026

4652

6977

9303

0.0001

17475

25000

32526

55000

75000

100000

Cukup sering, perubahan fungsi yang sesuai menjadi kriteria unifikasi (jumlah cluster). Misalnya, jumlah kuadrat simpangan:

Proses pengelompokan di sini harus sesuai dengan peningkatan minimum berurutan dalam nilai kriteria E... Adanya lonjakan nilai yang tajam E dapat diartikan sebagai ciri dari banyaknya klaster yang secara objektif ada pada populasi yang diteliti.

Jadi, metode kedua untuk menentukan jumlah cluster terbaik direduksi menjadi mengidentifikasi lompatan yang ditentukan oleh transisi fase dari keadaan objek yang digabungkan kuat ke keadaan objek yang digabungkan secara lemah.

5. Dendogram

Metode paling terkenal untuk mewakili matriks jarak atau kesamaan didasarkan pada gagasan dendogram atau diagram pohon. Dendogram dapat didefinisikan sebagai gambar grafis hasil dari proses clustering sekuensial, yang dilakukan dalam bentuk matriks jarak. Menggunakan dendogram, Anda dapat menggambarkan secara grafis atau geometris prosedur pengelompokan, asalkan prosedur ini hanya beroperasi dengan elemen matriks jarak atau kesamaan.

Ada banyak cara untuk membangun dendogram. Dalam dendogram, objek terletak vertikal ke kiri, hasil pengelompokan ke kanan. Nilai jarak atau kemiripan yang sesuai dengan struktur cluster baru diplot sepanjang garis horizontal di atas dendogram.

Gambar 1

Gambar 1 menunjukkan salah satu contoh dendogram. Gambar 1 sesuai dengan kasus enam objek ( n=6) dan kkarakteristik (tanda). Objek SEBUAH dan DENGAN terdekat dan karena itu digabungkan menjadi satu cluster pada tingkat kedekatan sama dengan 0,9. ObjekDdan E menggabungkan pada 0,8. Sekarang kami memiliki 4 cluster:

(A, C), (F), ( D, E), ( B) .

Cluster lebih lanjut terbentuk (A, C, F) dan ( E, D, B) sesuai dengan tingkat keintiman sebesar 0,7 dan 0,6. Akhirnya, semua objek dikelompokkan menjadi satu cluster pada level 0,5.

Jenis dendogram tergantung pada pilihan ukuran kemiripan atau jarak antara objek dan cluster dan metode clustering. Poin terpenting adalah pilihan ukuran kemiripan atau ukuran jarak antara objek dan cluster.

Jumlah algoritma analisis cluster terlalu besar. Semuanya dapat dibagi menjadi hierarkis dan non-hierarkis.

Algoritma hierarkis dikaitkan dengan konstruksi dendogram dan dibagi menjadi:

a) aglomerasi, dicirikan oleh kombinasi berurutan dari elemen awal dan penurunan jumlah kelompok yang sesuai;

b) dapat dibagi (divisible), di mana jumlah cluster meningkat, mulai dari satu, menghasilkan pembentukan urutan pemisahan kelompok.

Algoritma analisis cluster memiliki implementasi perangkat lunak yang baik saat ini, yang memungkinkan Anda untuk memecahkan masalah dengan dimensi terbesar.

6. Data

Analisis cluster dapat diterapkan pada data interval, frekuensi, data biner. Adalah penting bahwa variabel berubah pada skala yang sebanding.

Ketidakhomogenan unit pengukuran dan ketidakmungkinan konsekuensi dari ekspresi yang wajar dari nilai-nilai berbagai indikator pada skala yang sama mengarah pada fakta bahwa jarak antara titik yang mencerminkan posisi objek dalam ruang propertinya tergantung pada skala yang dipilih secara sewenang-wenang. Untuk menghilangkan heterogenitas pengukuran data awal, semua nilainya dinormalisasi sebelumnya, mis. diekspresikan melalui rasio nilai-nilai ini dengan nilai tertentu yang mencerminkan sifat-sifat tertentu dari indikator yang diberikan. Normalisasi data awal untuk analisis klaster terkadang dilakukan dengan membagi nilai awal dengan standar deviasi dari indikator yang sesuai. Cara lain adalah dengan menghitung apa yang disebut kontribusi standar. Disebut juga Z-kontribusi.

Z - kontribusi menunjukkan berapa banyak standar deviasi memisahkan pengamatan yang diberikan dari mean:

Di mana x saya- nilai pengamatan ini,- rata-rata, S- simpangan baku.

Rata-rata untuk Z -kontribusinya nol dan simpangan bakunya adalah 1.

Standardisasi memungkinkan perbandingan pengamatan dari distribusi yang berbeda. Jika distribusi suatu variabel normal (atau mendekati normal), dan mean dan varians diketahui atau diperkirakan dari sampel yang besar, maka Z - kontribusi pengamatan memberikan informasi yang lebih spesifik tentang lokasinya.

Perhatikan bahwa metode standardisasi berarti pengakuan semua fitur sebagai setara dari sudut pandang memperjelas kesamaan objek yang dipertimbangkan. Telah dicatat bahwa dalam kaitannya dengan ekonomi, pengakuan kesetaraan berbagai indikator tampaknya tidak selalu dibenarkan. Akan lebih baik, bersama dengan penjatahannya, untuk memberikan bobot pada masing-masing indikator yang mencerminkan signifikansinya dalam rangka menetapkan persamaan dan perbedaan objek.

Dalam situasi ini, seseorang harus menggunakan metode untuk menentukan bobot indikator individual - survei para ahli. Misalnya, ketika memecahkan masalah mengklasifikasikan negara berdasarkan level pertumbuhan ekonomi kami menggunakan hasil survei terhadap 40 pakar terkemuka Moskow tentang masalah negara maju dalam skala sepuluh poin:

indikator umum pembangunan sosial-ekonomi - 9 poin;

indikator distribusi sektoral populasi pekerja - 7 poin;

indikator prevalensi tenaga kerja upahan - 6 poin;

indikator yang mencirikan elemen manusia dari kekuatan produktif - 6 poin;

indikator pengembangan kekuatan produktif material - 8 poin;

indikator pengeluaran pemerintah - 4 poin;

Indikator "ekonomi-militer" - 3 poin;

indikator sosio-demografis - 4 poin.

Penilaian para ahli relatif stabil.

Penilaian ahli memberikan dasar yang diketahui untuk menentukan pentingnya indikator yang termasuk dalam kelompok indikator tertentu. Mengalikan nilai indikator yang dinormalisasi dengan koefisien yang sesuai dengan skor rata-rata penilaian memungkinkan penghitungan jarak antara titik yang mencerminkan posisi negara dalam ruang multidimensi, dengan mempertimbangkan bobot fitur mereka yang tidak sama.

Cukup sering, ketika memecahkan masalah serupa, tidak hanya satu, tetapi dua perhitungan yang digunakan: yang pertama, di mana semua tanda dianggap setara, yang kedua, di mana mereka diberikan bobot yang berbeda sesuai dengan nilai rata-rata penilaian ahli.

7. Penerapan analisis klaster

Mari kita pertimbangkan beberapa aplikasi analisis cluster.

1. Pembagian negara menjadi kelompok-kelompok sesuai dengan tingkat perkembangannya.

65 negara dipelajari menurut 31 indikator (pendapatan nasional per kapita, pangsa penduduk yang bekerja di industri dalam%, tabungan per kapita, pangsa penduduk yang bekerja di pertanian dalam%, harapan hidup rata-rata, jumlah mobil per 1.000 penduduk, jumlah angkatan bersenjata per 1 juta penduduk, bagian dari PDB industri dalam%, bagian dari PDB pertanian dalam%, dll.)

Masing-masing negara bertindak dalam pertimbangan ini sebagai objek yang dicirikan oleh nilai-nilai tertentu dari 31 indikator. Dengan demikian, mereka dapat direpresentasikan sebagai titik dalam ruang 31 dimensi. Ruang seperti ini biasanya disebut ruang sifat-sifat benda yang diteliti. Perbandingan jarak antara titik-titik ini akan mencerminkan tingkat kedekatan negara-negara yang dipertimbangkan, kesamaan mereka satu sama lain. Arti sosial-ekonomi dari pemahaman kesamaan seperti itu berarti bahwa negara-negara dianggap semakin mirip, semakin kecil perbedaan antara indikator dengan nama yang sama, dengan bantuan yang mereka jelaskan.

Langkah pertama dari analisis tersebut adalah mengidentifikasi pasangan ekonomi nasional yang termasuk dalam matriks kesamaan, jarak antara yang terkecil. Ini jelas akan menjadi ekonomi yang paling mirip dan serupa. Dalam pemeriksaan selanjutnya, kedua negara ini dianggap sebagai satu kelompok, satu klaster. Dengan demikian, matriks asli ditransformasikan sehingga jarak antara semua pasangan yang mungkin tidak lagi 65, tetapi 64 objek - 63 ekonomi dan kluster yang baru diubah - penyatuan bersyarat dari dua negara yang paling mirip, menjadi elemennya. Baris dan kolom yang sesuai dengan jarak dari pasangan negara yang termasuk dalam merger ke semua yang lain dibuang dari matriks kesamaan asli, tetapi baris dan kolom ditambahkan yang berisi jarak antara cluster yang diperoleh selama merger dan negara lain.

Jarak antara cluster yang baru diperoleh dan negara-negara diasumsikan sama dengan rata-rata jarak antara negara yang terakhir dan dua negara yang membentuk cluster baru. Dengan kata lain, gabungan kelompok negara dipandang sebagai satu kesatuan dengan karakteristik yang kira-kira sama dengan rata-rata karakteristik negara-negara anggotanya.

Langkah kedua dari analisis ini adalah mempertimbangkan matriks dengan 64 baris dan kolom yang ditransformasikan dengan cara ini. Sekali lagi, sepasang ekonomi diidentifikasi, jarak antara yang paling tidak penting, dan mereka, seperti dalam kasus pertama, disatukan. Dalam hal ini, jarak terkecil dapat berupa antara sepasang negara dan antara negara mana pun dengan persatuan negara yang diperoleh pada tahap sebelumnya.

Prosedur lebih lanjut serupa dengan yang dijelaskan di atas: pada setiap tahap, matriks ditransformasikan sehingga dua kolom dan dua baris yang berisi jarak ke objek (pasangan negara atau serikat pekerja - kluster) yang disatukan pada tahap sebelumnya dikeluarkan darinya ; baris dan kolom yang dikecualikan diganti dengan kolomdan baris yang berisi jarak dari gabungan baru ke objek lainnya; selanjutnya, sepasang objek terdekat terungkap dalam matriks yang diubah. Analisis berlanjut sampai matriks benar-benar habis (yaitu, sampai semua negara disatukan). Hasil umum dari analisis matriks dapat direpresentasikan dalam bentuk pohon kesamaan (dendogram), mirip dengan yang dijelaskan di atas, dengan satu-satunya perbedaan bahwa pohon kesamaan, yang mencerminkan kedekatan relatif dari semua 65 negara yang kami pertimbangkan, adalah jauh lebih rumit daripada skema di mana hanya lima ekonomi nasional yang muncul. Pohon ini, menurut jumlah objek yang dibandingkan, mencakup 65 level. Level pertama (lebih rendah) berisi poin yang sesuai dengan masing-masing negara secara terpisah. Keterkaitan kedua titik ini pada tingkat kedua menunjukkan sepasang negara yang paling dekat secara umum tipenya. ekonomi nasional... Pada tingkat ketiga, selanjutnya dalam hal kesamaan rasio berpasangan negara dicatat (seperti yang telah disebutkan, rasio ini dapat berupa pasangan negara baru, atau negara baru dan pasangan negara serupa yang sudah diidentifikasi). Dan seterusnya sampai tingkat terakhir, di mana semua negara yang diteliti bertindak sebagai satu kesatuan.

Sebagai hasil dari penerapan analisis klaster, diperoleh lima kelompok negara sebagai berikut:

· Kelompok Afro-Asia;

· kelompok Latin-Asia;

· kelompok Latin-Bumi Tengah;

Sekelompok negara kapitalis maju (tanpa Amerika Serikat)

Amerika Serikat

Pengenalan indikator baru yang melebihi 31 indikator yang digunakan di sini atau penggantinya oleh yang lain, tentu saja menyebabkan perubahan hasil klasifikasi negara.

2. Pembagian negara menurut kriteria kedekatan budaya.

Seperti yang Anda ketahui, pemasaran harus memperhitungkan budaya negara (adat, tradisi, dll.).

Kelompok negara berikut diperoleh dengan pengelompokan:

· Arab;

· Timur Tengah;

· Skandinavia;

· Berbicara bahasa Jerman;

· Berbahasa Inggris;

· Eropa Romawi;

· Amerika Latin;

· Timur Jauh.

3. Pengembangan perkiraan untuk pasar seng.

Analisis klaster memainkan peran penting dalam pengurangan model ekonomi dan matematika dari situasi komoditas, berkontribusi pada penyederhanaan dan penyederhanaan prosedur komputasi, memastikan kekompakan yang lebih besar dari hasil yang diperoleh sambil mempertahankan akurasi yang diperlukan. Penggunaan analisis klaster memungkinkan untuk membagi seluruh rangkaian awal indikator pasar menjadi kelompok-kelompok (cluster) sesuai dengan kriteria yang sesuai, sehingga memudahkan pemilihan indikator yang paling representatif.

Analisis klaster banyak digunakan untuk memodelkan kondisi pasar. Dalam praktiknya, sebagian besar tugas peramalan didasarkan pada penggunaan analisis klaster.

Misalnya, tugas mengembangkan ramalan untuk pasar seng.

Awalnya, 30 indikator utama pasar seng global dipilih:

X 1 - waktu

Angka produksi:

X 2 - di dunia

X 4 - Eropa

X 5 - Kanada

X 6 - Jepang

X 7 - Australia

Indikator konsumsi:

X 8 - di dunia

X 10 - Eropa

X 11 - Kanada

X 12 - Jepang

X 13 - Australia

Cadangan seng produsen:

X 14 - di dunia

X 16 - Eropa

X 17 - negara lain

Cadangan seng konsumen:

X 18 - di AS

X 19 - di Inggris

X 10 - di Jepang

Impor bijih seng dan konsentratnya (ribuan ton)

X 21 - di AS

X 22 - di Jepang

X 23 - di Jerman

Ekspor bijih seng dan konsentratnya (ribuan ton)

X 24 - dari Kanada

X 25 - dari Australia

Impor seng (ribuan ton)

X 26 - di AS

X 27 - ke Inggris

X 28 - di Jerman

Ekspor seng (ribuan ton)

X 29 - dari Kanada

X 30 - dari Australia

Untuk menentukan dependensi spesifik, peralatan analisis korelasi-regresi digunakan. Analisis hubungan dilakukan atas dasar matriks koefisien korelasi berpasangan. Di sini hipotesis distribusi normal dari indikator pasar yang dianalisis diterima, Jelas bahwa r ij bukan satu-satunya indikator yang mungkin dari hubungan antara indikator yang digunakan. Perlunya menggunakan analisis klaster dalam tugas ini karena jumlah indikator yang mempengaruhi harga seng sangat besar. Ada kebutuhan untuk menguranginya karena sejumlah alasan berikut:

a) kurangnya statistik lengkap untuk semua variabel;

b) komplikasi yang tajam dari prosedur komputasi ketika sejumlah besar variabel dimasukkan ke dalam model;

c) penggunaan metode analisis regresi yang optimal membutuhkan kelebihan jumlah nilai yang diamati atas jumlah variabel setidaknya 6-8 kali;

d) keinginan untuk menggunakan variabel independen secara statistik dalam model, dll.

Sangat sulit untuk melakukan analisis seperti itu secara langsung pada matriks koefisien korelasi yang relatif rumit. Dengan bantuan analisis klaster, seluruh rangkaian variabel konjungtural dapat dibagi menjadi kelompok-kelompok sedemikian rupa sehingga elemen-elemen dari setiap klaster berkorelasi kuat satu sama lain, dan perwakilan dari kelompok yang berbeda dicirikan oleh korelasi yang lemah.

Untuk mengatasi masalah ini, salah satu algoritma analisis cluster hierarki aglomerasi diterapkan. Pada setiap langkah, jumlah klaster berkurang satu karena optimal, dalam arti tertentu, kombinasi dua kelompok. Kriteria penggabungan adalah perubahan fungsi yang sesuai. Sebagai fungsi seperti itu, nilai jumlah kuadrat deviasi digunakan, dihitung dengan rumus berikut:

(j = 1, 2, ...,M),

di mana J- nomor klaster, n- jumlah elemen dalam cluster.

r ij adalah koefisien korelasi pasangan.

Dengan demikian, proses pengelompokan harus sesuai dengan peningkatan minimum berurutan dalam nilai kriteria E.

Pada tahap pertama, array data awal disajikan dalam bentuk himpunan yang terdiri dari cluster-cluster yang masing-masing berisi satu elemen. Proses pengelompokan dimulai dengan menggabungkan sepasang cluster tersebut, yang mengarah pada peningkatan minimum dalam jumlah deviasi kuadrat. Ini membutuhkan perkiraan nilai jumlah deviasi kuadrat untuk masing-masing kemungkinan persatuan cluster. Pada tahap selanjutnya, nilai jumlah kuadrat deviasi sudah dipertimbangkan untuk cluster, dll. Proses ini akan dihentikan pada beberapa langkah. Untuk melakukan ini, Anda perlu memantau nilai jumlah kuadrat deviasi. Mengingat urutan kenaikan nilai, seseorang dapat menangkap lompatan (satu atau beberapa) dalam dinamikanya, yang dapat diartikan sebagai karakteristik dari jumlah kelompok "obyektif" yang ada dalam populasi yang diteliti. Dalam contoh yang diberikan, lompatan terjadi ketika jumlah kelompok sama dengan 7 dan 5. Selanjutnya, jumlah kelompok tidak boleh dikurangi, karena ini menyebabkan penurunan kualitas model. Setelah mendapatkan cluster, dipilih variabel yang paling penting dalam arti ekonomi dan paling erat kaitannya dengan kriteria konjungtur yang dipilih - dalam hal ini, dengan kutipan dari London Metal Exchange untuk seng. Pendekatan ini memungkinkan Anda untuk mempertahankan bagian penting dari informasi yang terkandung dalam rangkaian indikator awal situasi yang asli.

Tugas Analisis Cluster

Analisis klaster melakukan tugas utama berikut:

  • · Penelitian skema pengelompokan objek;
  • · Pengembangan hipotesis berdasarkan data penelitian;
  • · Konfirmasi hipotesis dan data penelitian;
  • · Penentuan keberadaan kelompok dalam data.

Langkah-langkah analisis klaster

Terlepas dari subjek studi, penerapan analisis klaster melibatkan tahapan berikut:

  • 1. Pembentukan sampel untuk clustering;
  • 2. Alokasi ruang atribut;
  • 3. Memilih ukuran kemiripan (jarak) antar objek;
  • 4. Penerapan metode analisis klaster;
  • 5. Mengecek hasil clustering.

Ada dua persyaratan utama ke data:

  • · Keseragaman - kebutuhan untuk memastikan sifat seragam dari semua entitas berkerumun. Artinya, semua objek harus dideskripsikan dengan seperangkat karakteristik yang serupa;
  • Kelengkapan - isi data dalam cukup untuk seluruh nomenklatur mereka, diperlukan untuk rasional atau solusi optimal tugas spesifik.
  • · Membagi sampel ke dalam kelompok-kelompok objek yang serupa untuk menyederhanakan pemahaman tentang struktur klaster, yang menyederhanakan pemrosesan data dan pengambilan keputusan, menerapkan metode analisisnya sendiri untuk setiap klaster.
  • · Mengurangi jumlah data, menyisakan satu atau lebih perwakilan paling khas dari setiap kelas. Dalam tugas seperti itu, lebih penting untuk memastikan tingkat tinggi kesamaan objek dalam setiap cluster, dan bisa ada cluster sebanyak yang Anda suka.
  • · Alokasi objek atipikal, anomali atau outlier, untuk menentukan kebaruan cluster atau jumlahnya. Yang paling menarik adalah objek individu yang tidak cocok dengan salah satu cluster.

Dalam semua kasus ini, pengelompokan hierarkis dapat digunakan, ketika cluster besar terfragmentasi menjadi yang lebih kecil, yang pada gilirannya terfragmentasi bahkan lebih kecil, dll. Tugas seperti itu disebut tugas taksonomi. Taksonomi menghasilkan struktur hierarki seperti pohon. Selain itu, setiap objek dicirikan oleh daftar semua cluster yang menjadi miliknya, biasanya dari besar ke kecil.