Karena skor dibuat analisis cluster. Analisis Cluster Hirarkis.

Salah satu alat untuk memecahkan tugas ekonomi adalah analisis cluster. Dengan itu, cluster dan objek array data lainnya diklasifikasikan oleh kelompok. Teknik ini dapat diterapkan dalam program Excel. Mari kita lihat bagaimana ini dilakukan dalam praktik.

Dengan bantuan analisis cluster, Anda dapat membuat sampel atas dasar yang diselidiki. Tugas utamanya adalah membagi array multidimensi untuk kelompok homogen. Sebagai kriteria pengelompokan, koefisien korelasi pasangan atau jarak euklido antara objek sesuai dengan parameter yang ditentukan diterapkan. Yang paling dekat satu sama lain dikelompokkan bersama.

Meskipun paling sering jenis analisis ini digunakan dalam perekonomian, ia juga dapat digunakan dalam biologi (untuk klasifikasi hewan), psikologi, kedokteran dan banyak bidang aktivitas manusia lainnya. Analisis cluster dapat diterapkan menggunakan set standar alat pengasingan untuk keperluan ini.

Contoh penggunaan.

Kami memiliki lima objek yang ditandai dengan dua parameter yang diteliti - x. dan y..

DI Statistika. Metode klasik dari analisis cluster diimplementasikan, termasuk metode k-medium, pengelompokan hierarkis dan serikat dua arah.

Data dapat mengalir baik dalam bentuk asli dan dalam bentuk matriks jarak antar objek.

Pengamatan dan variabel dapat dikelompokkan menggunakan berbagai jarak (Euclidean, Euclidean Square, Manhattan, Chebyshev, dll.) Dan berbagai aturan kombinasi cluster (tunggal, obligasi lengkap, rata-rata dipasangkan, dll.).

Perumusan masalah

File data sumber berisi informasi berikut tentang mobil dan pemiliknya:

Tujuan dari analisis ini adalah partisi mobil dan pemiliknya ke dalam kelas, yang masing-masing sesuai dengan kelompok risiko tertentu. Pengamatan yang telah jatuh ke dalam satu kelompok ditandai dengan probabilitas yang sama tentang terjadinya peristiwa yang diasuransikan, yang kemudian dinilai oleh perusahaan asuransi.

Penggunaan analisis cluster untuk menyelesaikan masalah ini paling efisien. Dalam kasus umum, klaster analisis dirancang untuk menggabungkan beberapa objek di kelas (clusters) sedemikian rupa sehingga dalam satu kelas Anda mendapatkan yang paling mirip, dan objek kelas yang berbeda berbeda sebanyak mungkin satu sama lain. Indikator kuantitatif kesamaan dihitung dengan cara yang diberikan berdasarkan objek yang mengkarakterisasi objek.

Skala pengukuran

Semua algoritma cluster memerlukan estimasi jarak antara cluster atau objek, dan jelas bahwa ketika menghitung jarak, Anda harus menentukan skala pengukuran.

Karena berbagai pengukuran menggunakan jenis timbangan yang benar-benar berbeda, data harus distandarisasi (dalam menu Data Pilih item Membakukan), sehingga setiap variabel akan memiliki rata-rata 0 dan standar deviasi 1.

Tabel dengan variabel standar ditunjukkan di bawah ini.

Langkah 1. Klasifikasi Hierarchical

Pada tahap pertama, cari tahu apakah mobil membentuk cluster "alami" yang dapat dipahami.

Memilih Analisis Cluster. di menu Analisis - Analisis eksplorasi multidimensi Untuk menampilkan panel awal modul Analisis Cluster.. Dalam dialog ini, pilih Klasifikasi hierarkis. dan klik BAIK..

tekan tombolnya Variabel., pilih Segala sesuatu, di Field. Objek Memilih Pengamatan. (string.). Sebagai aturan asosiasi, kami perhatikan Metode komunikasi lengkap, sebagai ukuran kedekatan - Jarak Euclidean. tekan baik.

Metode komunikasi lengkap menentukan jarak antara cluster sebagai jarak terbesar antara dua objek dalam cluster yang berbeda (yaitu, "tetangga paling terpencil").

Kedekatan kedekatan yang ditentukan oleh jarak Euclidean adalah jarak geometris dalam ruang n-dimensi dan dihitung sebagai berikut:

Hasil terpenting yang diperoleh oleh pengelompokan pohon adalah pohon hierarkis. Klik pada tombol Dendrogram vertikal.

Awalnya, grafik pohon mungkin tampak agak membingungkan, tetapi setelah beberapa studi mereka menjadi lebih mudah dimengerti. Diagram dimulai di atas (untuk dendrogram vertikal) dari setiap mobil di clusternya sendiri.

Segera setelah Anda mulai bergerak ke bawah, mobil yang "berhubungan erat dengan satu sama lain" digabungkan dan membentuk cluster. Setiap node diagram di atas mewakili kombinasi dua atau lebih cluster, posisi node pada sumbu vertikal menentukan jarak di mana cluster yang sesuai digabungkan.

Langkah 2. Clustering dengan metode ke Medium

Berdasarkan presentasi visual hasil, diasumsikan bahwa mobil membentuk empat cluster alami. Kami akan memverifikasi asumsi ini dengan men-sance data awal dengan metode rata-rata pada 4 cluster, dan memeriksa signifikansi perbedaan antara kelompok yang diperoleh.

Di panel awal modul Analisis Cluster. Memilih Metode Clustering to Medium.

tekan tombolnya Variabel. dan pilih Segala sesuatu, di Field. Objek Memilih Pengamatan. (string.), tetapkan 4 cluster of breaking.

metode K-Middle. Ini adalah sebagai berikut: Perhitungan dimulai dengan K observasi yang dipilih secara acak (dalam kasus kami k \u003d 4), yang menjadi pusat kelompok, setelah itu objek komposisi kluster berubah untuk meminimalkan variabilitas dalam kelompok dan memaksimalkan variabilitas.

Setiap pengamatan berikut (K + 1) mengacu pada grup, ukuran kesamaan dengan pusat keparahan yang minimal.

Setelah mengubah komposisi cluster, pusat gravitasi baru dihitung, paling sering sebagai vektor rata-rata untuk setiap parameter. Algoritma berlanjut sampai komposisi cluster berhenti berubah.

Ketika hasil klasifikasi diperoleh, Anda dapat menghitung nilai rata-rata indikator untuk setiap cluster untuk mengevaluasi seberapa banyak mereka berbeda satu sama lain.

Di jendela Hasil metode untuk media Memilih Analisis dispersi Untuk menentukan signifikansi perbedaan antara cluster yang diterima.

Jadi, nilai p<0.05, что говорит о значимом различии.

tekan tombolnya Elemen cluster dan jarak Untuk melihat pengamatan yang termasuk dalam setiap cluster. Opsi ini juga memungkinkan Anda untuk menampilkan jarak Euclidean objek dari pusat (nilai menengah) dari cluster yang sesuai.

Cluster Pertama:

Cluster Kedua:

Cluster ketiga:

Cluster Keempat:

Jadi, di masing-masing dari empat cluster ada benda dengan pengaruh serupa pada proses kerusakan.

Langkah 3. Statistik deskriptif

Pengetahuan tentang statistik deskriptif dalam setiap kelompok jelas penting bagi setiap peneliti.

Tugas pengelompokan dalam penambangan data

Pengantar Analisis Cluster

Dari seluruh area ekstensif aplikasi analisis cluster, misalnya, tugas peramalan sosial-ekonomi.

Ketika menganalisis dan memprediksi fenomena sosial-ekonomi, peneliti sering menghadapi multidimensi deskripsi mereka. Inilah saat ini ketika memecahkan masalah segmentasi pasar, membangun tipologi negara-negara dengan sejumlah besar indikator, memprediksi kondisi pasar barang individu, mempelajari dan memprediksi depresi ekonomi dan banyak masalah lainnya.

Metode analisis multidimensi adalah instrumen kuantitatif yang paling efektif untuk studi proses sosial-ekonomi yang dijelaskan oleh karakteristik yang lebih besar. Ini termasuk analisis cluster, taksonomi, pengenalan gambar, analisis faktor.

Analisis Cluster. Yang paling jelas mencerminkan fitur analisis multidimensi dalam klasifikasi, analisis faktor - dalam studi komunikasi.

Kadang-kadang pendekatan analisis cluster disebut taksonomi numerik dalam literatur, klasifikasi numerik, pengakuan dengan pembelajaran mandiri, dll.

Penggunaan pertama analisis cluster ditemukan dalam sosiologi. Analisis cluster nama berasal dari kata Inggris Cluster - Bunch, Cluster. Untuk pertama kalinya pada tahun 1939, subjek analisis cluster ditentukan dan deskripsinya dibuat oleh peneliti Trion. Tujuan utama dari analisis cluster adalah partisi dari serangkaian objek yang sedang dipelajari dan tanda-tanda homogen dalam pemahaman yang tepat tentang kelompok atau cluster. Ini berarti bahwa tugas mengklasifikasikan data dan mengidentifikasi struktur yang sesuai dalam hal itu diselesaikan. Metode analisis cluster dapat diterapkan dalam berbagai kasus, bahkan ketika datang ke pengelompokan sederhana, di mana semuanya bermuara pada pembentukan kelompok kesamaan kuantitatif.

Keuntungan besar dari analisis cluster Fakta bahwa memungkinkan Anda untuk mempartisi objek bukan satu parameter, tetapi untuk satu set fitur. Selain itu, analisis cluster, berbeda dengan sebagian besar metode statistik matematika, tidak memaksakan pembatasan pada jenis objek yang dipertimbangkan, dan memungkinkan kita untuk mempertimbangkan banyak sumber data yang hampir sewenang-wenang. Ini sangat penting, misalnya, untuk memprediksi situasi, ketika indikator memiliki beragam penampilan yang membuatnya sulit untuk menggunakan pendekatan ekonometrik tradisional.

Analisis cluster memungkinkan kami untuk mempertimbangkan sejumlah besar informasi dan secara dramatis mengurangi, mengompres array besar informasi sosial ekonomi, untuk membuat mereka kompak dan visual.

Analisis cluster penting dalam kaitannya dengan koleksi seri sementara yang mengkarakterisasi pembangunan ekonomi (misalnya, konjungtur ekonomi dan komoditas umum). Di sini Anda dapat mengalokasikan periode ketika nilai-nilai indikator yang sesuai cukup dekat, serta menentukan kelompok deret waktu, dinamika yang paling mirip.

Analisis cluster dapat digunakan secara siklis. Dalam hal ini, penelitian dilakukan sampai hasil yang diperlukan tercapai. Dalam hal ini, setiap siklus di sini dapat memberikan informasi yang dapat dengan kuat mengubah fokus dan pendekatan dengan penggunaan lebih lanjut dari analisis cluster. Proses ini dapat diwakili oleh sistem umpan balik.

Dalam tugas, kombinasi analisis cluster dengan metode kuantitatif lainnya (misalnya, dengan analisis regresi) sangat menjanjikan dalam perkiraan keperluan dan ekonomi.

Seperti metode lain , Analisis cluster memiliki keterbatasan disabilitas tertentu.: Secara khusus, jumlah cluster tergantung pada kriteria variabel. Saat menggunakan array data asli, distorsi tertentu dapat terjadi, serta fitur individu objek individu untuk transparansi karakteristik mereka dari nilai umum dari parameter cluster. Ketika mengklasifikasikan objek, itu juga diabaikan sangat sering kemungkinan tidak ada nilai-nilai cluster dalam pertimbangan.

Dalam analisis cluster diyakini bahwa:

a) Karakteristik yang dipilih diizinkan pada prinsipnya partisi yang diinginkan menjadi cluster;

b) Unit ukuran (skala) dipilih dengan benar.

Pilihan skala memainkan peran besar. Sebagai aturan, data dinormalisasi dengan mengurangi rata-rata dan divisi terhadap standar deviasi, sehingga dispersi ternyata sama dengan satu.

1. Clear Clusterization.

Tugas pengelompokan adalah didasarkan pada data yang terkandung dalam set H., hancurkan banyak benda G. pada m. (m. - seluruh) cluster (himpunan bagian) Q 1,Q 2, ...,Q M.sehingga setiap objek G J. Milik satu dan hanya satu bagian dari partisi dan bahwa objek milik cluster yang sama serupa, sementara objek milik cluster yang berbeda heterogen.

Misalnya, biarkan G. termasuk negara N, salah satunya ditandai oleh GNP per kapita ( F 1.), Nomor M. Mobil per 1 ribu orang ( F 2.), konsumsi listrik listrik ( F 3.), konsumsi pancuran baja ( F 4.) dll. Kemudian X 1. (vektor pengukuran) adalah seperangkat karakteristik yang ditentukan untuk negara pertama, X 2. - untuk kedua, X 3. Untuk yang ketiga, dll. Tugasnya adalah membagi negara dalam hal pembangunan.

Dengan memecahkan masalah analisis cluster, partisi memenuhi beberapa kriteria optimalitas. Kriteria ini mungkin beberapa fungsi yang mengekspresikan tingkat keinginan berbagai partisi dan kelompok, yang disebut fungsi target. Misalnya, jumlah intragroup dari kuadrat penyimpangan dapat diambil sebagai fungsi target:

dimana x J. - mewakili pengukuran j.-Untuk objek.

Untuk mengatasi analisis cluster, perlu untuk menentukan konsep kesamaan dan heterogenitas.

Jelas benda itu sAYA. SAYA. j.akan jatuh ke dalam satu cluster ketika jarak (keterpencilan) antara poin H. sAYA. dan X J. Akan cukup kecil dan akan jatuh ke cluster yang berbeda, ketika jarak ini akan cukup besar. Dengan demikian, memasuki satu atau kluster objek yang berbeda ditentukan oleh konsep jarak antara H. sAYA. dan X J. dari Ep.dimana Ep. - r.-Ruang Euclidean. Fungsi non-negatif d (x sAYA. , X j) disebut fungsi jarak (metrik), jika:

tapi) d (x. I, x j)³ 0 , untuk semua H. sAYA. dan X J. dari Ep.

b) d (x. i, x j) \u003d 0kemudian dan hanya ketika H. sAYA. \u003d X j.

di) d (x. i, x j) \u003d D (x j, x sAYA.)

d) d (x. I, x j)£ D (x. i, x k) + d (x K, x j), di mana x j; H. I dan x k - Dari tiga vektor dari Ep..

Nilai d (x. I, x j) untuk H. SAYA.dan H. j disebut jarak antara H. SAYA. dan X J. dan setara dengan jarak antara G. SAYA. dan G J.dengan demikian, karakteristik yang dipilih (F 1, F 2, F 3, ..., F P).

Yang paling sering digunakan fungsi jarak berikut:

1. Jarak Euclidean d 2 (x i, x j) \u003d

2. L 1. - Norma. d 1 (x i, x j) \u003d

3. Dukungan - Norm d. ¥ (H. i, x j) \u003d sup

k \u003d 1, 2, ..., p

4. L P. - Norma. d p (x i, x j) \u003d

Metrik Euclidean adalah yang paling populer. Metric L 1 adalah yang paling mudah dihitung. Norm superum mudah dipertimbangkan dan termasuk prosedur pemesanan, a L P. - Norma mencakup jarak 1, 2, 3,.

Biarkan n pengukuran X 1, x 2, ..., x N. disajikan dalam bentuk ukuran matriks data p.´ n.:

Maka jarak antara pasangan vintage d (x. sAYA. , X j) dapat disajikan dalam bentuk matriks jarak simetris:

Konsep, jarak berlawanan, adalah konsep kesamaan antara objek G. sAYA. . dan G J.. Fungsi nyata non-negatif S (x. sAYA. ; X j) \u003d s sAYA.j.ini disebut ukuran kesamaan, jika:

1) 0 £ S (x i, x j)< 1 untuk H. sAYA. ¹ X J.

2) S ( H. SAYA. , H. SAYA.) = 1

3) S ( H. SAYA. , H. J.) \u003d S (x J. , H. sAYA. )

Pasangan langkah-langkah kesamaan dapat digabungkan menjadi matriks kesamaan:

Besarnya S. AKU J.disebut koefisien kesamaan.

2. Metode Klasterisasi

Hari ini ada cukup banyak metode analisis cluster. Mari kita memikirkan beberapa dari mereka (di bawah metode yang diberikan untuk memanggil metode dispersi minimum).

Biarkan menjadi H.- Matriks pengamatan: X \u003d (x 1, x 2, ..., x u) dan alun-alun jarak Euclidean antara H. sAYA. dan X J. Ditentukan oleh formula:

1) Metode tautan lengkap.

Inti dari metode ini adalah bahwa dua objek milik kelompok yang sama (cluster) memiliki koefisien kesamaan yang kurang dari beberapa nilai ambang batas S.. Dalam hal jarak Euclidean d.ini berarti bahwa jarak antara dua titik (objek) dari cluster tidak boleh melebihi nilai ambang batas.h.. Lewat sini, h. Mendefinisikan diameter maksimum yang diijinkan dari subset yang membentuk cluster.

2) Metode jarak lokal maksimum.

Setiap objek dianggap sebagai cluster titik tunggal. Objek dikelompokkan sesuai dengan aturan berikut: dua cluster digabungkan jika jarak maksimum antara titik satu cluster dan titik-titik lain minimal. Prosedur ini terdiri dari n - 1. Langkah dan hasilnya adalah partisi yang bertepatan dengan segala macam partisi dalam metode sebelumnya untuk setiap nilai ambang batas.

3) Metode Word..

Dalam metode ini, jumlah intragroup dari kuadrat penyimpangan, yang tidak ada yang lain, sebagai jumlah kuadrat antara setiap titik (objek) dan cluster rata-rata yang mengandung objek ini digunakan sebagai fungsi target. Pada setiap langkah, dua cluster dikombinasikan, yang mengarah pada peningkatan minimal dalam fungsi target, I.E. Jumlah kuadrat sarjana. Metode ini ditujukan untuk menggabungkan cluster tutup.

4) Metode centroid.

Jarak antara kedua cluster didefinisikan sebagai jarak Euclidean antara pusat (media) dari cluster ini:

d 2. IJ \u003d (` X -` Y) t (` X -` Y) Clustering adalah tahapan di masing-masing n-1. Langkah-langkah menggabungkan dua cluster G. dan p. memiliki nilai minimum d 2 ij. Jika sebuah n 1. lebih banyak n 2. Pusat-pusat menggabungkan dua cluster dekat satu sama lain dan cluster karakteristik ketika menggabungkan cluster hampir diabaikan. Terkadang metode ini kadang-kadang disebut metode gugus gugus.

3. Algoritma Clustering Sequential

Mempertimbangkan Ι \u003d (ι 1, ι 2, ... ι n) Seperti banyak cluster. (Ι 1), (Ι 2), ... (ι N). Pilih dua dari mereka, misalnya, Ι sAYA. dan Ι J.yang dalam arti yang lebih dekat satu sama lain dan menggabungkannya menjadi satu cluster. Satu set kluster baru, yang sudah terdiri dari n -1 cluster, akan:

(Ι 1), (ι 2) ... sAYA. , Ι j), ..., (ι N).

Proses berulang, kami memperoleh set cluster berturut-turut yang terdiri dari (n -2), (n -3), (n -4) dll. cluster. Pada akhir prosedur, Anda bisa mendapatkan cluster yang terdiri dari n objek dan kebetulan dengan set asli Ι \u003d (ι 1, ι 2, ... ι n).

Sebagai ukuran jarak, ambil kuadrat dari metrik Euclidean d. sAYA. J 2.. dan hitung matriks D \u003d (d I j 2), di mana d I j 2. - Jarak persegi antara

Ι sAYA. Dan ι j:

….

Ι N.

d 12 2.

d 13 2.

….

d 1n 2.

d 23 2.

….

d 2n 2.

….

d 3n 2.

….

….

….

Ι N.

Membiarkan jarak antara Ι SAYA. dan Ι J akan minimal:

d. sAYA. J. 2 \u003d min (d i j 2, i¹ j).Terbentuk dengan bantuan Ι SAYA. dan Ι j cluster baru.

I, ι j). Mari kita membangun yang baru ((n-1), (N-1))matriks jarak

(Ι i, ι j)

….

Ι N.

(Ι i; ι j)

d i j 2 1

d i j 2 2

….

d i j 2 n

d 12 2.

d 1 3.

….

d 1 2 n

….

d 2 n.

….

d 3n.

(n -2) Baris untuk matriks terakhir diambil dari yang sebelumnya, dan baris pertama dihitung lagi. Perhitungan dapat dikurangi menjadi minimum jika Anda berhasil mengekspresikan d I J 2 K, K \u003d 1, 2, ...,n; (K.¹ SAYA.¹ j) Melalui elemen matriks awal.

Pada awalnya ditentukan oleh jarak hanya antara cluster satu elemen, tetapi perlu untuk menentukan jarak dan antar cluster yang mengandung lebih dari satu elemen. Ini dapat dilakukan dengan berbagai cara, dan tergantung pada metode yang dipilih, kami memperoleh algoritma dari cluster analisis dengan berbagai properti. Anda bisa, misalnya, menempatkan jarak antara cluster i + J.dan beberapa cluster lainnya k.sama dengan jarak aritmatika tengah antara cluster sAYA. dan k. dan clusters. j. dan k.:

d i + j, k \u003d ½ (d i k + d j k).

Tetapi Anda juga dapat menentukan d i + j, k Sebagai minimum dua jarak ini:

d i + j, k \u003d min (d i k + d j k).

Dengan demikian, langkah pertama dari operasi algoritma hirarkis aglomerative dijelaskan. Langkah-langkah selanjutnya serupa.

Kelas algoritma yang cukup luas dapat diperoleh, jika untuk perhitungan ulang jarak untuk menggunakan formula umum berikut:

d i + j, k \u003d a (w) min (d ik d jk) + b (w) maks (d ik d jk),dimana

A (W) \u003d jika D Ik.£ D jk.

A (W) \u003d jika D Ik.> D jk.

B (w) \u003d jika D. sAYA. K. £ D jk.

B (w) \u003d., jika sebuahd Ik.> d jk.

dimana n. dan n J. - Jumlah elemen dalam cluster sAYA. dan j., tetapi w. - Parameter gratis yang pilihannya menentukan algoritma spesifik. Misalnya, untuk w \u003d 1. Kami mendapatkan apa-apa algoritma "komunikasi menengah" tempat formula perhitungan ulang jarak mengambil formulir:

d i + j, k \u003d

Dalam hal ini, jarak antara dua cluster pada setiap langkah pengoperasian algoritma ternyata sama dengan aritmatika rata-rata jarak antara semua parameter elemen yang satu elemen pasangan milik satu cluster, yang lain ke yang lain.

Makna visual dari parameter W menjadi jelas jika Anda menempatkan w.® ¥ . Formula perhitungan ulang jarak mengambil formulir:

d i + j, k \u003dmin (d. sAYA.K.d jk)

Ini akan disebut algoritma "tetangga terdekat", yang memungkinkan untuk mengalokasikan cluster dari bentuk yang sewenang-wenang, asalkan berbagai bagian cluster tersebut dihubungkan oleh rantai elemen yang dekat satu sama lain. Dalam hal ini, jarak antara dua cluster pada setiap langkah operasi algoritma ternyata sama dengan jarak antara dua elemen terdekat milik dua cluster ini.

Cukup sering menyarankan bahwa jarak awal (perbedaan) antara sekementakan pengelompokan. Di Snezdach, ini benar. Namun, hanya benda dan karakteristiknya yang ditetapkan dan matriks jarak terstruktur berdasarkan data ini. Tergantung pada apakah jarak antara objek atau antara karakteristik objek dihitung, metode yang berbeda digunakan.

Dalam kasus sekelompok analisis objek, ukuran yang paling umum dari perbedaan adalah kuadrat dari jarak Euclidean

(Dimana x ih, x jh - Nilai-nilai h.-HO Masuk sAYA.- I. j.-untuk objek, dan m. - Jumlah karakteristik), atau Euclidean itu sendiri. Jika fitur-fitur tersebut dikaitkan dengan berat yang berbeda, maka bobot ini dapat diperhitungkan saat menghitung jarak

Terkadang, jarak yang dihitung oleh rumus dibedakan sebagai ukuran:

yang disebut: "Hamming", "Manhattan" atau "city-block" jarak.

Dimensi alami dari karakteristik objek dalam banyak tugas adalah koefisien korelasi di antara mereka

dimana m i, m j,d. SAYA,d. J. - sesuai, deviasi sedang dan standar untuk karakteristik sAYA. dan j.. Ukuran perbedaan antara karakteristik mungkin nilainya 1 - R.. Dalam beberapa masalah, koefisien korelasi hanya tidak relevan dan tergantung pada ukuran unit pengukuran. Dalam hal ini, sebagai ukuran, perbedaan karakteristik digunakan ô 1 - r i j ô

4. Jumlah cluster

Masalah yang sangat penting adalah masalah memilih jumlah cluster yang diperlukan. Terkadang jumlah cluster memilih apriori. Namun, secara umum, angka ini ditentukan dalam sistem partisi untuk cluster.

Studi dilakukan oleh forther dan solomon, dan ditemukan bahwa jumlah cluster harus diambil untuk mencapai probabilitas sEBUAH. Fakta yang ditemukan sebagai partisi terbaik. Dengan demikian, jumlah partisi yang optimal adalah fungsi dari saham yang diberikan. dgn B. Yang terbaik atau dalam arti partisi yang diizinkan menjadi kelipatan. Hamburan umum akan menjadi semakin besar bagian yang lebih tinggi dgn B. partisi yang diizinkan. Foreter dan Salomo mengembangkan tabel di mana Anda dapat menemukan jumlah partisi yang diperlukan. S (sEBUAH. , dgn B. ) tergantung pada sEBUAH. dan dgn B. (Dimana sEBUAH. - Kemungkinan bahwa partisi terbaik ditemukan, dgn B. - Proporsi partisi terbaik dalam jumlah total partisi), dan sebagai ukuran heterogenitas, itu bukan ukuran hamburan, tetapi ukuran aksesori yang diperkenalkan oleh Holzeneger dan Harmann. Tabel nilai S (sEBUAH. , dgn B. ) terletak di bawah.

Tabel nilaiS (sEBUAH. , dgn B. )

dgn B. \ sEBUAH.

0.20

0.10

0.05

0.01

0.001

0.0001

0.20

8

11

14

21

31

42

0.10

16

22

29

44

66

88

0.05

32

45

59

90

135

180

0.01

161

230

299

459

689

918

0.001

1626

2326

3026

4652

6977

9303

0.0001

17475

25000

32526

55000

75000

100000

Cukup sering, kriteria untuk menggabungkan (nomor cluster) menjadi perubahan dalam fungsi yang sesuai. Misalnya, jumlah kuadrat penyimpangan:

Proses pengelompokan harus konsisten di sini. Peningkatan minimum serial dalam nilai kriteria E.. Kehadiran lompatan tajam dalam makna E. Anda dapat menafsirkan sebagai karakteristik dari jumlah cluster, yang ada secara objektif dalam totalitas total.

Jadi, cara kedua untuk menentukan jumlah cluster terbaik dikurangi menjadi deteksi lompatan yang ditentukan oleh transisi fase dari objek yang sangat terkait dengan warga yang lemah.

5. DENDOGRAMS.

Metode yang paling terkenal untuk mewakili matriks jarak atau kesamaan didasarkan pada gagasan diagram dendogram atau pohon. Dendogram dapat didefinisikan sebagai gambar grafik dari hasil pengelompokan pemrosesan, yang dilakukan dalam hal matriks jarak. Menggunakan dendogram, Anda dapat secara grafis atau geometris menggambarkan prosedur pengelompokan, asalkan prosedur ini hanya mengoperasikan elemen jarak atau matriks kesamaan.

Ada cara yang ada untuk membangun dendograms. Dalam dendogram, objek dilakukan secara vertikal di sebelah kiri, hasil toko - ke kanan. Nilai jarak atau persamaan yang sesuai dengan struktur cluster baru digambarkan sepanjang horizontal lurus di atas dendogram.

Rice1.

Gambar 1 menunjukkan salah satu sampledogram. Gambar 1 sesuai dengan kasus enam objek ( n.=6) dan k. Karakteristik (tanda). Objek TAPI dan DARI Yang paling dekat dan karenanya digabungkan menjadi satu cluster pada tingkat kedekatan sama dengan 0,9. ObjekD. dan E. Menggabungkan level 0,8. Sekarang kami memiliki 4 cluster:

(A, C), (F.), ( D., E.), ( Dgn B.) .

Cluster berikut dibentuk (A, C, F.) I. ( E., D., Dgn B.) sesuai dengan tingkat kedekatan 0,7 dan 0,6. Akhirnya, semua objek dikelompokkan menjadi satu cluster di level 0,5.

Jenis dendogram tergantung pada pilihan ukuran yang mirip dengan jarak antara objek cluster dan metode clustering. Poin yang paling penting adalah pilihan hubungan atau ukuran jarak antara objek dan cluster.

Jumlah algoritma analisis cluster terlalu besar. Semuanya dapat digunakan pada hierarki non-erchical.

Algoritma hierarkis dikaitkan dengan konstruksi dendogram dan dibagi menjadi:

a) Aglomerative, ditandai dengan asosiasi yang konsisten dan penurunan jumlah cluster;

b) Divisi (dibagi), di mana jumlah cluster meningkat, mulai dari satu, sebagai akibat dari mana kelompok pembuatan urutan terbentuk.

Algoritma analisis cluster memiliki implementasi perangkat lunak yang baik hari ini, yang memungkinkan Anda untuk menyelesaikan tugas dimensi terbesar.

6. Data.

Analisis cluster dapat diterapkan pada data interval, frekuensi, data biner. Penting bahwa variabel berubah dalam timbangan yang sebanding.

Heterogenitas unit pengukuran dan ketidakmungkinan ekspresi yang wajar dari nilai-nilai indikator yang berbeda dalam satu skala mengarah pada fakta bahwa jarak antara titik-titik yang mencerminkan posisi objek dalam waktu sifat mereka tergantung pada yang dipilih secara sewenang-wenang skala. Untuk menghilangkan heterogenitas pengukuran data sumber, semua nilai-nilai mereka sebelumnya dinormalisasi, I.E. Ini diekspresikan melalui rasio nilai-nilai ini dari jumlah tertentu yang mencerminkan sifat-sifat tertentu dari indikator ini. Penerbitan data sumber untuk analisis cluster kadang-kadang dilakukan dengan membagi nilai awal ke deviasi persegi root-mean-square dari indikator yang sesuai. Cara lain untuk mengurangi perhitungan yang disebut kontribusi standar. Itu juga disebutZ -vklad.

Dgn zat - Vkeld menunjukkan berapa banyak standar deviasi yang memisahkan pengamatan ini dari nilai rata-rata:

Dimana x I. - nilai pengamatan ini, - Rata-rata, S. - standar deviasi.

Rata-rata untuk Z. -Blades adalah nol dan standar deviasi adalah 1.

Standardisasi memungkinkan Anda untuk membandingkan pengamatan dari berbagai distribusi. Jika distribusi variabel normal (atau dekat dengan normal), dan rata-rata dan dispersi diketahui atau dievaluasi oleh besar terpilih, makaDgn zat Wrock for observasi memberikan informasi spesifik tentang lokasinya.

Perhatikan bahwa metode rasionalisasi berarti pengakuan dari semua tanda yang setara dalam hal menemukan kesamaan objek yang dipertimbangkan. Tercatat bahwa sehubungan dengan perekonomian, pengakuan tentang kesetaraan berbagai indikator tampaknya dibenarkan dengan tidak berarti. Akan diinginkan bersama dengan jatah untuk memberikan masing-masing indikator berat yang memantulkan kepentingannya selama pembentukan persamaan dan perbedaan objek.

Dalam situasi ini, Anda harus menggunakan metode untuk menentukan skala indikator individu - survei para ahli. Misalnya, ketika memecahkan tugas yang diklasifikasikan negara-negara dalam hal pembangunan ekonomi, hasil survei terhadap 40 spesialis Moskow terkemuka pada masalah negara-negara maju pada skala dolar decade digunakan:

indikator umum pembangunan sosial-ekonomi - 9 poin;

indikator distribusi sektoral populasi yang dipekerjakan - 7 poin;

indikator prevalensi Wage Buruh - 6 poin;

indikator mengkarakterisasi elemen manusia dari kekuatan produktif - 6 poin;

indikator pengembangan kekuatan produktif material - 8 poin;

indikator Pengeluaran Negara - 4Bull;

Indikator "Militer-Ekonomi" - 3 poin;

parameter sosial-demografis - 4 poin.

Estimasi ahli berbeda stabilitas yang relatif tinggi.

Estimasi ahli memberikan alasan tertentu untuk menentukan pentingnya indikator yang dimasukkan dalam kelompok indikator tertentu. Mengalikan nilai yang dinormalisasi dari indikator pada koefisien yang sesuai dengan skor rata-rata estimasi memungkinkan Anda untuk menghitung jarak antar titik yang mencerminkan posisi negara-negara di ruang multidimensi, dengan mempertimbangkan bobot tanda mereka yang tidak merata.

Cukup sering, dengan solusi, digunakan bukan satu, tetapi dua perhitungan: yang pertama, di mana semua tanda dianggap setara, yang kedua, di mana mereka diberi berbagai bobot sesuai dengan nilai rata-rata penilaian ahli.

7. Aplikasi Analisis Cluster

Pertimbangkan beberapa aplikasi analisis cluster.

1. Divisi negara dalam kelompok dalam hal pembangunan.

65 negara dipelajari menurut 31 indikator (pendapatan nasional per kapita, pangsa populasi yang bergerak di bidang industri dalam%, akumulasi per kapita, pangsa populasi yang bergerak di bidang pertanian dalam%, jumlah kehidupan rata-rata, jumlahnya Mobil per 1 ribu penduduk, jumlah angkatan bersenjata untuk 1 juta penduduk, bagian dari industri PDB dalam%, pangsa PDB pertanian dalam%, dll.)

Masing-masing negara bertindak dalam pertimbangan ini sebagai objek yang ditandai dengan nilai-nilai tertentu dari 31 indikator. Dengan demikian, mereka dapat diwakili sebagai titik dalam ruang 31 dimensi. Ruang seperti itu biasanya disebut ruang properti objek yang sedang dipelajari. Perbandingan antara titik-titik ini akan mencerminkan tingkat kedekatan negara yang dipertimbangkan, kesamaan mereka satu sama lain. Makna sosial-ekonomi dari pemahaman ini tentang kesamaan berarti bahwa negara-negara dianggap lebih mirip, semakin kecil perbedaan antara indikator yang sama dengannya.

Langkah pertama analisis semacam itu adalah untuk mengidentifikasi sepasang pertanian rakyat, diperhitungkan dalam matriks persamaan, jarak antara mana yang terkecil. Ini jelas merupakan ekonomi yang paling mirip dan serupa. Selanjutnya, kedua negara ini dianggap sebagai kelompok tunggal, satu cluster. Oleh karena itu, matriks awal dikonversi sedemikian rupa sehingga elemen-elemennya menjadi jarak antara semua pasangan yang mungkin sudah 65, tetapi 64 objek - 63 dari ekonomi dan cluster yang baru ditransformasikan - asosiasi bersyarat dari dua negara yang paling mirip. . Dari matriks sumber persamaan, garis dan kolom dipancarkan, sesuai dengan jarak dari pasangan negara yang memasuki natrium, untuk semua yang lain, tetapi string dan kolom ditambahkan, berisi jarak antara cluster yang diperoleh dan negara lain .

Jarak antara cluster dan negara-negara yang baru diterima seharusnya sama dengan jarak rata-rata antara kedua negara yang membentuk cluster baru. Dengan kata lain, kelompok negara gabungan diperlakukan sebagai karakteristik yang cacat, kira-kira sama dengan rata-rata karakteristik negara.

Langkah analisis kedua adalah mempertimbangkan dikonversi oleh matriks dengan 64 baris dan kolom. Beberapa ekonomi terungkap lagi, jarak antara yang merupakan nilai terkecil, dan mereka, serta pada kasus pertama, didorong bersama. Pada saat yang sama, jarak terkecil untuk berubah menjadi antara sepasang negara, sehingga di antara negara mana pun ke asosiasi negara-negara yang diperoleh pada tahap sebelumnya.

Prosedur lebih lanjut mirip dengan yang dijelaskan di atas: pada setiap tahap, matriks dikonversi sedemikian rupa sehingga dua kolom dikeluarkan dari itu dan dua baris yang berisi jarak ke objek (pasang negara atau asosiasi cluster) yang sebelumnya tahap; Garis dan kolom yang dikecualikan digantikan oleh string kolom yang berisi jarak dari asosiasi baru ke objek lain; Selanjutnya dalam matriks yang dimodifikasi, beberapa benda terdekat terdeteksi. Analisis berlanjut sampai kelelahan total matriks (I.E., sampai semua negara dinegosiasikan menjadi satu). Hasil umum dari analisis matriks dapat diwakili sebagai pohon kesamaan (dendograms), mirip dengan di atas, dengan satu-satunya perbedaan bahwa jenis kesamaan, yang mencerminkan kedekatan relatif dari semua 65 negara yang dipertimbangkan, jauh lebih banyak rumit dengan skema di mana hanya lima peternakan rakyat yang muncul. Pohon ini dalam korespondensi dengan jumlah objek yang dibandingkan termasuk 65 level. Tingkat pertama (lebih rendah) berisi poin yang sesuai dengan masing-masing negara secara terpisah. Koneksi kedua titik ini di tingkat kedua menunjukkan beberapa negara terdekat dengan total jenis pertanian rakyat. Pada tingkat ketiga, rasio pasangan negara berikutnya dicatat (seperti yang telah disebutkan, mungkin ada pasangan negara baru, atau negara-negara baru sudah mengidentifikasi beberapa negara serupa). Dan seterusnya ke tingkat terakhir, di mana semua negara belajar bertindak sebagai totalitas terpadu.

Sebagai hasil dari penerapan analisis cluster, lima kelompok negara berikut diperoleh:

· Grup Afro-Asia;

· Grup Asia Latin;

· Grup Latin-Mediterania;

· Sekelompok negara kapitalis yang dikembangkan (tanpa Amerika Serikat)

· Amerika Serikat

Pengenalan indikator baru lebih dari 31 indikator digunakan di sini atau menggantinya dengan orang lain, secara alami, mengarah pada perubahan hasil klasifikasi negara.

2. Divisi negara dengan kriteria kriteria.

Seperti diketahui, pemasaran harus mempertimbangkan budaya negara (bea cukai, tradisi, dll.).

Dengan Clustering, kelompok-kelompok berikut diperoleh:

· Arab;

· Timur Tengah;

· Skandinavia;

· Berbicara bahasa Jerman;

· Berbahasa Inggris;

· Romanesque Eropa;

· Amerika Latin;

· Jauh Timur.

3. Pengembangan ramalan pasar Pasar Seng.

Analisis cluster memainkan peran penting dalam tahap pengurangan model ekonomi dan matematika dari konjungtur komoditas, berkontribusi terhadap lega dan menyederhanakan prosedur komputasi, memastikan kekompakan yang lebih besar dari hasil yang diperhitungkan dengan menjaga akurasi yang diperlukan. Penggunaan analisis cluster memungkinkan untuk memecahkan seluruh set awal indikator situasi dalam kelompok (cluster) sesuai dengan kriteria yang relevan, sehingga memfasilitasi pilihan indikator yang paling representatif.

Analisis cluster banyak digunakan untuk mensimulasikan kondisi pasar. Hampir mayoritas dasar peramalan tugas bergantung pada penggunaan analisis cluster.

Misalnya, tugas mengembangkan perkiraan konjungtur pasar seng.

Awalnya, 30 indikator utama pasar seng dunia dipilih:

X 1 - waktu

Indikator produksi:

X 2 - di dunia

X 4 - Eropa

X 5 - Kanada

X 6 - Jepang

X 7 - Australia

Indikator konsumsi:

X 8 - di dunia

X 10 - Eropa

X 11 - Kanada

X 12 - Jepang

X 13 - Australia

Cadangan seng dari produsen:

X 14 - di dunia

X 16 - Eropa

X 17 - negara lain

Cadangan seng di konsumen:

X 18 - di AS

X 19 - di Inggris

X 10 - di Jepang

Impor bijih seng dan konsentrat (ribuan ton)

X 21 - di AS

X 22 - di Jepang

X 23 - di Jerman

Ekspor bijih seng dan konsentrat (ribuan ton)

X 24 - dari Kanada

X 25 - dari Australia

Impor seng (ribuan ton)

X 26 - di AS

X 27 - di Inggris

X 28 - di Jerman

Ekspor seng (ribuan ton)

X 29 - Kanada

X 30 - dari Australia

Untuk menentukan spesifik dan peralatan korelasi dan analisis regresi digunakan. Analisis tautan dibuat berdasarkan matriks koefisien korelasi berpasangan. Hipotesis diambil di sini tentang distribusi normal indikator yang dianalisis dari konjungtur. Gambar adalah bahwa R IJ bukan satu-satunya indikator koneksi yang digunakan dari indikator yang digunakan. Kebutuhan untuk menggunakan analisis cluster dikaitkan dengan tugas ini dalam kenyataan bahwa jumlah indikator penilaian adegan seng sangat besar. Ada kebutuhan untuk menguranginya pada berbagai alasan berikut:

a) kurangnya statistik penuh pada semua variabel;

b) komplikasi tajam dari prosedur komputasi ketika diperkenalkan ke dalam model sejumlah besar variabel;

c) Penggunaan optimal metode analisis regresi membutuhkan melebihi jumlah nilai yang diamati di atas jumlah variabel yang tidak kurang dari 6-8 kali;

d) Keinginan untuk digunakan dalam model variabel independen secara statistik, dll.

Sangat sulit untuk melakukan analisis seperti itu secara langsung pada matriks koefisien korelasi yang relatif rumit. Dengan bantuan analisis cluster, seluruh set variabel konjungtur dapat dibagi menjadi beberapa kelompok sedemikian rupa sehingga elemen-elemen masing-masing cluster berkorelasi kuat antara diri mereka sendiri, dan perwakilan dari kelompok yang berbeda ditandai dengan korelasi yang lemah.

Untuk mengatasi masalah ini, salah satu algoritma hirarkis aglomeratif dari analisis cluster diterapkan. Pada setiap langkah, jumlah cluster berkurang menjadi satu dengan optimal, dalam arti tertentu, menggabungkan dua kelompok. Kriteria penggabungan adalah perubahan dalam fungsi yang sesuai. Sebagai suatu fungsi, nilai-nilai jumlah penyimpangan yang dihitung dengan formula berikut digunakan:

(j \u003d 1, 2, ...,m)

dimana j. - nomor cluster, n. - Jumlah elemen dalam cluster.

r IJ. Korelasi berpasangan.

Dengan demikian, proses pengelompokan harus sesuai dengan peningkatan minimum yang konsisten dalam nilai kriteria E..

Pada tahap pertama, array data awal disajikan dalam bentuk satu set yang terdiri dari cluster, termasuk satu elemen. Proses pengelompokan dimulai dengan asosiasi seperti sepasang cluster, yang mengarah pada peningkatan minimal dalam jumlah kuadrat penyimpangan. Ini membutuhkan estimasi nilai-nilai jumlah kuadrat penyimpangan untuk manfaat dari kemungkinan asosiasi cluster. Pada tahap selanjutnya, nilai-nilai jumlah kuadrat penyimpangan sudah cluster, dll. Proses ini akan dihentikan pada suatu langkah. Untuk melakukan ini, Anda perlu mengikuti jumlah jumlah kuadrat penyimpangan. Mempertimbangkan urutan meningkatnya nilai, Anda dapat menangkap lompatan (satu atau lebih) dalam dinamisnya, yang dapat diartikan sebagai karakteristik dari jumlah kelompok "secara objektif" yang ada dalam presentasi. Dalam contoh di atas, lompatan berlangsung dengan jumlah cluster sama dengan 7 dan 5. Selanjutnya, mengurangi jumlah kelompok tidak boleh, karena Ini mengarah pada penurunan kualitas model. Setelah menerima cluster, variabel yang paling penting dalam pengertian ekonomi dan yang paling erat terkait dengan kriteria konjungtur yang dipilih adalah dalam hal ini dengan kutipan dari London Metals Exchange untuk seng. Pendekatan ini memungkinkan Anda untuk mempertahankan bagian penting dari informasi yang terkandung dalam serangkaian awal indikator awal situasi.

Tugas Analisis Cluster

Analisis cluster melakukan tugas utama berikut:

  • · Studi skema pengelompokan objek;
  • · Mengembangkan hipotesis berdasarkan penelitian data;
  • · Konfirmasi hipotesis dan penelitian data;
  • · Menentukan keberadaan kelompok dalam data.

Tahap analisis cluster

Terlepas dari subjek penelitian, penggunaan analisis cluster melibatkan langkah-langkah berikut:

  • 1. Membentuk sampel untuk pengelompokan;
  • 2. Isolasi ruang fitur;
  • 3. Pemilihan langkah-langkah kesamaan (jarak) antara objek;
  • 4. Aplikasi metode analisis cluster;
  • 5. Verifikasi hasil pengelompokan.

Ada dua persyaratan data utama:

  • · Keseragaman - kebutuhan untuk menjamin sifat tunggal dari semua entitas pengelompokan. Artinya, semua objek harus dijelaskan dalam serangkaian karakteristik yang serupa;
  • · Keterlengkapan - konten data dalam cukup pada semua nomenklatur mereka diperlukan untuk solusi rasional atau optimal untuk tugas tertentu.
  • · Fraksinasi pengambilan sampel menjadi kelompok-kelompok objek serupa untuk menyederhanakan pemahaman tentang struktur cluster, yang menyederhanakan pemrosesan data dan membuat solusi menggunakan metode analisisnya untuk setiap cluster.
  • · Mengurangi jumlah data, meninggalkan satu atau beberapa perwakilan paling khas dari setiap kelas. Dalam tugas-tugas seperti itu, lebih penting untuk memastikan tingkat kesamaan objek yang tinggi dalam setiap cluster, dan cluster dapat sebanyak yang Anda suka.
  • · Memilih objek atipikal, anomali atau emisi, untuk menentukan kebaruan cluster atau kuantitasnya. Bunga terbesar adalah objek individu yang tidak sesuai dengan salah satu cluster.

Dalam semua kasus ini, pengelompokan hierarkis dapat digunakan ketika cluster besar dihancurkan menjadi lebih kecil, pada gilirannya, bahkan lebih kecil, dll. Tugas-tugas tersebut disebut tugas taksonomi. Hasil taksonomi adalah struktur hierarkis seperti pohon. Dalam hal ini, setiap objek ditandai dengan daftar semua cluster, yang menjadi milik, biasanya dari yang besar.