Penerapan analisis cluster di Microsoft Excel. Analisis cluster adalah algoritma untuk mengeksplorasi data, dibagi menjadi kelompok-kelompok sesuai dengan karakteristik yang sama, Metode analisis cluster, klasifikasinya

, administrasi publik, filologi, antropologi, pemasaran, sosiologi, geologi, dan disiplin ilmu lainnya. Namun, universalitas aplikasi telah menyebabkan munculnya sejumlah besar istilah, metode dan pendekatan yang tidak sesuai yang memperumit penggunaan yang tidak ambigu dan interpretasi yang konsisten dari analisis cluster.

YouTube ensiklopedis

  • 1 / 5

    Analisis cluster melakukan tugas utama berikut:

    • Pengembangan tipologi atau klasifikasi.
    • Jelajahi skema konseptual yang berguna untuk mengelompokkan objek.
    • Menghasilkan hipotesis dari eksplorasi data.
    • Pengujian hipotesis atau penelitian untuk menentukan apakah jenis (kelompok) yang diidentifikasi dengan satu atau lain cara ada dalam data yang tersedia.

    Terlepas dari subjek kajiannya, penerapan analisis klaster melibatkan tahapan sebagai berikut:

    • Pemilihan sampel untuk pengelompokan. Dapat dipahami bahwa masuk akal untuk mengelompokkan hanya data kuantitatif.
    • Penentuan kumpulan variabel yang akan digunakan untuk mengevaluasi objek dalam sampel, yaitu ruang fitur.
    • Perhitungan nilai dari satu atau beberapa ukuran kesamaan (atau perbedaan) antara objek.
    • Penerapan metode analisis cluster untuk membuat kelompok objek serupa.
    • Validasi hasil solusi cluster.

    Anda dapat menemukan deskripsi dua persyaratan dasar untuk data - homogenitas dan kelengkapan. Keseragaman mensyaratkan bahwa semua entitas berkerumun memiliki sifat yang sama, yang dijelaskan oleh sekumpulan karakteristik yang serupa. Jika analisis cluster didahului oleh analisis faktor, maka sampel tidak perlu "diperbaiki" - persyaratan yang dinyatakan terpenuhi secara otomatis oleh prosedur pemodelan faktor itu sendiri (ada keuntungan lain - standarisasi-z tanpa konsekuensi negatif untuk sampel; jika dilakukan langsung untuk analisis cluster, dapat memerlukan diikuti dengan penurunan kejelasan pemisahan kelompok). Jika tidak, sampel perlu disesuaikan.

    Tipologi masalah clustering

    Jenis data masukan

    Dalam sains modern, beberapa algoritma digunakan untuk memproses data masukan. Analisis dengan membandingkan objek berdasarkan karakteristik (paling umum dalam ilmu biologi) disebut Q-jenis analisis, dan dalam kasus membandingkan fitur, berdasarkan objek - R-jenis analisis. Ada upaya untuk menggunakan jenis analisis hibrid (misalnya, RQanalisis), tetapi metodologi ini belum dikembangkan dengan baik.

    Mengelompokkan tujuan

    • Memahami data dengan mengidentifikasi struktur cluster. Membagi sampel ke dalam kelompok objek serupa memungkinkan untuk menyederhanakan pemrosesan data lebih lanjut dan pengambilan keputusan dengan menerapkan metode analisisnya sendiri untuk setiap cluster (strategi "bagi dan taklukkan").
    • Kompresi data. Jika sampel awal terlalu besar, Anda dapat menguranginya, meninggalkan satu perwakilan paling umum dari setiap cluster.
    • Deteksi kebaruan (deteksi kebaruan bahasa Inggris). Objek atipikal disorot yang tidak dapat dilampirkan ke salah satu cluster.

    Dalam kasus pertama, mereka mencoba memperkecil jumlah cluster. Dalam kasus kedua, lebih penting untuk memastikan tingkat kemiripan yang tinggi dari objek dalam setiap cluster, dan bisa ada sejumlah cluster. Dalam kasus ketiga, yang paling menarik adalah objek individual yang tidak cocok dengan cluster mana pun.

    Dalam semua kasus ini, pengelompokan hierarkis dapat digunakan, ketika kluster besar difragmentasi menjadi kluster yang lebih kecil, yang pada gilirannya akan terfragmentasi lebih kecil lagi, dan seterusnya. Tugas semacam itu disebut tugas taksonomi. Taksonomi menghasilkan struktur hierarki seperti pohon. Selain itu, setiap objek dicirikan oleh daftar semua cluster yang memilikinya, biasanya dari besar ke kecil.

    Metode pengelompokan

    Tidak ada klasifikasi metode pengelompokan yang diterima secara umum, tetapi sejumlah kelompok pendekatan dapat dibedakan (beberapa metode dapat dikaitkan ke beberapa kelompok sekaligus dan oleh karena itu diusulkan untuk mempertimbangkan pengetikan ini sebagai beberapa pendekatan untuk klasifikasi sebenarnya dari metode pengelompokan):

    1. Pendekatan probabilistik... Diasumsikan bahwa setiap objek yang dipertimbangkan termasuk dalam salah satu kelas k. Beberapa penulis (misalnya, A.I. Orlov) percaya bahwa grup ini sama sekali tidak termasuk dalam clustering dan menentangnya dengan nama "diskriminasi", yaitu, pilihan untuk menugaskan objek ke salah satu grup terkenal (sampel pelatihan).
    2. Pendekatan berdasarkan sistem kecerdasan buatan: kelompok yang sangat bersyarat, karena ada banyak metode dan secara metodologis mereka sangat berbeda.
    3. Pendekatan logis. Dendrogram dibangun dengan menggunakan pohon keputusan.
    4. Pendekatan teori-grafik.
    5. Pendekatan hierarkis. Kehadiran grup bertingkat (cluster berbagai pesanan) diasumsikan. Algoritma, pada gilirannya, dibagi lagi menjadi aglomeratif (pemersatu) dan memecah belah (membagi). Berdasarkan jumlah ciri, metode klasifikasi monothetic dan polythetic terkadang dibedakan.
      • Pengelompokan atau taksonomi divisi hierarkis. Tugas pengelompokan dibahas dalam taksonomi kuantitatif.
    6. Metode lain. Tidak termasuk dalam kelompok sebelumnya.
      • Algoritme pengelompokan statistik
      • Kelompok ensemble
      • Algoritma keluarga KRAB
      • Algoritma Skrining

    Pendekatan 4 dan 5 terkadang digabungkan dengan nama pendekatan struktural atau geometris, yang memiliki konsep kedekatan yang lebih formal. Terlepas dari perbedaan yang signifikan antara metode yang terdaftar, mereka semua mengandalkan yang asli " hipotesis kekompakan»: Dalam ruang objek, semua objek dekat harus berada dalam kluster yang sama, dan semua objek yang berbeda, masing-masing, harus berada dalam kluster yang berbeda.

    Pernyataan formal dari masalah pengelompokan

    Biarlah X (\\ displaystyle X) - banyak benda, Y (\\ displaystyle Y) - satu set nomor (nama, label) cluster. Fungsi jarak antar objek diatur ρ (x, x ′) (\\ displaystyle \\ rho (x, x "))... Ada seperangkat objek pelatihan yang terbatas X m \u003d (x 1,…, x m) ⊂ X (\\ displaystyle X ^ (m) \u003d \\ (x_ (1), \\ titik, x_ (m) \\) \\ subset X)... Diperlukan untuk membagi sampel menjadi subset terpisah, yang disebut cluster, sehingga setiap cluster terdiri dari objek yang mirip dengan metrik ρ (\\ displaystyle \\ rho), dan objek dari kelompok yang berbeda berbeda secara signifikan. Apalagi setiap benda x i ∈ X m (\\ displaystyle x_ {i) \\ in X ^ (m)) nomor cluster ditetapkan y i (\\ displaystyle y_ {i)).

    Algoritma Pengelompokan adalah sebuah fungsi a: X → Y (\\ displaystyle a \\ titik dua X \\ ke Y)bahwa benda apapun x ∈ X (\\ displaystyle x \\ in X) cocok dengan nomor cluster y ∈ Y (\\ displaystyle y \\ in Y)... Sekelompok Y (\\ displaystyle Y) dalam beberapa kasus, ini diketahui sebelumnya, tetapi tugas yang lebih sering adalah menentukan jumlah cluster yang optimal, dari sudut pandang satu atau lain kriteria kualitas kekelompokan.

    Secara umum perlu dicatat bahwa secara historis telah berkembang sehingga ukuran-ukuran kesamaan lebih sering digunakan sebagai ukuran kedekatan dalam biologi, daripada ukuran perbedaan (jarak).

    Dalam sosiologi

    Pada saat menganalisis hasil penelitian sosiologis, disarankan untuk melakukan analisis dengan menggunakan metode famili hirarkis aglomeratif yaitu metode Ward dimana varians minimum dioptimalkan dalam klaster, sehingga tercipta klaster yang kira-kira berukuran sama. Metode Ward paling berhasil untuk menganalisis data sosiologis. Sebagai ukuran perbedaan, yang terbaik adalah jarak kuadrat Euclidean, yang meningkatkan kontras cluster. Hasil utama dari analisis cluster hirarkis adalah dendrogram atau "diagram es". Saat menafsirkannya, peneliti dihadapkan pada masalah yang sama seperti interpretasi hasil analisis faktor - tidak adanya kriteria yang tidak ambigu untuk mengidentifikasi cluster. Disarankan untuk menggunakan dua metode sebagai yang utama - analisis visual dendrogram dan perbandingan hasil pengelompokan yang dilakukan dengan metode yang berbeda.

    Analisis visual dendrogram mengasumsikan "memotong" pohon pada tingkat kemiripan elemen sampel yang optimal. The "vine branch" (terminologi Aldenderfer MS dan Blashfield RK) harus "dipangkas" pada tanda 5 skala Rescaled Distance Cluster Combine, sehingga tingkat kesamaan 80% akan dicapai. Jika sulit untuk memilih cluster menggunakan label ini (beberapa cluster kecil bergabung menjadi satu cluster besar di atasnya), maka Anda dapat memilih label lain. Teknik ini dikemukakan oleh Aldenderfer dan Blashfield.

    Sekarang pertanyaan tentang stabilitas solusi cluster yang diadopsi muncul. Faktanya, memeriksa stabilitas clustering direduksi menjadi memeriksa keandalannya. Ada aturan praktisnya di sini - tipologi yang stabil tetap ada saat metode pengelompokan berubah. Hasil analisis cluster hirarkis dapat diverifikasi dengan analisis cluster k-means iteratif. Jika klasifikasi kelompok responden yang dibandingkan memiliki lebih dari 70% kebetulan (lebih dari 2/3), maka keputusan cluster dibuat.

    Tidak mungkin untuk memeriksa kecukupan solusi tanpa menggunakan bantuan jenis analisis lain. Setidaknya secara teori, masalah ini belum terselesaikan. Klasik Aldenderfer dan Blashfield Cluster Analysis mengeksplorasi dan akhirnya menolak lima metode pengujian ketahanan tambahan:

    1. korelasi co-fenetik - tidak direkomendasikan dan penggunaan terbatas;
    2. uji signifikansi (analisis varians) - selalu memberikan hasil yang bermakna;
    3. teknik pengambilan sampel secara berulang (acak), yang bagaimanapun tidak membuktikan validitas keputusan;
    4. uji signifikansi untuk tanda eksternal hanya cocok untuk pengukuran berulang;
    5. metode Monte Carlo sangat kompleks dan hanya dapat diakses oleh ahli matematika berpengalaman [ (Deteksi tepi bahasa Inggris) atau pengenalan objek.
    6. Penambangan data - pengelompokan di Data Mining memperoleh nilai ketika bertindak sebagai salah satu tahapan analisis data, membangun solusi analitis lengkap. Seringkali lebih mudah bagi seorang analis untuk mengisolasi kelompok objek yang serupa, mempelajari fitur mereka, dan membangun model terpisah untuk setiap kelompok daripada membuat satu model umum untuk semua data. Teknik ini terus-menerus digunakan dalam pemasaran, menyoroti kelompok pelanggan, pembeli, barang dan mengembangkan strategi terpisah untuk masing-masing kelompok.

    Analisis Cluster

    Kebanyakan peneliti cenderung percaya bahwa untuk pertama kalinya istilah "analisis cluster" (eng. gugus - ikat, ikat, ikat) diusulkan oleh matematikawan R. Tryon. Selanjutnya, sejumlah istilah muncul yang sekarang umumnya dianggap sinonim dari istilah "analisis cluster": klasifikasi otomatis; botriologi.

    Analisis cluster adalah prosedur statistik multivariat yang mengumpulkan data yang berisi informasi tentang sampel objek, dan kemudian mengurutkan objek ke dalam kelompok yang relatif homogen (cluster) (Q-clustering, atau Q-teknik, analisis cluster itu sendiri). Sebuah cluster adalah sekelompok elemen yang dicirikan oleh properti bersama, tujuan utama dari analisis cluster adalah untuk menemukan kelompok objek serupa dalam sebuah sampel. Kisaran aplikasi analisis cluster sangat luas: digunakan dalam arkeologi, kedokteran, psikologi, kimia, biologi, administrasi publik, filologi, antropologi, pemasaran, sosiologi, dan disiplin ilmu lainnya. Namun, universalitas aplikasi telah menyebabkan munculnya sejumlah besar istilah, metode dan pendekatan yang tidak sesuai yang memperumit penggunaan yang tidak ambigu dan interpretasi yang konsisten dari analisis cluster. Orlov A.I. mengusulkan untuk membedakan sebagai berikut:

    Tugas dan kondisi

    Analisis cluster melakukan hal berikut tujuan utama:

    • Pengembangan tipologi atau klasifikasi.
    • Jelajahi skema konseptual yang berguna untuk mengelompokkan objek.
    • Menghasilkan hipotesis dari eksplorasi data.
    • Pengujian hipotesis atau penelitian untuk menentukan apakah jenis (kelompok) yang diidentifikasi dengan satu atau lain cara ada dalam data yang tersedia.

    Terlepas dari subjek studi, penerapan analisis cluster melibatkan langkah selanjutnya:

    • Pemilihan sampel untuk pengelompokan. Dapat dipahami bahwa masuk akal untuk mengelompokkan hanya data kuantitatif.
    • Penentuan kumpulan variabel yang akan digunakan untuk mengevaluasi objek dalam sampel, yaitu ruang fitur.
    • Perhitungan nilai dari satu atau beberapa ukuran kesamaan (atau perbedaan) antara objek.
    • Penerapan metode analisis cluster untuk membuat kelompok objek serupa.
    • Validasi hasil solusi cluster.

    Analisis cluster menunjukkan hal berikut persyaratan data:

    1. indikator tidak harus berkorelasi satu sama lain;
    2. indikator tidak boleh bertentangan dengan teori pengukuran;
    3. distribusi indikator harus mendekati normal;
    4. indikator harus memenuhi persyaratan "stabilitas", yang berarti tidak adanya pengaruh pada nilai faktor acaknya;
    5. sampel harus homogen, tidak mengandung "pencilan".

    Anda dapat menemukan deskripsi dua persyaratan dasar untuk data - homogenitas dan kelengkapan:

    Keseragaman mengharuskan semua entitas yang diwakili dalam tabel memiliki sifat yang sama. Persyaratan kelengkapan adalah set saya dan J menyajikan inventaris lengkap dari manifestasi fenomena tersebut. Jika meja dianggap di mana saya adalah totalitas, dan J - satu set variabel yang mendeskripsikan populasi ini, maka itu harus menjadi sampel yang representatif dari populasi yang diteliti, dan sistem karakteristik J harus memberikan representasi vektor yang memuaskan dari individu saya dari sudut pandang peneliti.

    Jika analisis cluster didahului oleh analisis faktor, maka sampel tidak perlu "diperbaiki" - persyaratan yang dinyatakan terpenuhi secara otomatis oleh prosedur pemodelan faktor itu sendiri (ada keuntungan lain - standarisasi-z tanpa konsekuensi negatif untuk sampel; jika dilakukan langsung untuk analisis cluster, dapat memerlukan diikuti dengan penurunan kejelasan pemisahan kelompok). Jika tidak, sampel perlu disesuaikan.

    Tipologi masalah clustering

    Jenis data masukan

    Dalam sains modern, beberapa algoritma digunakan untuk memproses data masukan. Analisis dengan membandingkan objek berdasarkan karakteristik (paling umum dalam ilmu biologi) disebut Q-jenis analisis, dan dalam kasus membandingkan fitur, berdasarkan objek - R-jenis analisis. Ada upaya untuk menggunakan jenis analisis hibrid (misalnya, RQanalisis), tetapi metodologi ini belum dikembangkan dengan baik.

    Mengelompokkan tujuan

    • Memahami data dengan mengidentifikasi struktur cluster. Membagi sampel menjadi beberapa kelompok objek serupa memungkinkan untuk menyederhanakan pemrosesan data lebih lanjut dan pengambilan keputusan dengan menerapkan metode analisisnya sendiri untuk setiap cluster (strategi "bagi dan taklukkan").
    • Kompresi data. Jika sampel awal terlalu besar, Anda dapat menguranginya, meninggalkan satu perwakilan paling umum dari setiap cluster.
    • Deteksi kebaruan (eng. deteksi kebaruan). Objek atipikal disorot yang tidak dapat dilampirkan ke salah satu cluster.

    Dalam kasus pertama, mereka mencoba memperkecil jumlah cluster. Dalam kasus kedua, lebih penting untuk memastikan tingkat kemiripan yang tinggi dari objek dalam setiap cluster, dan bisa ada sejumlah cluster. Dalam kasus ketiga, yang paling menarik adalah objek individual yang tidak cocok dengan cluster mana pun.

    Dalam semua kasus ini, pengelompokan hierarkis dapat digunakan, jika kluster besar difragmentasi menjadi kluster yang lebih kecil, yang pada gilirannya akan terfragmentasi lebih kecil lagi, dan seterusnya. Tugas semacam itu disebut tugas taksonomi. Taksonomi menghasilkan struktur hierarki seperti pohon. Selain itu, setiap objek dicirikan oleh daftar semua cluster yang memilikinya, biasanya dari besar ke kecil.

    Metode pengelompokan

    Tidak ada klasifikasi metode pengelompokan yang diterima secara umum, tetapi upaya yang solid oleh V.S. Berikov dan G.S.Lbov dapat dicatat. Jika kita menggeneralisasi berbagai klasifikasi metode pengelompokan, maka kita dapat membedakan sejumlah kelompok (beberapa metode dapat dikaitkan ke beberapa kelompok sekaligus dan oleh karena itu diusulkan untuk mempertimbangkan pengetikan ini sebagai perkiraan klasifikasi sebenarnya dari metode pengelompokan):

    1. Pendekatan probabilistik... Diasumsikan bahwa setiap objek yang dipertimbangkan termasuk dalam salah satu kelas k. Beberapa penulis (misalnya, A.I. Orlov) percaya bahwa grup ini sama sekali tidak termasuk dalam clustering dan menentangnya dengan nama "diskriminasi", yaitu, pilihan untuk menugaskan objek ke salah satu grup terkenal (sampel pelatihan).
    2. Pendekatan Kecerdasan Buatan... Ini adalah grup yang sangat bersyarat, karena ada banyak metode AI dan secara metodologis sangat berbeda.
    3. Pendekatan logis... Dendrogram dibangun dengan menggunakan pohon keputusan.
    4. Pendekatan teori-grafik.
      • Algoritme pengelompokan grafik
    5. Pendekatan hierarkis... Kehadiran grup bertingkat (cluster berbagai pesanan) diasumsikan. Algoritma, pada gilirannya, dibagi lagi menjadi aglomeratif (pemersatu) dan memecah belah (membagi). Berdasarkan jumlah ciri, metode klasifikasi monothetic dan polythetic terkadang dibedakan.
      • Pengelompokan atau taksonomi divisi hierarkis. Tugas pengelompokan dibahas dalam taksonomi kuantitatif.
    6. Metode lain... Tidak termasuk dalam kelompok sebelumnya.
      • Algoritme pengelompokan statistik
      • Kelompok ensemble
      • Algoritma keluarga KRAB
      • Algoritma Skrining
      • DBSCAN, dll.

    Pendekatan 4 dan 5 terkadang digabungkan dengan nama pendekatan struktural atau geometris, yang memiliki konsep kedekatan yang lebih formal. Terlepas dari perbedaan yang signifikan antara metode yang terdaftar, mereka semua mengandalkan yang asli " hipotesis kekompakan»: Dalam ruang objek, semua objek dekat harus berada dalam kluster yang sama, dan semua objek yang berbeda, masing-masing, harus berada dalam kluster yang berbeda.

    Pernyataan formal dari masalah pengelompokan

    Membiarkan menjadi satu set objek, menjadi satu set angka (nama, label) cluster. Fungsi jarak antar objek diatur. Ada seperangkat objek pelatihan yang terbatas. Diperlukan untuk membagi sampel menjadi subset terpisah, yang disebut cluster, sehingga setiap cluster terdiri dari objek yang dekat dalam metrik, dan objek dari cluster yang berbeda berbeda secara signifikan. Dalam kasus ini, setiap objek diberi nomor cluster.

    Algoritma Pengelompokan adalah fungsi yang memberikan nomor cluster ke objek apa pun. Dalam beberapa kasus, himpunan diketahui sebelumnya, tetapi lebih sering tugasnya adalah menentukan jumlah cluster yang optimal, dari sudut pandang satu atau lain kriteria kualitas kekelompokan.

    Pengelompokan (pembelajaran tanpa pengawasan) berbeda dari klasifikasi (pembelajaran tersupervisi) di mana label objek asli awalnya tidak ditentukan, dan set itu sendiri bahkan mungkin tidak diketahui.

    Solusi untuk masalah pengelompokan pada dasarnya ambigu, dan ada beberapa alasan untuk ini (menurut sejumlah penulis):

    • tidak ada kriteria terbaik yang unik untuk kualitas pengelompokan. Sejumlah kriteria heuristik diketahui, serta sejumlah algoritme yang tidak memiliki kriteria yang dinyatakan dengan jelas, tetapi melaksanakan pengelompokan yang cukup masuk akal "berdasarkan konstruksi". Semuanya dapat memberikan hasil yang berbeda. Oleh karena itu, untuk menentukan kualitas clustering, dibutuhkan seorang ahli bidang subjek yang dapat menilai kebermaknaan clustering.
    • jumlah cluster, sebagai suatu peraturan, tidak diketahui sebelumnya dan ditetapkan sesuai dengan beberapa kriteria subjektif. Hal ini berlaku hanya untuk metode diskriminasi, karena dalam metode pengelompokan, alokasi kluster disebabkan oleh pendekatan yang diformalkan berdasarkan ukuran kedekatan.
    • hasil pengelompokan pada dasarnya bergantung pada metrik, yang pilihannya, biasanya, juga subjektif dan ditentukan oleh seorang pakar. Tetapi perlu dicatat bahwa ada sejumlah rekomendasi untuk memilih ukuran kedekatan untuk berbagai tugas.

    Aplikasi

    Dalam biologi

    Dalam biologi, pengelompokan memiliki banyak aplikasi di berbagai bidang. Misalnya, dalam bioinformatika, digunakan untuk menganalisis jaringan kompleks dari gen yang berinteraksi, terkadang terdiri dari ratusan atau bahkan ribuan elemen. Analisis cluster memungkinkan Anda untuk mengidentifikasi subnet, bottleneck, hub, dan properti tersembunyi lainnya dari sistem yang dipelajari, yang pada akhirnya memungkinkan Anda untuk mengetahui kontribusi setiap gen terhadap pembentukan fenomena yang dipelajari.

    Di bidang ekologi, metode ini banyak digunakan untuk mengidentifikasi kelompok organisme, komunitas, dll yang homogen secara spasial. Lebih jarang, metode analisis cluster digunakan untuk mempelajari komunitas pada waktunya. Heterogenitas struktur komunitas menyebabkan munculnya metode analisis cluster yang tidak sepele (misalnya, metode Chekanovsky).

    Secara umum perlu dicatat bahwa secara historis telah berkembang sehingga ukuran kesamaan lebih sering digunakan sebagai ukuran kedekatan dalam biologi, daripada ukuran perbedaan (jarak).

    Dalam sosiologi

    Pada saat menganalisis hasil penelitian sosiologis, disarankan untuk melakukan analisis dengan menggunakan metode famili hirarkis aglomeratif yaitu metode Ward dimana varians minimum dioptimalkan dalam klaster, sehingga tercipta klaster yang kira-kira berukuran sama. Metode Ward paling berhasil untuk menganalisis data sosiologis. Sebagai ukuran perbedaan, yang terbaik adalah jarak kuadrat Euclidean, yang meningkatkan kontras cluster. Hasil utama dari analisis cluster hirarkis adalah dendrogram atau "diagram es". Saat menafsirkannya, peneliti dihadapkan pada masalah yang sama seperti interpretasi hasil analisis faktor - tidak adanya kriteria yang tidak ambigu untuk mengidentifikasi cluster. Disarankan untuk menggunakan dua metode sebagai yang utama - analisis visual dendrogram dan perbandingan hasil pengelompokan yang dilakukan dengan metode yang berbeda.

    Analisis visual dendrogram mengasumsikan "memotong" pohon pada tingkat kemiripan elemen sampel yang optimal. The "vine branch" (terminologi Aldenderfer MS dan Blashfield RK) harus "dipangkas" pada tanda 5 skala Rescaled Distance Cluster Combine, sehingga tingkat kesamaan 80% akan dicapai. Jika sulit untuk memilih cluster menggunakan label ini (beberapa cluster kecil bergabung menjadi satu cluster besar di atasnya), maka Anda dapat memilih label lain. Teknik ini dikemukakan oleh Aldenderfer dan Blashfield.

    Sekarang pertanyaan tentang stabilitas solusi cluster yang diadopsi muncul. Faktanya, memeriksa stabilitas clustering direduksi menjadi memeriksa keandalannya. Ada aturan praktisnya di sini - tipologi yang stabil tetap ada saat metode pengelompokan berubah. Hasil analisis cluster hirarkis dapat diverifikasi dengan analisis cluster k-means iteratif. Jika klasifikasi kelompok responden yang dibandingkan memiliki lebih dari 70% kebetulan (lebih dari 2/3), maka keputusan cluster dibuat.

    Tidak mungkin untuk memeriksa kecukupan solusi tanpa menggunakan bantuan jenis analisis lain. Setidaknya secara teori, masalah ini belum terselesaikan. Klasik Aldenderfer dan Blashfield Cluster Analysis mengeksplorasi dan akhirnya menolak lima metode pengujian ketahanan tambahan:

    Dalam ilmu komputer

    • Mengelompokkan hasil penelusuran - digunakan untuk pengelompokan "cerdas" hasil saat mencari file, situs web, dan objek lain, memberikan pengguna kemampuan untuk menavigasi dengan cepat, memilih subset yang jelas lebih relevan dan mengecualikan subset yang jelas kurang relevan - yang dapat meningkatkan kegunaan antarmuka dibandingkan dengan output dalam formulir daftar sederhana yang diurutkan berdasarkan relevansi.
      • Clusty - mesin pencari pengelompokan Vivísimo
      • Nigma - Mesin pencari Rusia dengan hasil pengelompokan otomatis
      • Quintura - Clustering Cloud Kata Kunci Visual
    • Segmentasi gambar (eng. segmentasi gambar) - Clustering dapat digunakan untuk membagi gambar digital menjadi area terpisah untuk mendeteksi batas (eng. deteksi tepi) atau pengenalan objek.
    • Penambangan data (eng. penambangan data) - Pengelompokan dalam Data Mining memperoleh nilai ketika bertindak sebagai salah satu tahapan analisis data, membangun solusi analitis yang lengkap. Seringkali lebih mudah bagi seorang analis untuk mengisolasi kelompok objek serupa, mempelajari fitur mereka, dan membangun model terpisah untuk setiap kelompok daripada membuat satu model umum untuk semua data. Teknik ini terus-menerus digunakan dalam pemasaran, menyoroti kelompok pelanggan, pembeli, barang dan mengembangkan strategi terpisah untuk masing-masing kelompok.

    Lihat juga

    Catatan

    Tautan

    Dalam bahasa Rusia
    • www.MachineLearning.ru - Sumber wiki profesional yang didedikasikan untuk pembelajaran mesin dan penggalian data
    Dalam Bahasa Inggris
    • COMPACT - Paket Perbandingan untuk Clustering Assessment... Paket Matlab gratis, 2006.
    • P. Berkhin, Survei Teknik Clustering Data Mining, Perangkat Lunak Accrue, 2002.
    • Jain, Murty dan Flynn: Pengelompokan Data: Tinjauan, ACM Comp. Surv., 1999.
    • untuk presentasi hierarki, k-means dan fuzzy c-means lainnya, lihat pengantar clustering ini. Juga memiliki penjelasan tentang campuran Gaussians.
    • David Dowe, Halaman Pemodelan Campuran - tautan model pengelompokan dan campuran lainnya.
    • tutorial tentang pengelompokan
    • Buku teks on-line: Teori Informasi, Inferensi, dan Algoritma Pembelajaran, oleh David J.C. MacKay mencakup bab-bab tentang pengelompokan k-means, pengelompokan k-means lembut, dan penurunan termasuk algoritme E-M dan tampilan variasional algoritme E-M.
    • “The Self-Organized Gene,” tutorial yang menjelaskan pengelompokan melalui pembelajaran kompetitif dan peta pengorganisasian mandiri.
    • kernlab - paket R untuk pembelajaran mesin berbasis kernel (termasuk implementasi pengelompokan spektral)
    • Tutorial - Tutorial pengenalan Clustering Algorithms (k-means, fuzzy-c-means, hierarchical, campuran gaussians) + beberapa demo interaktif (java applet)
    • Perangkat Lunak Penambangan Data - Perangkat lunak penambangan data sering menggunakan teknik pengelompokan.
    • Aplikasi Pembelajaran Kompetitif Java Rangkaian Jaringan Neural Tanpa Pengawasan untuk pengelompokan. Ditulis dalam bahasa Jawa. Lengkap dengan semua source code.
    • Perangkat Lunak Pembelajaran Mesin - Juga berisi banyak perangkat lunak pengelompokan.

    Analisis cluster adalah

    Selamat siang. Di sini saya menghormati orang-orang yang merupakan penggemar karya mereka.

    Maxim, temanku, termasuk dalam kategori ini. Dia terus bekerja dengan angka, menganalisisnya, membuat laporan yang sesuai.

    Kemarin kami makan siang bersama, jadi selama hampir setengah jam dia memberi tahu saya tentang analisis cluster - apa itu analisis cluster dan dalam kasus apa penerapannya masuk akal dan sesuai. Nah, siapa saya?

    Saya memiliki ingatan yang baik, jadi semua data ini, yang sudah saya ketahui, akan saya berikan kepada Anda dalam bentuk aslinya dan paling informatif.

    Analisis cluster dirancang untuk membagi sekumpulan objek menjadi kelompok yang homogen (cluster atau kelas). Ini adalah tugas klasifikasi data multivariat.

    Ada sekitar 100 algoritma pengelompokan yang berbeda, namun yang paling umum digunakan adalah analisis klaster hierarkis dan pengelompokan k-means.

    Dimana Analisis Cluster Digunakan? Dalam pemasaran, ini adalah segmentasi pesaing dan konsumen.

    Dalam manajemen: pembagian personel ke dalam kelompok-kelompok dengan berbagai tingkat motivasi, klasifikasi pemasok, identifikasi situasi produksi serupa di mana perkawinan terjadi.

    Dalam pengobatan, klasifikasi gejala, pasien, obat-obatan. Dalam sosiologi, pembagian responden menjadi kelompok-kelompok yang homogen. Faktanya, analisis cluster telah membuktikan dirinya dengan baik di semua bidang kehidupan manusia.

    Keindahan metode ini adalah bahwa ia bekerja bahkan ketika ada sedikit data dan persyaratan distribusi normal variabel acak dan persyaratan lain dari metode klasik analisis statistik tidak terpenuhi.

    Mari kita jelaskan esensi dari analisis cluster tanpa menggunakan terminologi yang ketat:
    Katakanlah Anda melakukan survei terhadap karyawan dan ingin menentukan cara paling efektif mengelola personel Anda.

    Artinya, Anda ingin membagi karyawan Anda ke dalam beberapa kelompok dan mengidentifikasi pengungkit manajemen yang paling efektif untuk masing-masing karyawan. Pada saat yang sama, perbedaan antara kelompok harus jelas, dan di dalam kelompok responden harus semirip mungkin.

    Untuk mengatasi masalah tersebut diusulkan untuk menggunakan analisis cluster hirarkis.

    Hasilnya, kita akan mendapatkan pohon, yang melihat di mana kita harus menentukan berapa banyak kelas (cluster) yang ingin kita pisahkan stafnya.

    Misalkan kita memutuskan untuk membagi staf menjadi tiga kelompok, maka untuk mempelajari responden yang termasuk dalam masing-masing cluster, kita akan menerima tablet dengan kira-kira konten berikut:


    Mari kita jelaskan bagaimana tabel di atas terbentuk. Kolom pertama berisi jumlah cluster - grup, yang datanya tercermin dalam baris.

    Misalnya cluster pertama adalah 80% laki-laki. 90% kelompok pertama termasuk dalam kelompok usia 30-50 tahun, dan 12% responden menganggap bahwa manfaat sangat penting. Dll

    Mari kita coba buat potret responden di setiap cluster:

    1. Kelompok pertama - kebanyakan pria dalam usia dewasa, menduduki posisi kepemimpinan. Paket sosial (MED, LGOTI, waktu bebas WAKTU) tidak menarik bagi mereka. Mereka lebih suka menerima gaji yang baik daripada bantuan dari majikan.
    2. Kelompok dua, sebaliknya, memberikan preferensi pada paket sosial. Ini terutama terdiri dari orang-orang dari "usia", memegang posisi rendah. Gaji tentu penting bagi mereka, tapi ada prioritas lain.
    3. Kelompok ketiga adalah yang termuda. Berbeda dengan dua sebelumnya, ada minat yang jelas dalam pembelajaran dan peluang karir. Kategori karyawan ini memiliki peluang bagus untuk segera bergabung dengan grup pertama.

    Jadi, ketika merencanakan kampanye untuk memperkenalkan metode-metode manajemen personalia yang efektif, jelas bahwa dalam situasi kami adalah mungkin untuk meningkatkan paket sosial untuk kelompok kedua dengan mengorbankan, misalnya, gaji.

    Jika kita berbicara tentang spesialis mana yang harus dikirim untuk pelatihan, maka kami pasti dapat merekomendasikan untuk memperhatikan kelompok ketiga.

    Sumber: http: //site/www.nickart.spb.ru/analysis/cluster.php

    Fitur analisis cluster

    Cluster adalah harga aset dalam periode waktu tertentu selama transaksi dilakukan. Volume pembelian dan penjualan yang dihasilkan ditunjukkan dengan angka dalam cluster.

    Bar dari TF mana pun biasanya berisi beberapa cluster. Ini memungkinkan Anda untuk melihat secara rinci volume pembelian, penjualan, dan saldo mereka di setiap batang, untuk setiap tingkat harga.


    Perubahan harga satu aset pasti memerlukan rantai pergerakan harga pada instrumen lain.

    Perhatian!

    Dalam kebanyakan kasus, pemahaman tentang pergerakan tren terjadi pada saat tren berkembang pesat, dan memasuki pasar sepanjang tren penuh dengan jatuh ke dalam gelombang korektif.

    Untuk perdagangan yang sukses, Anda perlu memahami situasi saat ini dan dapat mengantisipasi pergerakan harga di masa depan. Anda dapat mempelajarinya dengan menganalisis grafik cluster.

    Dengan bantuan analisis cluster, Anda dapat melihat aktivitas pelaku pasar bahkan di dalam bar harga terkecil. Ini adalah analisis paling akurat dan terperinci, karena ini menunjukkan distribusi titik volume transaksi untuk setiap tingkat harga aset.

    Pasar terus-menerus menghadapi kepentingan pembeli dan penjual. Dan setiap pergerakan harga terkecil (tick) adalah pergerakan ke kompromi - tingkat harga - yang cocok untuk kedua belah pihak saat ini.

    Tapi pasarnya dinamis, jumlah pembeli dan penjual terus berubah. Jika pada suatu waktu pasar didominasi oleh penjual, maka pada saat berikutnya kemungkinan besar akan ada pembeli.

    Jumlah transaksi yang dilakukan pada tingkat harga yang berdekatan juga tidak sama. Namun, pertama, situasi pasar tercermin dalam total volume transaksi, dan baru kemudian pada harga.

    Jika kita melihat aksi para pelaku pasar dominan (penjual atau pembeli), maka pergerakan harganya sendiri bisa diprediksi.

    Untuk berhasil menerapkan analisis cluster, Anda harus terlebih dahulu memahami apa itu cluster dan delta.


    Cluster adalah pergerakan harga, yang dibagi menjadi beberapa level di mana transaksi dengan volume yang diketahui dilakukan. Delta menunjukkan perbedaan antara pembelian dan penjualan yang terjadi di setiap cluster.

    Setiap cluster, atau grup delta, memungkinkan Anda untuk memahami apakah pembeli atau penjual mendominasi pasar pada waktu tertentu.

    Cukup menghitung delta total dengan menjumlahkan penjualan dan pembelian. Jika delta negatif, maka pasar oversold, dan transaksi jual berlebihan padanya. Ketika delta positif, pasar jelas dikuasai oleh pembeli.

    Delta itu sendiri dapat mengambil nilai normal atau kritis. Nilai volume delta di atas normal dalam cluster disorot dengan warna merah.

    Jika delta sedang, maka ini mencirikan keadaan datar di pasar. Dengan nilai delta normal, pergerakan tren diamati di pasar, tetapi nilai kritis selalu menjadi pertanda pembalikan harga.

    Perdagangan valas dengan CA

    Untuk mendapatkan keuntungan maksimal, Anda harus bisa menentukan transisi delta dari level sedang ke normal. Memang dalam hal ini, Anda bisa melihat awal dari transisi dari pergerakan flat ke trend dan bisa mendapatkan profit sebesar-besarnya.

    Bagan cluster lebih menggambarkan, di atasnya Anda dapat melihat tingkat akumulasi dan distribusi volume yang signifikan, membangun level support dan resistance. Ini memungkinkan pedagang untuk menemukan entri yang tepat untuk perdagangan.

    Dengan menggunakan delta, seseorang dapat menilai prevalensi penjualan atau pembelian di pasar. Analisis cluster memungkinkan Anda untuk mengamati transaksi dan melacak volumenya di dalam bar TF mana pun.

    Ini sangat penting ketika mendekati level support atau resistance yang signifikan. Penilaian cluster adalah kunci untuk memahami pasar.

    Sumber: http: //site/orderflowtrading.ru/analitika-rynka/obemy/klasternyy-analiz/

    Area dan fitur penerapan analisis cluster

    Istilah analisis cluster (pertama kali diperkenalkan oleh Tryon, 1939) sebenarnya mencakup sekumpulan algoritma klasifikasi yang berbeda.

    Pertanyaan umum yang diajukan oleh peneliti di berbagai bidang adalah bagaimana mengatur data yang dapat diamati ke dalam struktur visual, mis. memperluas taksonomi.

    Sesuai dengan sistem modern yang dianut dalam biologi, manusia termasuk primata, mamalia, amniota, vertebrata dan hewan.

    Perhatikan bahwa dalam klasifikasi ini, semakin tinggi tingkat agregasi, semakin sedikit kesamaan antar anggota di kelas yang sesuai.

    Manusia memiliki lebih banyak kemiripan dengan primata lain (yaitu monyet) daripada dengan anggota keluarga mamalia yang "jauh" (misalnya anjing), dll.

    Perhatikan bahwa pembahasan sebelumnya mengacu pada algoritme pengelompokan, tetapi tidak menyebutkan apa pun tentang pengujian signifikansi statistik.

    Faktanya, analisis cluster bukanlah metode statistik konvensional sebagai "set" dari algoritma yang berbeda untuk "mendistribusikan objek ke dalam cluster".

    Ada sudut pandang bahwa, tidak seperti banyak prosedur statistik lainnya, metode analisis cluster digunakan dalam banyak kasus ketika Anda tidak memiliki hipotesis apriori tentang kelas, tetapi masih dalam tahap penelitian deskriptif.

    Perhatian!

    Harus dipahami bahwa analisis cluster mengidentifikasi "keputusan yang paling signifikan".

    Oleh karena itu, pengujian signifikansi statistik tidak benar-benar dapat diterapkan di sini, bahkan dalam kasus di mana level-p diketahui (seperti, misalnya, dalam metode K-means).

    Teknik pengelompokan digunakan di berbagai bidang. Hartigan (1975) telah memberikan gambaran yang sangat baik dari banyak studi yang diterbitkan yang berisi hasil analisis cluster.

    Misalnya, di bidang kedokteran, pengelompokan penyakit, pengobatan penyakit, atau gejala penyakit mengarah pada taksonomi yang banyak digunakan.

    Di bidang psikiatri, diagnosis yang benar dari kelompok gejala seperti paranoia, skizofrenia, dll. Sangat penting untuk keberhasilan terapi. Dalam arkeologi, menggunakan analisis cluster, peneliti mencoba menetapkan taksonomi alat batu, objek pemakaman, dll.

    Ada banyak aplikasi analisis cluster dalam riset pemasaran. Secara umum, bilamana perlu untuk mengklasifikasikan pegunungan informasi ke dalam kelompok-kelompok yang sesuai untuk diproses lebih lanjut, analisis cluster ternyata sangat berguna dan efektif.

    Pengelompokan pohon

    Contoh di bagian Tujuan Umum menjelaskan tujuan dari algoritma join (tree clustering).

    Tujuan dari algoritma ini adalah untuk menggabungkan objek (misalnya, hewan) ke dalam kelompok yang cukup besar menggunakan beberapa ukuran kesamaan atau jarak antar objek. Hasil khas dari pengelompokan tersebut adalah pohon hierarki.

    Pertimbangkan diagram pohon horizontal. Diagram dimulai dengan setiap objek di kelas (di sebelah kiri diagram).

    Sekarang mari kita bayangkan bahwa secara bertahap (dalam langkah yang sangat kecil) Anda "melemahkan" kriteria Anda tentang objek mana yang unik dan mana yang tidak.

    Dengan kata lain, Anda menurunkan ambang untuk keputusan untuk menggabungkan dua atau lebih objek ke dalam satu cluster.

    Akibatnya, Anda menautkan lebih banyak objek dan menggabungkan (menggabungkan) lebih banyak cluster dari elemen yang semakin berbeda.

    Terakhir, pada langkah terakhir, semua objek digabungkan. Dalam diagram ini, sumbu horizontal mewakili jarak gabungan (dalam diagram pohon vertikal, sumbu vertikal mewakili jarak gabungan).

    Jadi, untuk setiap node dalam grafik (tempat cluster baru terbentuk), Anda dapat melihat jarak elemen terkait yang ditautkan ke cluster baru.

    Ketika data memiliki "struktur" yang jelas dalam kaitannya dengan kelompok objek yang mirip satu sama lain, maka struktur ini kemungkinan besar akan direfleksikan dalam pohon hierarki dengan cabang yang berbeda.

    Sebagai hasil dari analisis yang berhasil dengan metode penggabungan, maka cluster dapat dideteksi (cabang) dan menafsirkannya.

    Metode union atau tree clustering digunakan saat membentuk cluster yang tidak sama atau jarak antar objek. Jarak ini dapat ditentukan dalam ruang satu dimensi atau multi-dimensi.

    Misalnya, jika Anda harus mengelompokkan jenis makanan di kafe, Anda dapat memperhitungkan jumlah kalori yang dikandungnya, harga, rasa subjektif, dll.

    Cara paling langsung untuk menghitung jarak antar objek dalam ruang multidimensi adalah dengan menghitung jarak Euclidean.

    Jika Anda memiliki ruang dua atau tiga dimensi, maka ukuran ini adalah jarak geometris nyata antar benda dalam ruang (seolah-olah jarak antar benda diukur dengan pita pengukur).

    Namun, algoritma penggabungan tidak "peduli" apakah jarak "yang disediakan" untuk ini nyata atau beberapa ukuran jarak turunan lainnya, yang lebih berarti bagi peneliti; dan tantangan bagi peneliti adalah menemukan metode yang tepat untuk aplikasi tertentu.

    Jarak Euclidean. Ini sepertinya jenis jarak yang paling umum. Ini hanyalah jarak geometris dalam ruang multidimensi dan dihitung sebagai berikut:

    Perhatikan bahwa jarak Euclidean (dan kuadratnya) dihitung dari data asli, bukan data standar.

    Ini adalah cara biasa untuk menghitungnya, yang memiliki keuntungan tertentu (misalnya, jarak antara dua objek tidak berubah saat objek baru dimasukkan ke dalam analisis, yang mungkin berubah menjadi outlier).

    Perhatian!

    Namun, jarak dapat sangat dipengaruhi oleh perbedaan antara sumbu-sumbu penghitungan jarak. Misalnya, jika salah satu sumbu diukur dalam sentimeter, dan Anda kemudian mengubahnya menjadi milimeter (mengalikan nilainya dengan 10), maka jarak Euclidean terakhir (atau kuadrat jarak Euclidean), dihitung dengan koordinat, akan sangat berubah, dan, sebagai hasilnya, hasil kluster analisis bisa sangat berbeda dari yang sebelumnya.

    Jarak Euclidean kuadrat. Kadang-kadang Anda mungkin ingin mengkuadratkan jarak Euclidean standar untuk memberikan bobot yang lebih besar pada objek yang lebih jauh satu sama lain.

    Jarak ini dihitung sebagai berikut:

    Jarak blok kota (jarak Manhattan). Jarak ini hanyalah rata-rata perbedaan koordinat.

    Dalam kebanyakan kasus, pengukuran jarak ini mengarah pada hasil yang sama seperti untuk jarak Euclidean biasa.

    Perhatikan, bagaimanapun, bahwa untuk ukuran ini, pengaruh perbedaan besar individu (pencilan) menurun (karena mereka tidak kuadrat). Jarak Manhattan dihitung menggunakan rumus:

    Jarak Chebyshev. Jarak ini dapat berguna saat Anda ingin mendefinisikan dua objek sebagai "berbeda" jika keduanya berbeda dalam satu koordinat (satu dimensi). Jarak Chebyshev dihitung dengan rumus:

    Jarak kekuasaan. Kadang-kadang seseorang ingin secara progresif menambah atau mengurangi berat yang terkait dengan dimensi yang objeknya sangat berbeda.

    Ini dapat dicapai dengan menggunakan jarak hukum kekuatan. Jarak daya dihitung dengan rumus:

    dengan r dan p adalah parameter yang ditentukan pengguna. Beberapa contoh kalkulasi dapat menunjukkan bagaimana ukuran ini "bekerja".

    Parameter p bertanggung jawab atas pembobotan bertahap dari perbedaan dalam koordinat individu, parameter r bertanggung jawab atas pembobotan progresif jarak yang jauh antar objek. Jika kedua parameter - r dan p, sama dengan dua, maka jarak ini bertepatan dengan jarak Euclidean.

    Persentase ketidaksepakatan. Ukuran ini digunakan jika data bersifat kategorikal. Jarak ini dihitung dengan rumus:

    Aturan asosiasi atau tautan

    Pada langkah pertama, ketika setiap objek merupakan cluster terpisah, jarak antara objek-objek ini ditentukan oleh ukuran yang dipilih.

    Namun, ketika beberapa objek dihubungkan bersama, muncul pertanyaan, bagaimana jarak antar cluster harus ditentukan?

    Dengan kata lain, Anda memerlukan aturan gabungan atau tautan untuk dua cluster. Ada berbagai kemungkinan di sini: misalnya, Anda dapat menghubungkan dua kluster jika ada dua objek dalam dua kluster yang lebih dekat satu sama lain daripada jarak tautan yang sesuai.

    Dengan kata lain, Anda menggunakan "aturan tetangga terdekat" untuk menentukan jarak antar cluster; metode ini disebut metode tautan tunggal.

    Aturan ini membangun cluster "berserat", yaitu cluster "dihubungkan bersama" hanya oleh elemen individu yang kebetulan lebih dekat satu sama lain daripada yang lain.

    Atau, Anda dapat menggunakan tetangga dalam kelompok yang paling jauh dari satu sama lain. Metode ini disebut metode komunikasi penuh.

    Ada juga banyak metode pengelompokan lain yang serupa dengan yang dibahas.

    Tautan tunggal (metode tetangga terdekat). Seperti dijelaskan di atas, dalam metode ini, jarak antara dua cluster ditentukan oleh jarak antara dua objek terdekat (tetangga terdekat) dalam cluster yang berbeda.

    Aturan ini harus, dalam arti tertentu, merangkai objek bersama untuk membentuk cluster, dan cluster yang dihasilkan cenderung berupa "rantai" yang panjang.

    Komunikasi penuh (metode tetangga terjauh). Dalam metode ini, jarak antar cluster ditentukan oleh jarak terbesar antara dua fitur di cluster yang berbeda (yaitu, "tetangga terjauh").

    Rata-rata berpasangan tidak tertimbang. Dalam metode ini, jarak antara dua cluster yang berbeda dihitung sebagai jarak rata-rata antara semua pasangan objek di dalamnya.

    Metode ini efektif jika objek benar-benar membentuk "rumpun" yang berbeda, tetapi metode ini bekerja sama baiknya dalam kasus cluster yang diperluas (jenis "rantai").

    Perhatikan bahwa dalam buku mereka, Sneath dan Sokal (1973) memperkenalkan singkatan UPGMA untuk merujuk pada metode ini sebagai metode kelompok berpasangan tidak berbobot menggunakan rata-rata aritmatika.

    Rata-rata berpasangan tertimbang. Metode ini identik dengan metode rata-rata berpasangan tidak berbobot, kecuali bahwa ukuran cluster masing-masing (yaitu, jumlah objek yang dikandungnya) digunakan sebagai faktor pembobotan dalam perhitungan.

    Oleh karena itu, metode yang diusulkan harus digunakan (daripada yang sebelumnya) ketika ukuran cluster diasumsikan tidak sama.

    Dalam buku Sneath dan Sokal (1973), singkatan WPGMA diperkenalkan untuk menyebut metode ini sebagai metode kelompok berpasangan tertimbang dengan menggunakan rata-rata aritmatika.

    Metode sentroid tidak berbobot. Dalam metode ini, jarak antara dua cluster didefinisikan sebagai jarak antara pusat gravitasinya.

    Perhatian!

    Sneath dan Sokal (1973) menggunakan akronim UPGMC untuk menyebut metode ini sebagai metode kelompok berpasangan tidak tertimbang dengan menggunakan rata-rata sentroid.

    Metode sentroid tertimbang (median). Metode ini identik dengan yang sebelumnya, kecuali bahwa kalkulasi menggunakan bobot untuk menjelaskan perbedaan antara ukuran cluster (yaitu, jumlah objek di dalamnya).

    Oleh karena itu, jika ada (atau diduga) perbedaan yang signifikan dalam ukuran cluster, metode ini lebih disukai daripada yang sebelumnya.

    Sneath dan Sokal (1973) telah menggunakan akronim WPGMC untuk merujuknya sebagai metode kelompok berpasangan berbobot menggunakan rata-rata sentroid.

    Metode Ward. Metode ini berbeda dari semua metode lainnya karena menggunakan metode analisis varians untuk memperkirakan jarak antar cluster.

    Metode meminimalkan jumlah kuadrat (SS) untuk dua cluster (hipotetis) yang dapat dibentuk di setiap langkah.

    Detail dapat ditemukan dalam karya Ward (1963). Secara keseluruhan, metode ini tampaknya sangat efektif, tetapi cenderung membuat cluster kecil.

    Teknik ini sebelumnya telah dibahas dalam istilah "objek" yang perlu dikelompokkan. Dalam semua jenis analisis lainnya, pertanyaan yang menarik bagi peneliti biasanya diekspresikan dalam bentuk observasi atau variabel.

    Ternyata clustering, baik dengan observasi maupun dengan variabel, dapat memberikan hasil yang cukup menarik.

    Misalnya, bayangkan seorang peneliti medis mengumpulkan data tentang berbagai karakteristik (variabel) pasien (pengamatan) dengan penyakit jantung.

    Peneliti mungkin ingin observasi cluster (pasien) untuk mengidentifikasi cluster pasien dengan gejala serupa.

    Pada saat yang sama, peneliti mungkin ingin mengelompokkan variabel untuk mengidentifikasi kelompok variabel yang terkait dengan kondisi fisik yang serupa.

    Setelah diskusi ini mengenai apakah observasi cluster atau variabel, pertanyaan mungkin ditanyakan, mengapa tidak cluster di kedua arah?

    Modul Analisis Cluster berisi prosedur penggabungan dua arah yang efisien untuk melakukan hal itu.

    Namun, penggabungan dua arah digunakan (relatif jarang) dalam keadaan di mana observasi dan variabel diharapkan secara bersamaan berkontribusi pada pendeteksian cluster yang bermakna.

    Jadi, kembali ke contoh sebelumnya, kita dapat berasumsi bahwa seorang peneliti medis perlu mengidentifikasi kelompok pasien yang serupa dalam kaitannya dengan kelompok karakteristik kondisi fisik tertentu.

    Kesulitan dalam menafsirkan hasil yang diperoleh muncul dari fakta bahwa kesamaan antara cluster yang berbeda dapat timbul dari (atau menyebabkan) beberapa perbedaan dalam subset variabel.

    Oleh karena itu, cluster yang dihasilkan bersifat heterogen. Ini mungkin tampak agak kabur pada awalnya; Faktanya, dibandingkan dengan metode analisis cluster lain yang dijelaskan, penggabungan dua arah mungkin adalah metode yang paling jarang digunakan.

    Namun, beberapa peneliti percaya ini menawarkan alat analisis data eksplorasi yang kuat (lihat deskripsi Hartigan (1975) tentang metode ini untuk lebih jelasnya).

    Metode K artinya

    Metode clustering ini berbeda secara signifikan dari metode aglomeratif seperti Union (tree clustering) dan Two-way join. Misalkan Anda sudah memiliki hipotesis tentang jumlah cluster (berdasarkan observasi atau variabel).

    Anda dapat memberi tahu sistem untuk membuat tepat tiga kluster agar berbeda sebisa mungkin.

    Ini persis jenis masalah yang dipecahkan oleh algoritma metode K-means. Dalam kasus umum, metode K mean membangun K cluster yang berbeda persis yang terletak pada jarak yang paling jauh satu sama lain.

    Dalam contoh kondisi fisik, penyelidik medis mungkin memiliki "kecurigaan" dari pengalaman klinisnya bahwa pasiennya umumnya terbagi dalam tiga kategori yang berbeda.

    Perhatian!

    Jika demikian, maka cara berbagai ukuran parameter fisik untuk setiap cluster akan memberikan cara kuantitatif untuk merepresentasikan hipotesis peneliti (misalnya, pasien dalam cluster 1 memiliki parameter 1 yang tinggi, parameter 2 yang lebih rendah, dll.).

    Dari sudut pandang komputasi, Anda dapat menganggap metode ini sebagai ANOVA. Program dimulai dengan K cluster yang dipilih secara acak, dan kemudian mengubah objek yang menjadi miliknya sehingga:

    1. meminimalkan variabilitas dalam cluster,
    2. memaksimalkan variabilitas antar cluster.

    Metode ini mirip dengan metode reverse analysis of variance (ANOVA) dalam artian uji signifikansi dalam analisis varians membandingkan variabilitas antarkelompok dengan variabilitas dalam kelompok ketika menguji hipotesis bahwa mean dalam kelompok berbeda satu sama lain.

    Dalam pengelompokan K-means, program memindahkan objek (yaitu pengamatan) dari satu kelompok (cluster) ke yang lain untuk mendapatkan hasil yang paling signifikan dalam analisis varians (ANOVA).

    Biasanya, setelah hasil analisis klaster K-means diperoleh, rata-rata tiap klaster dapat dihitung untuk setiap dimensi guna memperkirakan bagaimana klaster berbeda satu sama lain.

    Idealnya, Anda harus mendapatkan cara yang sangat berbeda untuk sebagian besar, jika tidak semua, pengukuran yang digunakan dalam analisis Anda.

    Sumber: http: //site/www.biometrica.tomsk.ru/textbook/modules/stcluan.html

    Klasifikasi benda menurut karakteristiknya

    Analisis cluster adalah seperangkat metode statistik multidimensi untuk mengklasifikasikan objek sesuai dengan karakteristiknya, membagi sekumpulan objek menjadi kelompok-kelompok homogen yang dekat dalam hal mendefinisikan kriteria, mengidentifikasi objek dari kelompok tertentu.

    Sebuah cluster adalah sekelompok objek yang diidentifikasi sebagai hasil dari analisis cluster berdasarkan ukuran tertentu dari kesamaan atau perbedaan antara objek.

    Objek - ini adalah subjek penelitian khusus yang perlu diklasifikasikan. Objek dalam klasifikasi, pada umumnya, adalah observasi. Misalnya, konsumen produk, negara atau kawasan, barang, dll.

    Meskipun dimungkinkan untuk melakukan analisis cluster dan variabel. Klasifikasi objek dalam analisis cluster multidimensi terjadi pada beberapa alasan secara bersamaan.

    Ini dapat berupa variabel kuantitatif dan kategori, tergantung pada metode analisis cluster. Jadi, tujuan utama dari analisis cluster adalah menemukan kelompok objek serupa dalam sampel.

    Himpunan metode statistik multivariat dari analisis cluster dapat dibagi menjadi metode hierarki (aglomeratif dan memecah belah) dan non-hierarki (metode k-means, analisis cluster dua tahap).

    Namun, tidak ada klasifikasi metode yang diterima secara umum, dan metode untuk membangun pohon keputusan, jaringan saraf, analisis diskriminan, dan regresi logistik kadang-kadang juga mengacu pada metode analisis cluster.

    Cakupan analisis cluster, karena keserbagunaannya, sangat luas. Analisis cluster digunakan dalam bidang ekonomi, pemasaran, arkeologi, kedokteran, psikologi, kimia, biologi, pemerintahan, filologi, antropologi, sosiologi, dan bidang lainnya.

    Berikut adalah beberapa contoh bagaimana analisis cluster dapat diterapkan:

    • obat - klasifikasi penyakit, gejalanya, metode pengobatan, klasifikasi kelompok pasien;
    • pemasaran - tugas mengoptimalkan berbagai macam perusahaan, membagi pasar berdasarkan kelompok barang atau konsumen, mengidentifikasi konsumen potensial;
    • sosiologi - membagi responden menjadi kelompok homogen;
    • psikiatri - diagnosis yang benar dari kelompok gejala sangat penting untuk terapi yang berhasil;
    • biologi - klasifikasi organisme berdasarkan kelompok;
    • ekonomi - klasifikasi mata pelajaran RF menurut daya tarik investasi.

    Sumber: http: //site/www.statmethods.ru/konsalting/statistics-metody/121-klasternyj-analiz.html

    Memahami Analisis Cluster

    Analisis cluster mencakup sekumpulan algoritme klasifikasi yang berbeda. Pertanyaan umum yang diajukan oleh para peneliti di banyak bidang adalah bagaimana mengatur data yang dapat diamati ke dalam struktur visual.

    Misalnya, ahli biologi bertujuan untuk memecah hewan menjadi spesies yang berbeda untuk menjelaskan perbedaan di antara mereka secara bermakna.

    Tugas analisis cluster adalah untuk membagi kumpulan objek awal menjadi beberapa kelompok objek yang mirip dan dekat. Grup ini disebut cluster.

    Dengan kata lain, analisis cluster adalah salah satu cara untuk mengklasifikasikan objek sesuai dengan karakteristiknya. Hasil klasifikasi diharapkan memiliki interpretasi yang bermakna.

    Hasil yang diperoleh dengan metode analisis cluster digunakan di berbagai bidang. Dalam pemasaran, itu adalah segmentasi pesaing dan konsumen.

    Dalam psikiatri, diagnosis gejala yang benar seperti paranoia, skizofrenia, dll. Sangat penting untuk keberhasilan terapi.

    Dalam manajemen, penting untuk mengklasifikasikan pemasok, mengidentifikasi situasi produksi serupa di mana perkawinan terjadi. Dalam sosiologi, pembagian responden menjadi kelompok-kelompok yang homogen. Dalam investasi portofolio, penting untuk mengelompokkan sekuritas menurut kemiripannya dalam tren imbal hasil untuk menyusun, berdasarkan informasi yang diperoleh tentang pasar saham, portofolio investasi optimal yang akan memaksimalkan laba atas investasi untuk tingkat risiko tertentu.

    Secara umum, bilamana perlu untuk mengklasifikasikan sejumlah besar informasi semacam ini dan menyajikannya dalam bentuk yang sesuai untuk diproses lebih lanjut, analisis kluster ternyata sangat berguna dan efektif.

    Analisis cluster memungkinkan pertimbangan informasi dalam jumlah yang cukup besar dan sangat memampatkan rangkaian informasi sosial ekonomi yang besar, menjadikannya ringkas dan visual.

    Perhatian!

    Analisis klaster sangat penting dalam kaitannya dengan kumpulan deret waktu yang menjadi ciri pembangunan ekonomi (misalnya, situasi ekonomi dan komoditas secara umum).

    Di sini Anda dapat memilih periode ketika nilai indikator yang sesuai cukup dekat, serta menentukan kelompok deret waktu, yang dinamikanya paling mirip.

    Dalam tugas peramalan sosio-ekonomi, kombinasi analisis cluster dengan metode kuantitatif lainnya (misalnya dengan analisis regresi) sangat menjanjikan.

    Keuntungan dan kerugian

    Analisis cluster memungkinkan klasifikasi objektif dari objek apa pun yang dicirikan oleh sejumlah fitur. Ada beberapa manfaat yang bisa didapat dari ini:

    1. Cluster yang dihasilkan dapat diartikan, yaitu mendeskripsikan kelompok apa yang sebenarnya ada.
    2. Kluster individu dapat dibuang. Ini berguna dalam kasus di mana kesalahan tertentu dibuat dalam kumpulan data, akibatnya nilai indikator untuk objek individual menyimpang tajam. Saat menggunakan analisis cluster, objek tersebut termasuk dalam cluster terpisah.
    3. Untuk analisis lebih lanjut, hanya cluster tersebut yang dapat dipilih yang memiliki karakteristik yang menarik.

    Seperti metode lainnya, analisis cluster memiliki kekurangan dan keterbatasan tertentu. Secara khusus, komposisi dan jumlah cluster bergantung pada kriteria partisi yang dipilih.

    Ketika larik data asli direduksi menjadi bentuk yang lebih kompak, distorsi tertentu dapat terjadi, dan fitur individu objek individu juga dapat hilang karena penggantiannya oleh karakteristik nilai umum dari parameter kluster.

    Metode

    Lebih dari seratus algoritma pengelompokan yang berbeda saat ini diketahui. Keragaman mereka dijelaskan tidak hanya oleh metode komputasi yang berbeda, tetapi juga oleh konsep berbeda yang mendasari pengelompokan.

    Paket Statistica mengimplementasikan metode pengelompokan berikut.

    • Algoritme hierarki - pengelompokan pohon. Algoritme hierarki didasarkan pada gagasan pengelompokan sekuensial. Pada langkah awal, setiap objek diperlakukan sebagai cluster terpisah. Pada langkah berikutnya, beberapa cluster yang paling dekat satu sama lain akan digabungkan menjadi cluster terpisah.
    • Metode K-means. Ini adalah metode yang paling umum digunakan. Itu milik kelompok yang disebut metode referensi analisis cluster. Jumlah cluster K ditentukan oleh pengguna.
    • Gabungan dua masukan. Saat menggunakan metode ini, clustering dilakukan secara bersamaan baik oleh variabel (kolom) maupun oleh hasil observasi (baris).

    Prosedur penggabungan dua arah dilakukan dalam kasus di mana seseorang dapat mengharapkan bahwa pengelompokan simultan pada variabel dan pengamatan akan memberikan hasil yang berarti.

    Hasil dari prosedur ini adalah statistik deskriptif untuk variabel dan pengamatan, dan bagan warna dua dimensi yang mewarnai nilai data.

    Dengan distribusi warna, Anda bisa mendapatkan gambaran tentang kelompok yang homogen.

    Variabel normalisasi

    Membagi himpunan objek asli menjadi beberapa kelompok dikaitkan dengan penghitungan jarak antara objek dan pemilihan objek, yang jaraknya paling kecil dari semua yang mungkin.

    Jarak Euclidean (geometris) yang paling umum digunakan yang akrab bagi kita semua. Metrik ini sesuai dengan gagasan intuitif tentang kedekatan objek di ruang angkasa (seolah-olah jarak antar objek diukur dengan pita pengukur).

    Namun untuk metrik tertentu, jarak antar objek dapat sangat dipengaruhi oleh perubahan skala (satuan). Misalnya, jika salah satu fitur diukur dalam milimeter, dan kemudian nilainya diubah ke sentimeter, jarak Euclidean antar objek akan sangat berubah. Ini akan mengarah pada fakta bahwa hasil analisis cluster mungkin berbeda secara signifikan dari yang sebelumnya.

    Jika variabel diukur dalam satuan pengukuran yang berbeda, maka diperlukan normalisasi awal, yaitu transformasi data awal, yang mengubahnya menjadi besaran tak berdimensi.

    Normalisasi sangat mendistorsi geometri ruang asli, yang dapat mengubah hasil pengelompokan

    Dalam paket Statistica, variabel x apa pun dinormalisasi menggunakan rumus:

    Untuk melakukan ini, klik kanan pada nama variabel dan di menu yang terbuka, pilih urutan perintah: Isi / Standarisasi Blok / Standardisasi Kolom. Nilai variabel yang dinormalisasi akan menjadi nol, dan varians akan menjadi satu.

    Metode K-Means di Statistika

    Metode K-means (K-means) membagi sekumpulan objek menjadi sejumlah K cluster berbeda yang terletak pada jarak sejauh mungkin satu sama lain.

    Biasanya, setelah hasil analisis cluster K-Means diperoleh, cara untuk setiap cluster pada setiap dimensi dapat dihitung untuk memperkirakan perbedaan cluster satu sama lain.

    Idealnya, Anda harus mendapatkan cara yang sangat berbeda untuk sebagian besar pengukuran yang digunakan dalam analisis Anda.

    Nilai statistik F yang diperoleh untuk setiap dimensi adalah indikator lain tentang seberapa baik dimensi yang sesuai membedakan cluster.

    Sebagai contoh, perhatikan hasil survei terhadap 17 karyawan perusahaan tentang kepuasan terhadap indikator kualitas karir jasa mereka. Tabel tersebut memberikan jawaban atas pertanyaan kuesioner pada skala sepuluh poin (1 - poin minimum, 10 - maksimum).

    Nama variabel sesuai dengan jawaban atas pertanyaan berikut:

    1. SLC - kombinasi dari tujuan pribadi dan tujuan organisasi;
    2. CCO - rasa keadilan dalam pembayaran;
    3. TBD - kedekatan teritorial dengan rumah;
    4. SEB - rasa kesejahteraan ekonomi;
    5. KR - pertumbuhan karir;
    6. ZhSR - keinginan untuk berganti pekerjaan;
    7. OSB - rasa kesejahteraan sosial.

    Dengan menggunakan data ini, karyawan perlu dibagi menjadi beberapa kelompok dan mengidentifikasi pengungkit manajemen yang paling efektif untuk masing-masing karyawan.

    Pada saat yang sama, perbedaan antara kelompok harus jelas, dan di dalam kelompok responden harus semirip mungkin.

    Sampai saat ini, sebagian besar jajak pendapat sosiologis hanya memberikan persentase suara: mayoritas dari mereka yang menjawab positif, atau persentase dari mereka yang tidak puas, dipertimbangkan, tetapi masalah ini tidak dipertimbangkan secara sistematis.

    Seringkali, survei tidak menunjukkan tren perubahan situasi. Dalam beberapa kasus, perlu untuk menghitung bukan jumlah orang yang "mendukung" atau "melawan", tetapi jarak, atau ukuran kesamaan, yaitu untuk menentukan kelompok orang yang berpikir tentang hal yang sama.

    Prosedur analisis cluster dapat digunakan untuk mengidentifikasi, berdasarkan data survei, beberapa keterkaitan fitur yang benar-benar ada dan menghasilkan tipologi mereka atas dasar ini.

    Perhatian!

    Kehadiran hipotesis apriori dari sosiolog ketika bekerja dengan prosedur analisis cluster bukanlah kondisi yang diperlukan.

    Dalam Statistika, analisis cluster dilakukan sebagai berikut.

    Saat memilih jumlah cluster, dipandu oleh hal berikut: jumlah cluster, jika memungkinkan, tidak boleh terlalu besar.

    Jarak di mana objek cluster ini disatukan harus, jika memungkinkan, jauh lebih kecil dari jarak di mana sesuatu yang lain terhubung ke cluster ini.

    Saat memilih jumlah cluster, paling sering ada beberapa keputusan yang benar pada saat bersamaan.

    Kami tertarik, misalnya, tentang bagaimana jawaban atas pertanyaan kuesioner dari karyawan biasa dan manajemen perusahaan berhubungan. Oleh karena itu, kami memilih K \u003d 2. Untuk segmentasi lebih lanjut, Anda dapat menambah jumlah cluster.

    1. pilih observasi dengan jarak maksimum antar pusat cluster;
    2. urutkan jarak dan pilih pengamatan secara berkala (pengaturan default);
    3. lakukan pengamatan pertama dari pusat-pusat tersebut dan tempelkan objek-objek lainnya padanya.

    Opsi 1 cocok untuk tujuan kita).

    Banyak algoritma pengelompokan sering "memaksakan" struktur data yang tidak melekat di dalamnya dan membingungkan peneliti. Oleh karena itu, sangat penting untuk menerapkan beberapa algoritma analisis cluster dan menarik kesimpulan berdasarkan penilaian umum dari hasil algoritma tersebut.

    Hasil analisis dapat dilihat pada kotak dialog yang muncul:

    Memilih tab Graph of means akan memplot koordinat pusat cluster:


    Setiap garis putus-putus dalam grafik ini sesuai dengan salah satu cluster. Setiap divisi pada sumbu horizontal grafik sesuai dengan salah satu variabel yang termasuk dalam analisis.

    Sumbu vertikal sesuai dengan nilai rata-rata variabel untuk objek yang termasuk dalam setiap cluster.

    Dapat dicatat bahwa terdapat perbedaan yang signifikan dalam sikap kedua kelompok masyarakat terhadap karir mereka di hampir semua masalah. Ada kebulatan suara yang lengkap hanya dalam satu masalah - dalam arti kesejahteraan sosial (OSB), atau lebih tepatnya, kurangnya itu (2.5 poin dari 10).

    Dapat diasumsikan bahwa cluster 1 menampilkan pekerja dan cluster 2 menampilkan kepemimpinan. Pemimpin lebih puas dengan pengembangan karir (CR), kombinasi dari tujuan pribadi dan tujuan organisasi (SLC).

    Mereka memiliki sense of economic well-being (SEW) dan sense of pay equity (WCO) yang lebih tinggi.

    Kedekatan teritorial dengan rumah (LDP) lebih mengkhawatirkan mereka daripada pekerja, mungkin karena masalah transportasi yang lebih sedikit. Selain itu, manajer memiliki lebih sedikit keinginan untuk berganti pekerjaan (WSR).

    Terlepas dari kenyataan bahwa pekerja dibagi menjadi dua kategori, mereka memiliki jawaban yang relatif sama untuk sebagian besar pertanyaan. Dengan kata lain, jika ada sesuatu yang tidak sesuai dengan kelompok karyawan secara umum, hal yang sama tidak sesuai dengan manajemen puncak, dan sebaliknya.

    Menyelaraskan grafik memungkinkan seseorang untuk menyimpulkan bahwa kesejahteraan satu kelompok mempengaruhi kesejahteraan kelompok lain.

    Kluster 1 tidak senang dengan kedekatan teritorial dengan rumah. Grup ini adalah bagian utama dari karyawan yang terutama datang ke perusahaan dari berbagai penjuru kota.

    Akibatnya, Anda dapat meminta manajemen utama untuk mengarahkan sebagian dari keuntungan untuk pembangunan perumahan bagi karyawan perusahaan.

    Perbedaan yang signifikan terlihat pada sikap kedua kelompok masyarakat tersebut terhadap karir mereka. Karyawan yang puas dengan pertumbuhan karier, yang memiliki kebetulan yang tinggi antara tujuan pribadi dan tujuan organisasi, tidak memiliki keinginan untuk berganti pekerjaan dan merasa puas dengan hasil pekerjaannya.

    Sebaliknya, karyawan yang ingin berganti pekerjaan dan tidak puas dengan hasil pekerjaannya tidak puas dengan indikator yang ditetapkan. Manajemen puncak harus memberi perhatian khusus pada situasi saat ini.

    Hasil analisis varians untuk setiap karakteristik ditampilkan dengan menekan tombol Analysis of variance.

    Jumlah kuadrat deviasi objek dari pusat klaster (SS Within) dan jumlah kuadrat deviasi antara pusat klaster (SS Antara), nilai F-statistik dan tingkat signifikansi p ditampilkan.

    Perhatian!

    Sebagai contoh, tingkat signifikansi kedua variabel cukup tinggi karena jumlah pengamatan yang sedikit. Dalam versi lengkap penelitian, yang dapat ditemukan dalam karya tersebut, hipotesis tentang kesetaraan sarana untuk pusat cluster ditolak pada tingkat signifikansi kurang dari 0,01.

    Tombol Simpan klasifikasi dan jarak menampilkan jumlah objek yang termasuk dalam setiap cluster dan jarak objek ke pusat setiap cluster.

    Tabel menunjukkan nomor kasus (CASE_NO) yang membentuk cluster dengan nomor CLUSTER dan jarak dari pusat setiap cluster (DISTANCE).

    Informasi tentang kepemilikan objek ke cluster dapat ditulis ke file dan digunakan dalam analisis lebih lanjut. Dalam contoh ini, perbandingan hasil yang diperoleh dengan kuesioner menunjukkan bahwa cluster 1 sebagian besar terdiri dari pekerja biasa, dan cluster 2 - manajer.

    Dengan demikian, dapat dicatat bahwa saat mengolah hasil kuesioner, analisis cluster ternyata menjadi metode yang ampuh yang memungkinkan seseorang untuk menarik kesimpulan yang tidak dapat dicapai dengan membuat histogram rata-rata atau menghitung persentase mereka yang puas dengan berbagai indikator kualitas kehidupan kerja.

    Pengelompokan pohon adalah contoh algoritme hierarkis, yang prinsipnya terdiri dari penggabungan secara berurutan ke dalam cluster, pertama yang terdekat, dan kemudian semakin jauh dari satu sama lain elemen.

    Sebagian besar algoritme ini berasal dari matriks kesamaan (jarak), dan setiap elemen individu dianggap di awal sebagai cluster terpisah.

    Setelah memuat modul analisis cluster dan memilih Joining (tree clustering), parameter berikut dapat diubah di jendela entri parameter clustering:

    • Data awal (Input). Mereka bisa dalam bentuk matriks dari data yang diselidiki (data mentah) dan dalam bentuk matriks jarak (matriks jarak).
    • Pengelompokan observasi (Kasus (mentah)) atau variabel (Variabel (kolom)) yang menggambarkan keadaan suatu objek.
    • Pengukuran jarak. Di sini Anda dapat memilih ukuran berikut: Jarak Euclidean, Jarak Euclidean kuadrat, Jarak City-block (Manhattan), Metrik jarak Chebychev, Power …), Persentase ketidaksepakatan.
    • Metode pengelompokan (Aturan penggabungan (tautan)). Berikut adalah opsi-opsi berikut: Hubungan Tunggal, Hubungan Lengkap, Rata-rata kelompok pasangan tidak tertimbang, rata-rata kelompok pasangan tertimbang ), sentroid kelompok pasangan tidak tertimbang, sentroid kelompok pasangan tertimbang (median), metode Ward.

    Sebagai hasil dari pengelompokan, dendrogram horizontal atau vertikal dibangun - grafik di mana jarak antara objek dan cluster ditentukan ketika mereka digabungkan secara berurutan.

    Struktur grafik yang menyerupai pohon memungkinkan Anda untuk menentukan cluster tergantung pada ambang yang dipilih - jarak tertentu antara cluster.

    Selain itu, matriks Jarak ditampilkan; mean dan deviasi standar untuk setiap objek sumber (statistik Distiptive).

    Untuk contoh yang dipertimbangkan, mari lakukan analisis cluster variabel dengan pengaturan default. Dendrogram yang dihasilkan ditunjukkan pada gambar.


    Sumbu vertikal dendrogram adalah jarak antara objek dan antara objek dan cluster. Dengan demikian, jarak antara variabel SEB dan RSD adalah lima. Variabel ini digabungkan menjadi satu cluster pada langkah pertama.

    Segmen horizontal dendrogram digambar pada tingkat yang sesuai dengan nilai ambang jarak yang dipilih untuk langkah pengelompokan tertentu.

    Grafik tersebut menunjukkan bahwa pertanyaan “keinginan untuk berganti pekerjaan” (AMPL) membentuk cluster yang terpisah. Secara umum, keinginan untuk membuang di mana saja sama dengan semua orang. Selanjutnya, cluster terpisah adalah pertanyaan tentang kedekatan teritorial dengan rumah (LDP).

    Dari segi kepentingan, menempati urutan kedua, yang menegaskan kesimpulan tentang perlunya pembangunan rumah, dibuat sesuai dengan hasil studi dengan menggunakan metode K-means.

    Perasaan kesejahteraan ekonomi (SEW) dan ekuitas gaji (CCA) digabungkan - ini adalah blok masalah ekonomi. Pertumbuhan karir (CR) dan kombinasi tujuan pribadi dan organisasi (WLC) juga digabungkan.

    Metode pengelompokan lainnya, serta pilihan jenis jarak lainnya, tidak menyebabkan perubahan yang signifikan dalam dendrogram.

    Hasil:

    1. Analisis cluster adalah alat yang ampuh untuk analisis data eksplorasi dan penelitian statistik di bidang subjek apa pun.
    2. Statistica mengimplementasikan metode hierarki dan struktural dari analisis cluster. Keuntungan dari paket statistik ini adalah karena kemampuan grafisnya. Representasi grafis dua dimensi dan tiga dimensi dari cluster yang diperoleh dalam ruang variabel yang diteliti, serta hasil prosedur hierarki untuk mengelompokkan objek, disediakan.
    3. Beberapa algoritma analisis cluster perlu diterapkan dan ditarik kesimpulan berdasarkan penilaian keseluruhan dari hasil algoritma.
    4. Analisis cluster dapat dianggap berhasil jika dilakukan dengan cara yang berbeda, hasilnya dibandingkan dan pola umum ditemukan, dan cluster stabil ditemukan terlepas dari metode clustering.
    5. Analisis cluster memungkinkan Anda mengidentifikasi situasi masalah dan menguraikan cara untuk menyelesaikannya. Oleh karena itu, metode statistik nonparametrik ini dapat dianggap sebagai bagian integral dari analisis sistem.

    Random Forest adalah salah satu algoritma data mining favorit saya. Pertama, ini sangat serbaguna, dapat digunakan untuk menyelesaikan masalah regresi dan klasifikasi. Telusuri anomali dan pilih prediktor. Kedua, ini adalah algoritma yang sangat sulit diterapkan secara tidak benar. Karena, tidak seperti algoritma lain, ia memiliki beberapa parameter yang dapat dikonfigurasi. Ini juga sangat sederhana pada intinya. Dan pada saat yang sama, ketepatannya luar biasa.

    Apa ide di balik algoritme yang luar biasa ini? Idenya sederhana: katakanlah kita memiliki beberapa algoritma yang sangat lemah, katakanlah. Jika kita membuat banyak model yang berbeda menggunakan algoritma lemah ini dan rata-rata hasil prediksi mereka, maka hasil akhirnya akan jauh lebih baik. Inilah yang disebut latihan ansambel dalam aksi. Algoritme Random Forest oleh karena itu disebut "Random Forest", untuk data yang diperoleh, algoritma ini membuat sekumpulan pohon keputusan dan kemudian merata-ratakan hasil prediksinya. Poin penting di sini adalah elemen keacakan dalam pembuatan setiap pohon. Bagaimanapun, jelas bahwa jika kita membuat banyak pohon identik, maka hasil rata-ratanya akan memiliki akurasi satu pohon.

    Bagaimana cara kerjanya? Misalkan kita memiliki beberapa data masukan. Setiap kolom berhubungan dengan beberapa parameter, setiap baris berhubungan dengan beberapa elemen data.

    Kami dapat secara acak memilih sejumlah kolom dan baris dari seluruh kumpulan data dan membangun pohon keputusan berdasarkan mereka.


    Kamis, 10 Mei 2012

    Kamis, 12 Januari 2012


    Itu saja. Penerbangan 17 jam selesai, Rusia ditinggalkan di luar negeri. Dan melalui jendela apartemen 2 kamar tidur yang nyaman di San Francisco, Silicon Valley, California, AS yang terkenal sedang memandangi kami. Ya, inilah alasan utama mengapa saya hampir tidak menulis belakangan ini. Kami pindah.

    Semuanya dimulai pada April 2011 ketika saya melakukan wawancara telepon di Zynga. Kemudian semuanya tampak seperti semacam permainan yang tidak ada hubungannya dengan kenyataan, dan saya bahkan tidak bisa membayangkan apa hasilnya. Pada Juni 2011, Zynga tiba di Moskow dan melakukan serangkaian wawancara, sekitar 60 kandidat yang lulus wawancara telepon dipertimbangkan dan sekitar 15 orang dipilih dari mereka (saya tidak tahu nomor pastinya, seseorang kemudian berubah pikiran, seseorang langsung menolak). Wawancara itu ternyata sangat sederhana. Tidak ada masalah pemrograman, tidak ada pertanyaan rumit tentang bentuk palka, sebagian besar kemampuan untuk mengobrol telah diuji. Dan pengetahuan, menurut saya, dinilai hanya secara dangkal.

    Dan kemudian tipu muslihat dimulai. Pertama kami menunggu hasilnya, lalu penawaran, lalu persetujuan LCA, lalu persetujuan petisi visa, lalu dokumen dari USA, lalu antre di kedutaan, lalu cek tambahan, lalu visa. Kadang-kadang saya merasa bahwa saya siap untuk melepaskan segalanya dan mencetak gol. Kadang-kadang saya ragu apakah kita membutuhkan Amerika ini, lagipula, Rusia juga tidak buruk. Keseluruhan proses memakan waktu sekitar setengah tahun, alhasil pada pertengahan Desember, kami mendapat visa dan mulai bersiap untuk pemberangkatan.

    Senin adalah hari pertamaku bekerja di tempat baru. Kantor memiliki semua syarat tidak hanya untuk bekerja, tetapi juga untuk hidup. Sarapan, makan siang, dan makan malam dari koki kami sendiri, banyak variasi makanan yang tersebar di semua tempat, gym, pijat, dan bahkan penata rambut. Semua ini gratis untuk karyawan. Banyak orang berangkat kerja dengan sepeda dan terdapat beberapa ruangan untuk menyimpan kendaraan. Secara umum, saya belum pernah menemukan yang seperti ini di Rusia. Semuanya, bagaimanapun, ada harganya, kami segera diperingatkan bahwa kami harus banyak bekerja. Apa yang "banyak", menurut standar mereka, tidak terlalu jelas bagi saya.

    Mudah-mudahan, bagaimanapun, terlepas dari banyaknya pekerjaan, saya akan dapat melanjutkan blogging di masa mendatang dan mungkin memberi tahu Anda sesuatu tentang kehidupan Amerika dan pekerjaan sebagai programmer di Amerika. Tunggu dan lihat. Sementara itu, saya mengucapkan Selamat Tahun Baru dan Natal kepada Anda semua dan sampai jumpa!


    Untuk contoh penggunaan, kami akan mencetak hasil dividen perusahaan Rusia. Sebagai harga dasar, kami mengambil harga penutupan saham pada hari penutupan register. Untuk beberapa alasan, informasi ini tidak ada di situs trio, tetapi jauh lebih menarik daripada nilai absolut dividen.
    Perhatian! Kode membutuhkan waktu lama untuk dieksekusi, untuk setiap promosi, Anda perlu membuat permintaan ke server finam dan mendapatkan nilainya.

    Hasil<- NULL for(i in (1:length(divs[,1]))){ d <- divs if (d$Divs>0) (coba ((tanda kutip<- getSymbols(d$Symbol, src="Finam", from="2010-01-01", auto.assign=FALSE) if (!is.nan(quotes)){ price <- Cl(quotes) if (length(price)>0) (hh<- d$Divs result <- rbind(result, data.frame(d$Symbol, d$Name, d$RegistryDate, as.numeric(dd)/as.numeric(price), stringsAsFactors=FALSE)) } } }, silent=TRUE) } } colnames(result) <- c("Symbol", "Name", "RegistryDate", "Divs") result


    Demikian pula, Anda dapat membuat statistik selama beberapa tahun terakhir.

    Analisis Cluster muncul relatif baru - pada tahun 1939. Itu disarankan oleh ilmuwan K. Trion. Secara harfiah istilah "cluster" dalam terjemahan dari bahasa Inggris "cluster" berarti sikat, ikat, bundel, kelompok.

    Perkembangan yang sangat pesat dari analisis cluster terjadi pada tahun 60-an abad terakhir. Prasyarat untuk ini adalah munculnya komputer berkecepatan tinggi dan pengakuan klasifikasi sebagai metode dasar penelitian ilmiah.

    Analisis cluster adalah metode penelitian statistik multivariat, yang meliputi pengumpulan data yang berisi informasi tentang objek sampel, dan mengurutkan mereka ke dalam kelompok yang relatif homogen dan serupa.

    Dengan demikian, inti dari analisis cluster terletak pada implementasi klasifikasi objek penelitian dengan menggunakan berbagai prosedur komputasi. Akibatnya, "cluster" atau kelompok objek yang sangat mirip terbentuk. Tidak seperti metode lain, jenis analisis ini memungkinkan untuk mengklasifikasikan objek tidak berdasarkan satu atribut, tetapi oleh beberapa pada saat yang sama. Untuk ini, indikator yang sesuai diperkenalkan yang mencirikan tingkat kedekatan tertentu untuk semua parameter klasifikasi.

    Tujuan dari analisis cluster adalah untuk mencari struktur yang ada, yang diekspresikan dalam pembentukan kelompok objek yang serupa - cluster. Pada saat yang sama, aksinya terletak pada pengenalan struktur ke dalam objek yang diteliti. Artinya, teknik clustering diperlukan untuk mengidentifikasi pola dalam data yang tidak mudah ditemukan dengan inspeksi visual atau dengan bantuan tenaga ahli.

    Tugas utama analisis cluster adalah:

    Pengembangan tipologi atau klasifikasi objek yang diteliti;

    Penelitian dan penentuan skema konseptual yang dapat diterima untuk objek pengelompokan;

    Menempatkan hipotesis berdasarkan hasil penelitian data;

    Pengujian hipotesis apakah jenis (kelompok) yang telah diidentifikasi dengan cara tertentu berlangsung dalam data yang tersedia.

    Analisis cluster memerlukan langkah-langkah berurutan berikut:

    1) melakukan pemilihan objek untuk pengelompokan;

    2) penentuan set fitur yang akan dievaluasi objek yang dipilih;

    3) penilaian tingkat kemiripan objek;

    4) penggunaan analisis cluster untuk membuat kelompok objek serupa;

    5) verifikasi keandalan hasil solusi cluster.

    Masing-masing langkah ini memainkan peran penting dalam implementasi praktis dari analisis.

    Penentuan himpunan fitur yang menjadi dasar untuk mengevaluasi objek () dalam analisis cluster adalah salah satu tugas penelitian terpenting. Tujuan dari langkah ini adalah untuk menentukan kumpulan atribut variabel yang paling mencerminkan konsep kesamaan. Fitur-fitur ini dipilih dengan mempertimbangkan ketentuan teoretis yang mendasari klasifikasi, serta tujuan studi.

    Saat menentukan ukuran kesamaan objek analisis cluster, empat jenis koefisien digunakan: koefisien korelasi, indikator jarak, asosiativitas dan koefisien probabilistik, koefisien kesamaan. Masing-masing indikator ini memiliki kelebihan dan kekurangannya sendiri, yang harus diperhitungkan terlebih dahulu. Dalam praktiknya, yang paling luas dalam bidang ilmu sosial dan ekonomi adalah koefisien korelasi dan jarak.

    Sebagai hasil dari analisis kumpulan data masukan, grup homogen dibuat sedemikian rupa sehingga objek dalam grup ini serupa satu sama lain menurut beberapa kriteria, dan objek dari grup yang berbeda berbeda satu sama lain.

    Clustering dapat dilakukan dengan dua cara utama, termasuk prosedur hierarkis atau iteratif.

    Prosedur hierarki - tindakan berurutan untuk membentuk kelompok dengan pangkat yang berbeda, tunduk satu sama lain sesuai dengan hierarki yang ditetapkan dengan jelas. Prosedur paling sering hierarkis

    dilakukan dengan cara aglomeratif (penyatuan). Mereka menyediakan operasi berikut:

    Kombinasi sekuensial dari objek serupa untuk membentuk matriks kesamaan objek;

    Membangun dendrogram (diagram pohon), yang mencerminkan kombinasi sekuensial objek ke dalam cluster;

    Pembentukan cluster terpisah untuk kumpulan yang dipelajari pada tahap awal analisis pertama dan menggabungkan semua objek ke dalam satu kelompok besar pada tahap akhir analisis.

    Prosedur berulang terdiri dari pembentukan data primer satu tingkat (satu peringkat) secara hierarkis tidak saling menundukkan cluster.

    Selama lebih dari empat puluh tahun, metode k-means (dikembangkan pada tahun 1967 oleh J. McQueen) telah menjadi salah satu metode yang paling luas dalam melakukan prosedur berulang. Penerapannya membutuhkan langkah-langkah berikut:

    Membagi data awal populasi yang diteliti menjadi sejumlah cluster

    Perhitungan sarana multidimensi (pusat gravitasi) cluster yang dipilih

    Perhitungan jarak Euclidean setiap unit dari himpunan pusat tarikan cluster yang ditentukan dan konstruksi matriks jarak berdasarkan metrik jarak. Berbagai metrik jarak digunakan, misalnya jarak Euclidean (sederhana dan berbobot), Manhattan, Chebyshev, Minkowski, Mahalonobis, dan sejenisnya;

    Identifikasi sen baru daya tarik dan cluster baru.

    Metode yang paling terkenal dan banyak digunakan

    formasi cluster adalah:

    Komunikasi tunggal;

    Komunikasi lengkap;

    Komunikasi menengah;

    Metode Ward.

    Metode tautan tunggal (metode tetangga dekat) menyediakan penggabungan unit populasi ke cluster jika dekat (pada tingkat kesamaan yang sama) dengan setidaknya satu perwakilan dari cluster ini.

    Metode komunikasi lengkap (tetangga jauh) membutuhkan tingkat kemiripan tertentu dari objek (tidak kurang dari tingkat pembatas), itu seharusnya dimasukkan dalam cluster, dengan yang lain.

    Metode koneksi rata-rata didasarkan pada penggunaan jarak rata-rata antara kandidat untuk dimasukkan ke dalam cluster dan perwakilan dari cluster yang ada.

    Menurut metode Ward, objek digabungkan ke cluster dalam kasus peningkatan minimum dalam jumlah intragroup dari kuadrat deviasi. Karena itu, cluster dengan ukuran yang kira-kira sama terbentuk, yang memiliki bentuk hipersfer.

    Analisis cluster, seperti metode lain untuk mempelajari komunikasi stokastik, memerlukan banyak perhitungan yang kompleks; lebih baik dilakukan dengan menggunakan sistem informasi modern, termasuk menggunakan produk perangkat lunak Statistica 6.0.

    Peneliti menggunakan analisis cluster dalam berbagai studi, misalnya ketika mempelajari tingkat kesejahteraan populasi negara-negara CIS (A. Miroshnichenko). Pertama, untuk ini, dipilih 16 indikator sosio-ekonomi utama statistik yang menjadi ciri standar hidup warga negara di berbagai negara CIS:

    1) PDB per kapita, USD AMERIKA SERIKAT;

    2) gaji nominal rata-rata bulanan, rus. menggosok.;

    3) pensiun bulanan rata-rata, rus. menggosok.;

    6) bagian pengeluaran untuk pembelian produk makanan dalam pengeluaran konsumen rumah tangga, persen;

    7) konsumsi daging dan produk daging rata-rata per tahun per orang, kg;

    8) jumlah roti gandum yang dapat dibeli untuk jumlah pendapatan tunai rata-rata per bulan (per orang), kg;

    9) angka kelahiran umum (per 1000 orang);

    10) angka kematian bayi (kematian anak di bawah satu tahun per 1000 kelahiran)

    11) jumlah pekerja sebagai persentase dari populasi yang aktif secara ekonomi;

    12) penyediaan penduduk dengan perumahan rata-rata (per orang), luas total m2;

    13) jumlah penderita neoplasma ganas (per 100.000 penduduk), orang;

    14) jumlah kejahatan yang terdaftar (per 100.000 penduduk), unit;

    15) emisi zat berbahaya ke atmosfer dari sumber pencemaran yang tidak bergerak (per orang), kg;

    16) kunjungan ke museum rata-rata per tahun (per 1000 penduduk), unit (Tabel 12.7).

    Analisis kawah dilakukan berdasarkan indikator yang sebanding dan searah. Oleh karena itu, indikator matriks masukan harus distandarisasi terlebih dahulu. Salah satu cara umum untuk populasi heterogen (khususnya dalam contoh kami) adalah dengan membakukan indikator dengan rasio deviasi - a ke unit standardisasi q. Dalam hal ini, satuan standardisasi adalah kisaran variasi aktual.

    Apalagi seperti yang ditunjukkan dalam karya ilmiah ekonom AM Erin dan S.S. Vaschaev, untuk indikator-stimulan diambil, sedangkan untuk indikator-de-stimulan. Berdasarkan ini, nilai standar indikator dihitung menggunakan rumus:

    Untuk indikator stimulan:;

    Untuk indikator-de-stimulator:

    di mana nilai standar indikator i-ro untuk unit ke-y populasi;

    Nilai input indikator ke-i untuk unit ke-j populasi.

    Input standar yang dihasilkan ditunjukkan pada Tabel 12.8.

    Azerbaijan

    Belarusia

    Kazakhstan

    Kirgistan

    Tajikistan

    Tabel 12.8. Matriks masukan standar

    Azerbaijan

    Belarusia

    Kazakhstan

    Kirgistan

    Tajikistan

    Langkah selanjutnya dalam analisis kluster harus membuat matriks jarak, yang terutama melibatkan pilihan metrik jarak. Dalam praktiknya, berbagai metrik jarak digunakan: Euclidean, Euclidean tertimbang, Manhattan, Chebyshev, Minkowski, Mahalonobis D 2, dll. Dalam hal ini, distribusi negara-negara CIS ke dalam grup dapat dilakukan dengan menggunakan jarak Manhattan. Itu dihitung dengan rumus

    ,

    di mana dan adalah nilai standar dari indikator ke-i dari unit ke-j dan ke-k dari populasi.

    Berdasarkan ukuran jarak yang dipilih, dimungkinkan untuk membangun matriks jarak simetris antara negara-negara CIS (Tabel 12.9).

    Negara CIS

    Azerbaijan

    Belarusia

    Kazakhstan

    Kirgistan

    Tajikistan

    Azerbaijan

    Belarusia

    Kazakhstan

    Kirgistan

    Tajikistan

    Tahap analisis selanjutnya adalah pemilihan metode untuk menyatukan negara-negara CIS ke dalam cluster. Seperti yang telah disebutkan, metode pembentukan cluster yang paling umum adalah:

    Komunikasi tunggal;

    Komunikasi lengkap;

    Komunikasi menengah;

    Metode Ward.

    Kami akan menggunakan metode Ward, yang meminimalkan varian intra-grup dalam cluster. Menurut metode ini, penggabungan objek ke kluster dilakukan dengan peningkatan minimum dalam jumlah kuadrat deviasi intragroup. Ini mendorong pembentukan cluster dengan ukuran yang kira-kira sama, yang berbentuk hipersfer. Dendrogram hasil analisis cluster ditunjukkan pada Gambar 12.5.

    Angka: 12.5. Dendrogram hasil analisis cluster negara-negara CIS menurut standar hidup penduduk

    Seperti terlihat pada gambar, sumbu vertikal dendrogram mencerminkan negara-negara CIS, dan horizontal adalah jarak penyatuan.

    Untuk menentukan jumlah cluster yang optimal, perlu untuk membuat grafik daftar penggabungan wilayah Ukraina ke dalam cluster, memplot jarak pada sumbu vertikal, dan horizontal - langkah penggabungan (Gbr. 12.6).

    Angka: 12.6. Jadwal daftar penyatuan negara-negara CIS ke dalam cluster

    Seperti yang Anda lihat, optimal, sesuai dengan persyaratan optimalitas yang ditetapkan, adalah pembagian negara-negara CIS menurut standar hidup penduduk menjadi tiga kelompok. Perhatikan bahwa jumlah cluster optimal dianggap sama dengan perbedaan antara jumlah observasi (dalam contoh kami, 9) dan jumlah langkah setelah jarak union tumbuh secara tiba-tiba (dalam contoh kami, 6).

    Jadi, negara-negara CIS dibagi menjadi tiga kelompok. Kelompok pertama mencakup Azerbaijan dan Tajikistan, yang lainnya - Belarusia, Ukraina, Rusia dan Kazakhstan, dan yang ketiga - Armenia, Moldova, dan Kyrgyzstan.

    Dengan menggunakan metode k-means, nilai rata-rata indikator untuk masing-masing dari tiga cluster dihitung (Gambar 12.7).

    Angka: 12.7. Nilai rata-rata indikator untuk setiap cluster

    Seperti yang ditunjukkan pada gambar. 12.7, sebelum cluster pertama terdapat negara-negara yang nilai rata-rata delapan indikatornya lebih rendah dari pada cluster lainnya.

    Dengan demikian, Azerbaijan dan Tajikistan, yang termasuk dalam kelompok pertama, memiliki PDB per kapita yang rendah, upah bulanan rata-rata (nominal), pensiun, konsumsi daging dan produk daging, dan perumahan. Namun, di negara-negara ini, rata-rata lain lebih tinggi, khususnya: indeks investasi pada aset tetap, indeks harga konsumen, dan tingkat kelahiran.

    Negara-negara yang diklasifikasikan dalam kelompok kedua mencatat parameter tinggi dari komponen ekonomi standar hidup, tetapi, sayangnya, tingkat kelahiran yang rendah, tingginya insiden neoplasma ganas, kejahatan, emisi besar zat berbahaya ke atmosfer dari sumber pencemaran yang tidak bergerak, yang dikonfirmasi oleh indikator yang sesuai.

    Negara-negara dalam kelompok ketiga dicirikan oleh indikator-indikator rendah: indeks investasi dalam aset tetap, tingkat pekerjaan penduduk dalam ekonomi publik, kejahatan yang terdaftar, yang menunjukkan daya tarik investasi yang rendah dan pengangguran yang signifikan.

    Jadi, analisis cluster, menurut para ilmuwan, sangat penting dalam melakukan penelitian analitik karena kemampuan untuk mengubah sejumlah besar informasi serbaguna menjadi bentuk yang teratur dan kompak. Ini berkontribusi pada peningkatan tingkat visibilitas, kejelasan dan persepsi hasil analisis, dan juga menciptakan dasar untuk peramalan.