ANALISIS CLUSTER

analisis-kluster

 

Analisis cluster bertujuan untuk mengelompokkan unit-unit pengamatan ke dalam beberapa kelompok (cluster) berdasarkan kedekatan hubungan antarvariabel dimana setiap unit pengamatan dalam satu kelompok akan mempunyai karakteristik (ciri) yang relatif sama (homogen) sedangkan antar kelompok (cluster) unit pengamatan memiliki karakteristik (ciri) yang berbeda (heterogen).

Analisis Cluster dibagi menjadi dua bagian utama, yaitu metode berhirarki (Hierarchical Clustering Method) dan metode tidak berhirarki (Non Hierarchical Clustering Method). Metode berhirarki sering digunakan apabila jumlah kelompok yang dibentuk belum diketahui, sedangkan metode tidak berhirarki dipakai bila banyaknya kelompok yang akan dibentuk telah ditentukan.

 

Analisis Cluster Non Hierarki

Tipe dasar dalam metode non hierarki adalah algoritma K-mean, yaitu digunakan untuk mengelompokkan objek atau data sedemikian rupa sehingga jarak tiap objek ke pusat cluster adalah minimum, titik pusat cluster (centroid) terbentuk dari rata-rata nilai dari setiap variabel. Proses cluster non hierarti adalah dipilih secara acak k data sebagai sentroid, kemudian jarak antara data dengan centroid dihitung menggunakan jarak Euclid, dan akan ditempatkan dalam kelompok yang terdekat dihitung dati titik tengahnya.

A. Langkah-langkah analisis Cluster K-means :

  1. Menentukan k sebagai banyaknya kelompok yang akan dibentuk
  2. Membangkitkan k centroid awal secara acak.
  3. Menghitung jarak setiap data ke masing-masing centroid yang paling dekat
  4. Melakukan iterasi dan menentukan posisi centroid baru dengan cara menghitung rata-rata dari data yang berada pada centroid yang sama
  5. Ulangi langkah 3 jika posisi centroid baru dan centroid lama tidak sama.

 

B. Menentukan Banyaknya Kelompok

Untuk menentukan banyaknya kelompok maka dapat dilakukan dengan pendekatan berikut :

  1. Pertimbangan teoritis, konseptual, praktis yang mungkin diusulkan untuk menentukan berapa banyak jumlah cluster
  2. Besarnya kelompok relative seharusnya bermanfaat, pemecahan kelompok yang menghasilkan 1 objek anggota dinyatakan tidak bermanfaat sehingga hal ini perlu dihindari.

 

Analisis Cluster Hierarki

Tipe dasar dalam metode ini adalah aglomerasi dan pemecahan. Dalam metode aglomerasi tiap observasi pada mulanya dianggap sebagai cluster tersendiri sehingga terdapat cluster sebyak jumlah observasi. Kemudian dua cluster yang terdekat kesamaannya digabung menjadi suatu cluster baru, sehingga jumlah cluster berkurang satu pada tiap tahap. Sebaliknya pada metode pemecahan dimulai dari satu cluster besar yang mengandung seluruh observasi, selanjutnya observasi-observasi yang paling tidak sama dipisah dan dibentuk cluster-cluster yang lebih kecil. Proses ini dilakukan hingga tiap observasi menjadi cluster sendiri-sendiri.

Sebelum melakukan pengelompokan terlebih dahulu ditentukan jarak kedekatan (similarity) antar individu menggunakan jarak Euclidean. Jarak ini cukup fleksibel untuk dilakukan modifikasi dalam mengatasi kelemahan data. Misalnya kelemahan karena unit pengukuran dan atau skala pengukuran yang berbeda bisa diperbaiki dengan melakukan transformasi baku (Z). Ukuran jarak Euclidean untuk dua buah unit X dan Y adalah:

d(X,Y) = ((X – Y)’ I (X – Y))1/2

dimana I adalah matrik identitas berukuran p x p.

Pada analisis cluster hierarki terdapat beberapa beberapa metode matrik jarak antara lain:

  1. Pautan Tunggal (Single Linkage)

Metode ini didasarkan pada jarak minimum. Dimulai dengan dua objek yang dipisahkan dengan jarak paling pendek  maka keduanya akan ditempatkan pada cluster pertama, dan seterusnya. Metode ini dikenal pula dengan nama pendekatan tetangga terdekat.

2. Pautan Lengkap (Complete Linkage)

Disebut juga pendekatan tetangga terjauh. Dasarnya adalah jarak maksimum. Dalam metode ini seluruh objek dalam suatu cluster dikaitkan satu sama lain pada suatu jarak maksimuma atau dengan kesamaan minimum.

3. Pautan Rata-rata (Average Linkage)

Dasarnya adalah jarak rata-rata antar observasi. pengelompokan dimulai dari tengah atau pasangan observasi dengan jarak paling mendekati jarak rata-rata.

4. Metode Ward (Ward’s Method)

Dalam metode ini  jarak antara dua cluster adalah jumlah kuadrat antara dua cluster untuk seluruh variabel. Metode ini cenderung digunakan untuk mengkombinasi cluster-cluster dengan jumlah kecil.

5. Metode Centroid

Jarak antara dua cluster adalah jarak antar centroid cluster tersebut. Centroid cluster adalah nilai tengah observasi pada variabel dalam suatu set variabel cluster. Keuntungannya adalah outlier hanya sedikit berpengaruh jika dibandingkan dengan metode lain.

Iklan
Pos ini dipublikasikan di Analisis Data Kuantitatif di Malang, Analisis Data Statistik, jasa olah data banyuwangi, jasa olah data malang, Konsultasi Statistik Penelitian, Olah Data SPSS Malang, Pelatihan SPSS Malang, Pelatihan Statistik Terapan, Pusat Analisis Data Statistik Malang, Survey dan Riset, Training Statistika di Malang dan tag , , , , , , , , , , , , , , , , , . Tandai permalink.

Tinggalkan Balasan

Isikan data di bawah atau klik salah satu ikon untuk log in:

Logo WordPress.com

You are commenting using your WordPress.com account. Logout / Ubah )

Gambar Twitter

You are commenting using your Twitter account. Logout / Ubah )

Foto Facebook

You are commenting using your Facebook account. Logout / Ubah )

Foto Google+

You are commenting using your Google+ account. Logout / Ubah )

Connecting to %s