ALVIN BURHANI BLOGSITE  

My Shares, Knowledge, & Experiences

Tulisan ini merupakan saduran dari tulisan tentang cara membandingkan enam metode clustering dengan average silhouette sebagai dasar perbandingan. Dalam tulisan tersebut disebutkan bahwa tujuannya adalah untuk memperoleh hasil yang paling baik dilihat dari sisi nilai average silhouette yang paling tinggi serta sangat berguna untuk melihat jumlah klaster dan metode mana yang paling optimal.

Tulisan ini menggunakan desain kuantitatif dari data statistik resmi BPS. Data yang digunakan adalah Angka Harapan Hidup (AHH) dengan satuan tahun, Harapan Lama Sekolah (HLS) dengan satuan tahun, dan Rata-rata Lama Sekolah (RLS) dengan satuan tahun, dan Purchasing Power Parity (PPP) atau Pengeluaran per Kapita disesuaikan (Ribu Rupiah per Orang per Tahun) di kabupaten/kota se-Provinsi Jawa Timur pada tahun 2018. Data ini diperoleh website BPS Provinsi Sulawesi Selatan (ipm.bps.go.id).

Untuk mendapatkan hasil yang optimal, digunakan beberapa algoritma clustering yaitu K-Means Clustering, K-Medoids, Clustering Large Application (CLARA), Agglomerative Clustering, Hierarchical K-Means Clustering, dan Fuzzy Clustering. Kemudian dilakukan perbandingan hasil klaster dengan menggunakan Average Silhouette Method. Semakin tinggi nilai Average Silhouette Method maka semakin baik.

Diagram Alur Analisis Clustering

Gambar diatas adalah langkah-langkah yang dilakukan dalam prosedure mendapatkan hasil dengan menggunakan R. Dimulai dari mempersiapkan data kemudian melakukan input ke software hingga penentuan klasternya. Software yang digunakan adalah R yang dijalankan di platform Jupyter dari Anaconda Navigator. Karena masing-masing variabel memiliki satuan yang berbeda maka perlu dilakukan standardisasi.

Analisis klaster adalah metode statistika multivariat yang bertujuan untuk mengelompokkan objek-objek yang memiliki kemiripan karakteristik ke dalam suatu klaster (Larasati, 2017). Objek dapat berupa benda (barang atau jasa) atau orang (responden, konsumen, dll). Objek tersebut akan diklasifikasikan ke dalam satu atau lebih klaster sehingga objek yang ada dalam satu klaster akan memiliki kemiripan satu dengan yang lain. Klaster yang baik akan memiliki homogenitas yang tinggi antar anggota klaster (within cluster) dan heterogenitas yang tinggi antar klaster yang satu dengan lainnnya (between cluster).

K-means clustering adalah algoritma unsupervised machine learning yang paling populer untuk membagi data menjadi k klaster, dengan k menunjukkan jumlah klaster yang ditentukan terlebih dahulu. Perhitungan cluster center menggunakan nilai rata-rata dari objek-objek dalam suatu klaster. Algoritma k-means clustering adalah

  1. Menentukan jumlah klaster (k) yang akan dibentuk.
  2. Mengambil secara random sejumlah objek (minimal k objek) untuk menjadi initial clusters atau rata-rata.
  3. Melakukan perhitungan euclidean distance untuk setiap objek dalam data terhadap initial clusters. Kemudian memasukkan setiap objek ke klaster terdekat.
  4. Menghitung rata-rata setiap klaster sebagai cluster center. Lakukan ulang memasukkan setiap objek ke klaster terdekat dengan menghitung euclidean distance ke cluster centers terbaru.
  5. Lakukan langkah 4 secara berulang hingga batas maksimum interasi atau tidak terjadi perbedaan hasil klaster.

Kemudian tentang k-medoids clustering; ini sama seperti k-means clustering. Perbedaan terletak pada cluster center yang menggunakan nilai median. Median merupakan nilai tengah dari data. Ini menjadi alternatif rata-rata yang sensitif terhadap data outlier atau ekstrim. Sehingga k-medoids clustering tidak bias terhadap data yang outlier dan ekstrim.

Adapun Clustering Large Application (CLARA) adalah pengembangan dari k-medoids clustering untuk menangani data besar (memiliki lebih dari ribuan observasi) untuk mengurangi computing time dan masalah RAM. CLARA tidak menemukan median dari semua data melainkan mengambil sampel secara berulang dengan ukuran yang sama dan melakukan clustering. Pengambilan secara berulang bergunan untuk meminimalkan bias pada sampel yang diambil.

Algoritma CLARA:

  • Membagi data secara random menjadi beberapa subsets dengan ukuran sampel sama.
  • Melakukan k-medoids clustering untuk setiap subsets dan pilih k objek yang mewakili median. Tetapkan setiap objek ke median terdekat.
  • Lakukan langkah 1 dan 2 secara berulang hingga batas iterasi yang ditentukan. Hasil klaster yang terbentuk adalah yang memiliki dissimilarity paling besar antar klasternya.

Pada metode analisis klaster hirarki dibentuk dekomposisi secara hirarki dari data yang diperoleh. Suatu metode hirarki dapat diklasifikasikan menjadi dua yaitu agglomerative dan divisive tergantung bagaimana dekomposisi hirarki terbentuk.

Agglomerative hierarchical methods (bottom-up strategy) dimulai dengan satu objek. Pada awalnya terdapat banyak klaster yaitu sebanyak objek, kemudian objek yang paling mirip dikelompokkan pertama kali dan kelompok awal tersebut digabung dengan kelompok lain berdasarkan tingkat kemiripannya. Semakin rendah tingkat kemiripan, maka semua sub kelompok digabung menjadi satu klaster tunggal. Divisive hierarchical methods (top-down strategy) bekerja berlawanan arah dengan agglomerative. Pada awalnya terdapat suatu kelompok tunggal dari objek pada data. kemudian kelompok tersebut dibagi menjadi dua sub kelompok sedemikian hingga objek-objek pada satu sub kelompok jauh dari objek-objek pada kelompok lain. Sub kelompok – sub kelompok tersebut kemudian dibagi ke dalam sub kelompok – sub kelompok yang berbeda, proses berlanjut hingga banyak kelompok sama dengan banyak objek atau dengan kata lain tiap objek membentuk satu kelompok. Hasil dari kedua metode tersebut, agglomerative maupun divisive dapat disajikan dalam suatu bentuk diagram yang disebut dendogram.

Dendrogram adalah hierarki bertingkat di mana cluster di satu tingkat digabungkan untuk membentuk cluster di tingkat berikutnya. Hal ini memungkinkan untuk memutuskan tingkat di mana untuk memotong pohon untuk menghasilkan kelompok objek data yang sesuai (Kassambra, 2017).

Algoritma Hierarchical Clustering digunakan untuk membentuk dendogram (Kassambra, 2017), kemudian untuk menghitung dissimilarity dalam setiap pasangan kombinasi objek di dalam kumpulan data. Menggunakan fungsi complete linkage untuk mengelompokkan objek ke dalam hierarchical cluster tree (dendogram), berdasarkan informasi jarak dari langkah 1. Objek yang berdekatan dihubungkan bersama menggunakan fungsi linkage. Kemudian guna menentukan dimana melakukan pemotongan hierarchical cluster tree (dendogram) menjadi beberapa kelompok. Hasil pemotongan tersebut merupakan klaster yang terbentuk.

Hierarchical K-Means Clustering merupakan penggabungan dari k-means clustering dengan hierarchical clustering. Kelemahan k-means clustering terletak pada penentuan intial cluster centers yang dilakukan secara random sehingga dimungkinkan terjadi perbedaan hasil ketika setiap kali melakukan analisis. Sehingga dikembangkan dengan initial cluster centers menggunakan hasil hierarchical clustering.

Terakhir adalah Fuzzy clustering yang dianggap sebagai soft clustering, dimana setiap objek memiliki peluang untuk masuk setiap klaster. Dengan kata lain, setiap elemen memiliki koefisien pada setiap klaster. Ini berbeda dengan misalnya k-means clustering atau k-medoids clustering. Dalam pengelompokan fuzzy, titik-titik yang dekat dengan pusat sebuah klasster, memiliki derajat yang lebih tinggi daripada titik-titik di tepi cluster. Derajat, di mana suatu elemen termasuk dalam cluster tertentu, adalah nilai numerik yang bervariasi dari 0 hingga 1. Algoritma fuzzy c-means (FCM) merupakan salah satu algoritma fuzzy clustering yang paling banyak digunakan.

Data

Indeks Pembangunan Manusia (IPM) adalah indeks yang mengukur pembangunan manusia dari tiga aspek dasar yaitu umur panjang dan hidup sehat; pengetahuan; dan standar hidup layak. IPM memiliki tiga dimensi pengukuran. Dimensi umur panjang dan hidup sehat yang diukur melalui Angka Harapan Hidup (AHH). Dimensi pengetahuan yang diukur melalui Harapan Lama Sekolah (EYS) dan Rata-Rata Lama Sekolah (MYS). Dimensi Standar Hidup Layak penduduk yang diukur melalui Pengeluaran per Kapita yang disesuaikan atau purchasing power parity (PPP).

Membuat Visualisasi Korelasi AHH, EYS, MYS, dan PPP

Grafik Korelasi

Gambar diatas menyajikan seberapa besar keeratan hubungan antarvariabel komponen IPM, atau biasa disebut korelasi antarvariabel. Korelasi memiliki interval -1 hingga 1. Semakin mendekati 1 maka semakin berkorelasi positif, semakin mendekat -1 maka semakin berkorelasi negatif, sedangkan semakin dekat dengan 0 maka semakin tidak berkorelasi. Pada gambar diatas, semakin besar lingkaran dan berwarna biru gelap maka semakin berkorelasi positif kuat (mendekati 1), begitu juga sebaliknya. Semakin kecil lingkaran maka semakin kecil korelasinya. Menarik melihat tinggi keeratan hubungan antara MYS dan PPP. Sedangkan ada korelasi rendah antara AHH dengan EYS, artinya tidak ada keeratan hubungan antara AHH dengan EYS. Korelasi ini berfungsi untuk eksplorasi awal seberapa hubungan antardata.

Grafik Heatmap

Heatmap adalah cara lain visualisasi data dengan mengubah angka menjadi tingkatan warna. Heatmap efektif untuk melihat jarak (distance) antar objek dalam data. Gambar diatas merupakan visualisasi heatmap euclidean distance antar kabupaten/kota. Euclidean distance ini dihitung dengan data AHH, MYS, EYS, dan PPP. Semakin berwarna gelap biru maka semakin jauh jaraknya, sebaliknya semakin merah muda maka semakin dekat jaraknya. Paling mencolok, distance antara Kota Makassar dengan kabupaten lainnya, terutama dengan Kabupaten Jeneponto yang menunjukkan ketimpangan yang tinggi antara Kabupaten Sampang dengan Kota Surabaya. Sedangkan antarkota seperti Surabaya, Malang, dan Madiun terlihat memiliki distance lebih dekat. Heatmap dapat menjadi indikasi awal mana saja kabupaten/kota yang memiliki distance dekat dan yang jauh.

Perhitungan clustering dengan beberapa metode, yaitu K-Means ClusteringK-MedoidsClustering Large Application (CLARA), Agglomerative ClusteringHierarchical K-Means Clustering, dan Fuzzy Clustering. Beberapa metode tersebut akan memberikan performa yang berbeda-beda, performa dikatakan lebih baik ketika memiliki nilai average silhouette yang lebih tinggi. Sehingga peneliti melakukan perbandingan setiap metode untuk rentang jumlah klaster dari 2 hingga 15.

Grafik Silhouettes

Ditampilkan perbandingan average silhouette untuk setiap metode clustering dan menurut rentang jumlah klaster 2 hingga 15 seperti pada gambar diatas. Average silhouette memiliki rentang 1 hingga -1, jika semakin tinggi nilainya (mendekati 1) semakin baik hasil klasternya. Ketika dibentuk 2 klaster, semua metode menghasilkan average silhouette mirip kecuali fuzzy clustering (warna hitam). Namun saat dibentuk lebih dari 2 klaster menghasilkan average silhouette yang berbeda-beda. Fuzzy clustering tidak konvergen pada jumlah klaster 5, 9, 12, 13, 14, dan 15 sehingga tidak dapat dihitung average silhouette.

Grafik Clustering

Empat klaster diatas bukan untuk diperbandingkan mana yang tinggi nilainya dan mana yang rendah, melainkan untuk mengenali karakteristik dan ciri khasnya. Tentu diperlukan tindak lanjut yang berbeda pada setiap klaster. Kabupaten/kota dalam satu klaster bisa melakukan sinergi dalam program pembangunan manusia dikarenakan memiliki kemiripan karakteristik. Tidak disarankan mengambil kebijakan yang sama dari klaster yang berbeda.

Grafik PCA

Gambar diatas dibentuk dari 2 kombinasi linier UHH, HLS, RLS, dan PPP untuk setiap kabupaten/kota yang dapat menjelaskan data sebesar 82,1%. Dua kombinasi linier ini diperoleh dari Principal Component Analysis (PCA).

********* SEMOGA BERMANFAAT *********

 

Leave a Reply

Your email address will not be published. Required fields are marked *