fbpx

k means clustering

K Means Clustering

Mengenal Unstructured Data

29 Maret 2022

K Means Clustering adalah salah satu jenis unsupervised learning. Biasanya, metode ini diterapkan saat Anda memiliki data yang belum dilabeli atau data yang tidak bisa dimasukkan dalam kelompok mana pun. Bagaimana metode K Means Clustering ini dapat membantu data scientist dalam mengelompokkan data? Mari pelajari caranya berikut!

Pengertian K Means Clustering

Pembelajaran machine learning ada banyak sekali jenisnya. Metode pembelajaran machine learning kemudian dikelompokkan dalam dua kelas besar, yaitu supervised dan unsupervised learning. Keduanya juga kemudian bercabang menjadi beberapa metode kecil. Nah, K Means Clustering adalah salah satu jenis algoritma unsupervised learning.

Secara garis besar, fungsi K Means Clustering adalah menentukan kelompok-kelompok dalam set data. Caranya adalah dengan melihat jumlah grup yang diwakili variabel K. Untuk bisa mengelompokkan data, algoritma ini bekerja secara berulang (iteratif) dari setiap titik data ke grup K yang telah dibuat. Umumnya, data akan dikelompokkan menurut kesamaan fitur. Semakin mirip fitur yang dimiliki suatu data, maka makin besar peluangnya untuk berada dalam satu kelompok.

Cara kerja K Means Clustering

Untuk bisa mengelompokkan titik data, algoritma K Means Clustering dimulai dengan menentukan titik awal. Biasanya, titik awal ini dipilih secara acak mengikuti centroid (posisi rata-rata dari keseluruhan titik data). Setelah itu, algoritma akan menentukan titik awal masing-masing klaster atau kelompok.

Agar titik awal semakin presisi dan centroid tetap stabil, maka algoritma akan mulai melakukan perhitungan berulang. Proses tersebut akan berhenti secara otomatis jika centroid telah stabil (tidak terjadi perubahan nilai) atau karena jumlah iterasi yang ditentukan di awal proses sudah tercapai.

Hal yang perlu dipertimbangkan

Sebelum Anda menerapkan algoritma K Means Clustering, sebaiknya pertimbangkanlah hal-hal berikut ini:

1. Semakin banyak variabel, semakin jauh titik data

Saat Anda bekerja dengan data sungguhan, akan ada banyak sekali variabel yang masuk, bahkan setelah proses standarisasi. Dalam algoritma K Means Clustering, hal ini akan menyebabkan jarak antar-titik data semakin jauh.

Jika Anda mengalami hal ini, solusi paling efisien adalah melakukan reduksi data (misalnya dengan teknik principal components analysis). Dengan reduksi data, maka akan muncul variabel data yang lebih sesuai.

2. Nilai yang lebih tinggi juga lebih berat

Tiap data kemungkinan besar tidak memiliki berat yang sama. Katakanlah Anda sedang menganalisis penjualan pakaian di sebuah toko online. Data yang memuat jumlah penjualan pakaian selama promo flash sale akan jauh berbeda dari data yang memuat kategori warna pakaian. Deret data penjualan akan memiliki bobot lebih besar dari deret data warna pakaian di toko.

Untuk mengatasinya, Anda bisa melakukan metode normalisasi. Ada beberapa metode normalisasi yang umum diterapkan dalam K Means Clustering, yaitu normalisasi z-score serta normalisasi min-max.

3. Bekerja paling baik pada data numerik

K Means Clustering pada dasarnya menghitung jarak di antara dua titik data. Oleh karenanya, algoritma ini kurang cocok jika diterapkan pada data dengan variabel kategori. Apabila Anda memang harus memasukkan variabel kategori, sebaiknya hitung lebih dulu kecocokan tiap variabel dengan centroid.

Penggunaan K Means Clustering pada bisnis

K Means Clustering adalah salah satu jenis algoritma unsupervised learning yang digunakan secara luas, termasuk dalam bidang bisnis. Dalam bidang bisnis, algoritma ini dapat dimanfaatkan untuk menentukan segmentasi pasar. Segmentasi pasar sendiri merupakan pengelompokan konsumen menurut kriteria tertentu, misalnya dari segi usia atau jumlah pendapatan.

Selain itu, K Means Clustering juga bisa dimanfaatkan untuk merancang sistem rekomendasi sederhana. Dengan sistem pengelompokannya, algoritma ini akan membaca data pelanggan dan mengelompokkannya. Dengan begitu, data bisa dijadikan dasar pembuatan sistem rekomendasi sederhana untuk membaca permintaan pelanggan.

Kesimpulan

K Means Clustering adalah salah satu algoritma dalam metode unsupervised learning. Algoritma ini digunakan untuk menganalisis data dengan melakukan pengelompokan. Sebelum menerapkan algoritma ini, sebaiknya Anda memperhatikan beberapa hal, termasuk jenis variabel yang akan dianalisis. Sebab, K Means Clustering lebih cocok diterapkan pada variabel data numerik.

K Means Clustering akan lebih mudah dipahami jika Anda melakukan praktik secara rutin. Ingin mempelajari algoritma ini lebih jauh? Atau Anda memang tertarik dengan topik machine learning? Algoritma Data Science School menyediakan kelas machine learning dengan jadwal fleksibel menyesuaikan kesibukan Anda. Untuk informasi selengkapnya, silakan klik di sini!

Referensi:

Yuk belajar data science di Algoritma Data Science Education Center! Kamu bisa ikut berbagai kelas data science untuk pemula, salah satunya di program Academy kami.

PELAJARI LEBIH LANJUT

Related Blog

Distributed Processing
Apa Itu Data Analysis Expressions?
jadi data scientist
Cara Menjadi Data Scientist Handal
Distributed Processing
Mengenal Apa Itu Distributed Processing

K Means Clustering adalah salah satu jenis unsupervised learning. Biasanya, metode ini diterapkan saat Anda memiliki data yang belum dilabeli atau data yang tidak bisa dimasukkan dalam kelompok mana pun. Bagaimana metode K Means Clustering ini dapat membantu data scientist dalam mengelompokkan data? Mari pelajari caranya berikut!

Pengertian K Means Clustering

Pembelajaran machine learning ada banyak sekali jenisnya. Metode pembelajaran machine learning kemudian dikelompokkan dalam dua kelas besar, yaitu supervised dan unsupervised learning. Keduanya juga kemudian bercabang menjadi beberapa metode kecil. Nah, K Means Clustering adalah salah satu jenis algoritma unsupervised learning.

Secara garis besar, fungsi K Means Clustering adalah menentukan kelompok-kelompok dalam set data. Caranya adalah dengan melihat jumlah grup yang diwakili variabel K. Untuk bisa mengelompokkan data, algoritma ini bekerja secara berulang (iteratif) dari setiap titik data ke grup K yang telah dibuat. Umumnya, data akan dikelompokkan menurut kesamaan fitur. Semakin mirip fitur yang dimiliki suatu data, maka makin besar peluangnya untuk berada dalam satu kelompok.

Cara kerja K Means Clustering

Untuk bisa mengelompokkan titik data, algoritma K Means Clustering dimulai dengan menentukan titik awal. Biasanya, titik awal ini dipilih secara acak mengikuti centroid (posisi rata-rata dari keseluruhan titik data). Setelah itu, algoritma akan menentukan titik awal masing-masing klaster atau kelompok.

Agar titik awal semakin presisi dan centroid tetap stabil, maka algoritma akan mulai melakukan perhitungan berulang. Proses tersebut akan berhenti secara otomatis jika centroid telah stabil (tidak terjadi perubahan nilai) atau karena jumlah iterasi yang ditentukan di awal proses sudah tercapai.

Hal yang perlu dipertimbangkan

Sebelum Anda menerapkan algoritma K Means Clustering, sebaiknya pertimbangkanlah hal-hal berikut ini:

1. Semakin banyak variabel, semakin jauh titik data

Saat Anda bekerja dengan data sungguhan, akan ada banyak sekali variabel yang masuk, bahkan setelah proses standarisasi. Dalam algoritma K Means Clustering, hal ini akan menyebabkan jarak antar-titik data semakin jauh.

Jika Anda mengalami hal ini, solusi paling efisien adalah melakukan reduksi data (misalnya dengan teknik principal components analysis). Dengan reduksi data, maka akan muncul variabel data yang lebih sesuai.

2. Nilai yang lebih tinggi juga lebih berat

Tiap data kemungkinan besar tidak memiliki berat yang sama. Katakanlah Anda sedang menganalisis penjualan pakaian di sebuah toko online. Data yang memuat jumlah penjualan pakaian selama promo flash sale akan jauh berbeda dari data yang memuat kategori warna pakaian. Deret data penjualan akan memiliki bobot lebih besar dari deret data warna pakaian di toko.

Untuk mengatasinya, Anda bisa melakukan metode normalisasi. Ada beberapa metode normalisasi yang umum diterapkan dalam K Means Clustering, yaitu normalisasi z-score serta normalisasi min-max.

3. Bekerja paling baik pada data numerik

K Means Clustering pada dasarnya menghitung jarak di antara dua titik data. Oleh karenanya, algoritma ini kurang cocok jika diterapkan pada data dengan variabel kategori. Apabila Anda memang harus memasukkan variabel kategori, sebaiknya hitung lebih dulu kecocokan tiap variabel dengan centroid.

Penggunaan K Means Clustering pada bisnis

K Means Clustering adalah salah satu jenis algoritma unsupervised learning yang digunakan secara luas, termasuk dalam bidang bisnis. Dalam bidang bisnis, algoritma ini dapat dimanfaatkan untuk menentukan segmentasi pasar. Segmentasi pasar sendiri merupakan pengelompokan konsumen menurut kriteria tertentu, misalnya dari segi usia atau jumlah pendapatan.

Selain itu, K Means Clustering juga bisa dimanfaatkan untuk merancang sistem rekomendasi sederhana. Dengan sistem pengelompokannya, algoritma ini akan membaca data pelanggan dan mengelompokkannya. Dengan begitu, data bisa dijadikan dasar pembuatan sistem rekomendasi sederhana untuk membaca permintaan pelanggan.

Kesimpulan

K Means Clustering adalah salah satu algoritma dalam metode unsupervised learning. Algoritma ini digunakan untuk menganalisis data dengan melakukan pengelompokan. Sebelum menerapkan algoritma ini, sebaiknya Anda memperhatikan beberapa hal, termasuk jenis variabel yang akan dianalisis. Sebab, K Means Clustering lebih cocok diterapkan pada variabel data numerik.

K Means Clustering akan lebih mudah dipahami jika Anda melakukan praktik secara rutin. Ingin mempelajari algoritma ini lebih jauh? Atau Anda memang tertarik dengan topik machine learning? Algoritma Data Science School menyediakan kelas machine learning dengan jadwal fleksibel menyesuaikan kesibukan Anda. Untuk informasi selengkapnya, silakan klik di sini!

Referensi:

Yuk belajar data science di Algoritma Data Science Education Center! Kamu bisa ikut berbagai kelas data science untuk pemula, salah satunya di program Academy kami.

PELAJARI LEBIH LANJUT

Related Blog

Real Time Processing
Perbedaan Batch Processing dan Real Time Processing
Metode Pengolahan Data
Tipe, Langkah, dan Metode Pengolahan Data
Batch Processing
Mengenal Batch Processing dan Implementasinya