fbpx

Apa Itu Classification dalam Data Science?

1 Maret 2022

Untuk menemukan pola tertentu dalam suatu data, para data scientists memanfaatkan berbagai metode. Salah satunya adalah data classification atau klasifikasi data. Apa sebenarnya yang dimaksud dengan classification ini?

Apa itu classification?

Seperti pada pengertian umumnya, classification berarti proses pengelompokan. Dalam pengertian data science, classification kemudian dipahami sebagai proses pengelompokan data ke dalam beberapa kategori agar lebih mudah untuk diolah dan dianalisis.

Contoh penerapan classification sebenarnya sangat dekat dengan kehidupan sehari-hari. Salah satunya adalah saat Anda menggunakan email. Pada email, terdapat satu kategori yang disebut spam. Isinya adalah pesan-pesan yang dianggap tidak penting. Nah, untuk bisa memilah mana pesan spam dan mana yang bukan, dipakailah classification ini.

Pada contoh tersebut, classifier atau penggolong yang ada pada email dilatih untuk mengenali variabel-variabel penanda email spam. Dengan begitu, sistem bisa memilah mana yang termasuk spam dan mana yang bukan.

Tipe-tipe classification

Setidaknya ada tiga jenis classification yang sering digunakan dalam data science, yaitu:

1. Content-based classification

Klasifikasi tipe satu ini berbasis konten, Pada tipe ini, pengelompokan data didasarkan pada jenis konten tiap file yang tersedia.

2. User-based classification

Seperti namanya, classification ini menitikberatkan pada pengguna, tepatnya pemahaman pengguna terhadap pembuatan, penyuntingan, peninjauan, atau penyebaran data. Dari situ, kemudian bisa diketahui kategori yang tepat untuk data. Intinya, pengguna menentukan kategori terhadap data yang ada.

3. Context-based classification

Jika tadi ada klasifikasi berbasis konten, kali ini ada klasifikasi berbasis konteks. Artinya, proses pengelompokan mengandalkan konteks yang melekat pada data, misalnya lokasi, jenis aplikasi yang digunakan, bahkan pencipta data.

Contoh algoritma dalam classification

Untuk bisa berjalan, classification memerlukan algoritma tertentu. Berikut adalah beberapa jenis algoritma yang kerap digunakan:

1. Logistic regression

Bisa dibilang, inilah jenis algoritma yang paling dasar dalam proses classification. Meski begitu, keberadaannya sulit untuk digantikan. Dalam algoritma ini, klasifikasi data dilakukan dengan menemukan hubungan antara satu variabel dependen dengan satu (atau lebih) variabel independen.

2. K-nearest neighbors

Berikutnya ada algoritma K-nearest neighbors atau lebih sering disebut KNN. Sederhananya, algoritma ini mengikuti prinsip kemiripan data. Data akan dikelompokkan dalam satu kategori yang sama jika ditemukan beberapa kemiripan.

K sendiri di sini berarti jumlah “tetangga” atau data di sekitar yang memiliki kemiripan sehingga bisa dipertimbangkan. Untuk bisa memilih K yang tepat, coba jalankan algoritma ini dengan nilai K yang berbeda. Pilihlah nilai dengan kesalahan yang paling minimal.

3. Naive Bayes

Naive Bayes merupakan suatu algoritma yang dibuat berdasarkan Teorema Bayes. Dalam teorema tersebut, diketahui bahwa asumsi harus berubah secara subjektif jika muncul fakta baru. Saat dijadikan dasar algoritma, Naive Bayes berasumsi bahwa kehadiran variabel tertentu pada kelas tidak terkait dengan keberadaan variabel lain. Algoritma ini memiliki tiga classifier, yaitu Bernoulli Naive Bayes, Gaussian Naive Bayes, dan Multinomial Naive Bayes.

 4. Decision tree

Decision tree merupakanmodel yang terinspirasi oleh bagaimana neuron dalam otak manusia bekerja. Tiap neuron pada otak manusia saling berhubungan dan informasi mengalir dari setiap neuron tersebut.

 Jika diilustrasikan, decision tree memiliki beberapa cabang. Nah, cabang-cabang tersebut mewakili keputusan (decision) yang diambil. Sedangkan, simpul-simpul yang mengaitkan cabang merupakan atribut data. Di sisi lain, hasil keputusan diwakili oleh daun. Hasil tersebut bisa berupa nilai kategoris (untuk klasifikasi data) atau kontinu (regresi data).

5. Random forest

Terakhir ada random forest. Bisa dibilang, algoritma ini merupakan kelanjutan dari algoritma decision tree. Sebab, dalam algoritma ini terdapat kumpulan decision tree untuk membantu proses classification terhadap data. Oleh karenanya, algoritma ini pun dapat digunakan dalam analisis regresi selain dalam classification.

6.  Neural network

Selanjutnya ada algoritma neural network. Disebut demikian karena algoritma ini memang mirip dengan sistem saraf otak manusia. Dalam neural network, terdapat satu set unit input atau output yang saling terkoneksi. Masing-masing koneksi tersebut punya bobot tertentu. Pada fase pembelajaran, koneksi tersebut akan mengupdate bobotnya sehingga mampu memprediksi kategori data.

Kesimpulan 

Classification dalam data science berarti proses memprediksi kelas atau kategori data dengan memanfaatkan nilai yang ada pada data. Algoritma machine learning sendiri dibagi menjadi dua, yaitu supervised dan unsupervised learning. Classification termasuk dalam algoritma supervised learning, selain classification terdapat regression dan forecasting. Algoritma yang digunakan dalam classification sendiri sangat beragam. Anda bisa memilih antara logistic regression, random forest, dan lain-lain. 

Proses classification pada dasarnya dilakukan agar analisis data menjadi lebih mudah dan tentunya memberikan hasil yang akurat. Agar bisa memberikan suatu informasi yang bermanfaat, data memang memerlukan proses panjang.

Tertarik untuk mempelajari tiap tahapan dalam data analysis hingga menghasilkan informasi? Anda bisa belajar lewat kelas data science dari Algoritma Data Science School. Kelas yang ditawarkan variatif, Anda bisa memilih materi yang diinginkan atau dari tingkat keahlian. Informasi selengkapnya, klik di sini!

Referensi:

  • analyticsvidhya – 5 Classification Algorithms you should know – introductory guide!
  • levity -What is data classification: types, applications, and best practices
  • towardsdatascience – Machine Learning Classifiers

Yuk belajar data science di Algoritma Data Science Education Center! Kamu bisa ikut berbagai kelas data science untuk pemula, salah satunya di program Academy kami.

PELAJARI LEBIH LANJUT

The last comment needs to be approved.

Related Blog

Distributed Processing
Apa Itu Data Analysis Expressions?
jadi data scientist
Cara Menjadi Data Scientist Handal
Distributed Processing
Mengenal Apa Itu Distributed Processing

Untuk menemukan pola tertentu dalam suatu data, para data scientists memanfaatkan berbagai metode. Salah satunya adalah data classification atau klasifikasi data. Apa sebenarnya yang dimaksud dengan classification ini?

Apa itu classification?

Seperti pada pengertian umumnya, classification berarti proses pengelompokan. Dalam pengertian data science, classification kemudian dipahami sebagai proses pengelompokan data ke dalam beberapa kategori agar lebih mudah untuk diolah dan dianalisis.

Contoh penerapan classification sebenarnya sangat dekat dengan kehidupan sehari-hari. Salah satunya adalah saat Anda menggunakan email. Pada email, terdapat satu kategori yang disebut spam. Isinya adalah pesan-pesan yang dianggap tidak penting. Nah, untuk bisa memilah mana pesan spam dan mana yang bukan, dipakailah classification ini.

Pada contoh tersebut, classifier atau penggolong yang ada pada email dilatih untuk mengenali variabel-variabel penanda email spam. Dengan begitu, sistem bisa memilah mana yang termasuk spam dan mana yang bukan.

Tipe-tipe classification

Setidaknya ada tiga jenis classification yang sering digunakan dalam data science, yaitu:

1. Content-based classification

Klasifikasi tipe satu ini berbasis konten, Pada tipe ini, pengelompokan data didasarkan pada jenis konten tiap file yang tersedia.

2. User-based classification

Seperti namanya, classification ini menitikberatkan pada pengguna, tepatnya pemahaman pengguna terhadap pembuatan, penyuntingan, peninjauan, atau penyebaran data. Dari situ, kemudian bisa diketahui kategori yang tepat untuk data. Intinya, pengguna menentukan kategori terhadap data yang ada.

3. Context-based classification

Jika tadi ada klasifikasi berbasis konten, kali ini ada klasifikasi berbasis konteks. Artinya, proses pengelompokan mengandalkan konteks yang melekat pada data, misalnya lokasi, jenis aplikasi yang digunakan, bahkan pencipta data.

Contoh algoritma dalam classification

Untuk bisa berjalan, classification memerlukan algoritma tertentu. Berikut adalah beberapa jenis algoritma yang kerap digunakan:

1. Logistic regression

Bisa dibilang, inilah jenis algoritma yang paling dasar dalam proses classification. Meski begitu, keberadaannya sulit untuk digantikan. Dalam algoritma ini, klasifikasi data dilakukan dengan menemukan hubungan antara satu variabel dependen dengan satu (atau lebih) variabel independen.

2. K-nearest neighbors

Berikutnya ada algoritma K-nearest neighbors atau lebih sering disebut KNN. Sederhananya, algoritma ini mengikuti prinsip kemiripan data. Data akan dikelompokkan dalam satu kategori yang sama jika ditemukan beberapa kemiripan.

K sendiri di sini berarti jumlah “tetangga” atau data di sekitar yang memiliki kemiripan sehingga bisa dipertimbangkan. Untuk bisa memilih K yang tepat, coba jalankan algoritma ini dengan nilai K yang berbeda. Pilihlah nilai dengan kesalahan yang paling minimal.

3. Naive Bayes

Naive Bayes merupakan suatu algoritma yang dibuat berdasarkan Teorema Bayes. Dalam teorema tersebut, diketahui bahwa asumsi harus berubah secara subjektif jika muncul fakta baru. Saat dijadikan dasar algoritma, Naive Bayes berasumsi bahwa kehadiran variabel tertentu pada kelas tidak terkait dengan keberadaan variabel lain. Algoritma ini memiliki tiga classifier, yaitu Bernoulli Naive Bayes, Gaussian Naive Bayes, dan Multinomial Naive Bayes.

 4. Decision tree

Decision tree merupakanmodel yang terinspirasi oleh bagaimana neuron dalam otak manusia bekerja. Tiap neuron pada otak manusia saling berhubungan dan informasi mengalir dari setiap neuron tersebut.

 Jika diilustrasikan, decision tree memiliki beberapa cabang. Nah, cabang-cabang tersebut mewakili keputusan (decision) yang diambil. Sedangkan, simpul-simpul yang mengaitkan cabang merupakan atribut data. Di sisi lain, hasil keputusan diwakili oleh daun. Hasil tersebut bisa berupa nilai kategoris (untuk klasifikasi data) atau kontinu (regresi data).

5. Random forest

Terakhir ada random forest. Bisa dibilang, algoritma ini merupakan kelanjutan dari algoritma decision tree. Sebab, dalam algoritma ini terdapat kumpulan decision tree untuk membantu proses classification terhadap data. Oleh karenanya, algoritma ini pun dapat digunakan dalam analisis regresi selain dalam classification.

6.  Neural network

Selanjutnya ada algoritma neural network. Disebut demikian karena algoritma ini memang mirip dengan sistem saraf otak manusia. Dalam neural network, terdapat satu set unit input atau output yang saling terkoneksi. Masing-masing koneksi tersebut punya bobot tertentu. Pada fase pembelajaran, koneksi tersebut akan mengupdate bobotnya sehingga mampu memprediksi kategori data.

Kesimpulan 

Classification dalam data science berarti proses memprediksi kelas atau kategori data dengan memanfaatkan nilai yang ada pada data. Algoritma machine learning sendiri dibagi menjadi dua, yaitu supervised dan unsupervised learning. Classification termasuk dalam algoritma supervised learning, selain classification terdapat regression dan forecasting. Algoritma yang digunakan dalam classification sendiri sangat beragam. Anda bisa memilih antara logistic regression, random forest, dan lain-lain. 

Proses classification pada dasarnya dilakukan agar analisis data menjadi lebih mudah dan tentunya memberikan hasil yang akurat. Agar bisa memberikan suatu informasi yang bermanfaat, data memang memerlukan proses panjang.

Tertarik untuk mempelajari tiap tahapan dalam data analysis hingga menghasilkan informasi? Anda bisa belajar lewat kelas data science dari Algoritma Data Science School. Kelas yang ditawarkan variatif, Anda bisa memilih materi yang diinginkan atau dari tingkat keahlian. Informasi selengkapnya, klik di sini!

Referensi:

  • analyticsvidhya – 5 Classification Algorithms you should know – introductory guide!
  • levity -What is data classification: types, applications, and best practices
  • towardsdatascience – Machine Learning Classifiers

Yuk belajar data science di Algoritma Data Science Education Center! Kamu bisa ikut berbagai kelas data science untuk pemula, salah satunya di program Academy kami.

PELAJARI LEBIH LANJUT

Related Blog

Real Time Processing
Perbedaan Batch Processing dan Real Time Processing
Metode Pengolahan Data
Tipe, Langkah, dan Metode Pengolahan Data
Batch Processing
Mengenal Batch Processing dan Implementasinya
The last comment needs to be approved.