fbpx
missing value

Cara Menangani Missing Value

17 Februari 2022

Saat berhadapan dengan data, para data scientist sering kali dihadapkan dengan yang namanya missing value. Secara garis besar, missing value akan memengaruhi kinerja Anda dan harus ada langkah khusus yang perlu diambil untuk mengatasinya. Untuk itu, artikel ini akan memberikan cara-cara menangani missing value yang sering dihadapi oleh para data scientist. Sebelum melangkah lebih jauh, ketahui dulu apa yang disebut sebagai missing value.

Apa itu missing value?

Missing value adalah peristiwa hilang atau tidak terbacanya data. Peristiwa ini sering ditemui oleh data scientist saat menangani data science. Biasanya, data-data yang tidak dapat terdeteksi akan disimbolkan dengan “NaN” atau hanya dalam bentuk tanda baca, yaitu tanda tanya “?”. Tidak jarang juga, data yang tidak terdeteksi akan ditampilkan sebagai blank cell yang tidak ada nilainya sama sekali.

Pentingnya memperbaiki missing value

Sebagai seorang data scientist atau ahli data, penting bagi Anda untuk mengetahui bagaimana cara mengatasi atau memperbaiki data yang hilang atau tidak terbaca. Missing value yang tidak diatasi dapat menimbulkan perubahan hasil analisis. Pada akhirnya, data-data yang memuatnya bisa memberikan kesimpulan yang berbeda dibandingkan dengan data yang telah dibersihkan atau dibenahi.

Masalah akibat missing value

Missing value yang tidak diatasi dapat menyebabkan kesalahan hasil analisis dan kesimpulan yang tidak sesuai dengan yang diharapkan. Selain itu, ada beberapa mesin algoritma yang tidak memperbolehkan adanya missing value dalam sebuah data. Sehingga, data scientist harus bekerja untuk membersihkan dan membenahi kesalahan-kesalahan tersebut. Untuk mengatasinya, perlu diketahui mengapa dan di mana data tersebut hilang.

Cara menghadapi missing value untuk pemula

Ada beberapa hal yang bisa dilakukan ketika menemukan missing value pada project data science. Berikut adalah cara-cara yang bisa Anda terapkan.

Cek ulang sumber data

Langkah pertama yang harus Anda lakukan adalah melakukan pengecekan ulang terhadap data yang hilang. Dengan melakukan langkah ini, Anda akan mampu mengumpulkan kembali data-data tersebut. Itu berarti, Anda juga harus menganalisis di mana data tersebut kemungkinan hilang dan tidak sesuai format yang ditentukan. 

Misalnya, apabila data tersebut dikumpulkan secara kolektif oleh kelompok, pastikan semua anggota dapat melakukan pengecekan terhadap data yang hilang dan mengumpulkannya bersama-sama sampai data menampilkan hal yang seharusnya ada. Pekerjaan kolektif tentu akan lebih sulit manajemennya karena melibatkan lebih banyak orang.

Menghapus missing value

Cara berikutnya yang bisa Anda lakukan adalah dengan menghapusnya. Cara ini mengharuskan Anda untuk menghapus kolom atau variabel yang mengandung kesalahan. Untuk itu, penting memastikan bahwa data-data yang dihapus bukan merupakan variabel terpenting dari sebuah kumpulan data. 

Cara ini mungkin terlihat mudah bagi Anda karena hanya perlu melakukan penghapusan pada data-data yang salah dan hilang. Akan tetapi, apabila data yang Anda kerjakan berjumlah besar, tentu menghapusnya menjadi pekerjaan yang rumit. Semakin banyak data, semakin banyak tinggi pula risiko yang dimilikinya.

Artinya, jika data dalam jumlah besar, kemungkinan sebuah data mengalami missing value juga besar. Apabila solusi yang Anda terapkan hanya dengan menghapus data-data tersebut, tentu ini bukan pekerjaan yang efisien. Jadi, akan lebih baik apabila Anda melakukan analisis mengapa data-data tersebut hilang dan di mana Anda bisa menemukannya kembali.

Imputation

Langkah berikutnya yang bisa Anda tempuh adalah dengan melakukan imputation. Imputation adalah metode untuk menghitung kembali nilai yang hilang dari sebuah data. Sehingga, data yang menampilkan “NaN”, “?”, atau blank cell dapat terisi kembali dengan melakukan cara ini. Ada beberapa cara yang bisa Anda lakukan pada imputation atau menghitung kembali nilai data.

Untuk menemukan nilai data yang hilang, Anda bisa menghitung nilai tetap, mean, median, dan lain-lain. Cara tersebut dapat dibilang cukup mudah. Akan tetapi, risiko biasnya pun tinggi, apalagi terhadap data-data yang berjumlah banyak. Bias yang terdapat pada data akan memengaruhi analisis dan hasil akhir atau kesimpulan.

Cara lain yang bisa Anda lakukan adalah dengan mencari kemiripan pada data yang hilang. Kemudian, Anda menggantinya dengan data yang dianggap mirip tersebut. Pada akhirnya, semua cara yang dilakukan untuk menanganinya dapat Anda pilih sesuai kebutuhan, apakah data set berjumlah besar, kecil, dan sebagainya.

Kesimpulan

Berdasarkan penjelasan di atas, missing value adalah peristiwa hilang atau tidak terbacanya data. Hal ini sering ditemui oleh para data scientist dan harus segera diatasi karena akan memengaruhi proses analisis dan hasil akhir atau kesimpulan. Untuk mengatasinya, cara-cara di atas dapat Anda terapkan apabila sedang menghadapi missing value pada project data science.

Jika ingin lebih mendalami tentang data science, ikuti berbagai program terkait seperti Algoritma Data Science School! Berbagai program, baik secara individu maupun korporat, telah disediakan dengan kurikulum yang telah diakui oleh RStudio. Informasi lebih lengkap mengenai Algoritma Data Science School, klik di sini!

Referensi:

Yuk belajar data science di Algoritma Data Science Education Center! Kamu bisa ikut berbagai kelas data science untuk pemula, salah satunya di program Academy kami.

PELAJARI LEBIH LANJUT

The last comment needs to be approved.

Related Blog

Distributed Processing
Apa Itu Data Analysis Expressions?
jadi data scientist
Cara Menjadi Data Scientist Handal
Distributed Processing
Mengenal Apa Itu Distributed Processing

Saat berhadapan dengan data, para data scientist sering kali dihadapkan dengan yang namanya missing value. Secara garis besar, missing value akan memengaruhi kinerja Anda dan harus ada langkah khusus yang perlu diambil untuk mengatasinya. Untuk itu, artikel ini akan memberikan cara-cara menangani missing value yang sering dihadapi oleh para data scientist. Sebelum melangkah lebih jauh, ketahui dulu apa yang disebut sebagai missing value.

Apa itu missing value?

Missing value adalah peristiwa hilang atau tidak terbacanya data. Peristiwa ini sering ditemui oleh data scientist saat menangani data science. Biasanya, data-data yang tidak dapat terdeteksi akan disimbolkan dengan “NaN” atau hanya dalam bentuk tanda baca, yaitu tanda tanya “?”. Tidak jarang juga, data yang tidak terdeteksi akan ditampilkan sebagai blank cell yang tidak ada nilainya sama sekali.

Pentingnya memperbaiki missing value

Sebagai seorang data scientist atau ahli data, penting bagi Anda untuk mengetahui bagaimana cara mengatasi atau memperbaiki data yang hilang atau tidak terbaca. Missing value yang tidak diatasi dapat menimbulkan perubahan hasil analisis. Pada akhirnya, data-data yang memuatnya bisa memberikan kesimpulan yang berbeda dibandingkan dengan data yang telah dibersihkan atau dibenahi.

Masalah akibat missing value

Missing value yang tidak diatasi dapat menyebabkan kesalahan hasil analisis dan kesimpulan yang tidak sesuai dengan yang diharapkan. Selain itu, ada beberapa mesin algoritma yang tidak memperbolehkan adanya missing value dalam sebuah data. Sehingga, data scientist harus bekerja untuk membersihkan dan membenahi kesalahan-kesalahan tersebut. Untuk mengatasinya, perlu diketahui mengapa dan di mana data tersebut hilang.

Cara menghadapi missing value untuk pemula

Ada beberapa hal yang bisa dilakukan ketika menemukan missing value pada project data science. Berikut adalah cara-cara yang bisa Anda terapkan.

Cek ulang sumber data

Langkah pertama yang harus Anda lakukan adalah melakukan pengecekan ulang terhadap data yang hilang. Dengan melakukan langkah ini, Anda akan mampu mengumpulkan kembali data-data tersebut. Itu berarti, Anda juga harus menganalisis di mana data tersebut kemungkinan hilang dan tidak sesuai format yang ditentukan. 

Misalnya, apabila data tersebut dikumpulkan secara kolektif oleh kelompok, pastikan semua anggota dapat melakukan pengecekan terhadap data yang hilang dan mengumpulkannya bersama-sama sampai data menampilkan hal yang seharusnya ada. Pekerjaan kolektif tentu akan lebih sulit manajemennya karena melibatkan lebih banyak orang.

Menghapus missing value

Cara berikutnya yang bisa Anda lakukan adalah dengan menghapusnya. Cara ini mengharuskan Anda untuk menghapus kolom atau variabel yang mengandung kesalahan. Untuk itu, penting memastikan bahwa data-data yang dihapus bukan merupakan variabel terpenting dari sebuah kumpulan data. 

Cara ini mungkin terlihat mudah bagi Anda karena hanya perlu melakukan penghapusan pada data-data yang salah dan hilang. Akan tetapi, apabila data yang Anda kerjakan berjumlah besar, tentu menghapusnya menjadi pekerjaan yang rumit. Semakin banyak data, semakin banyak tinggi pula risiko yang dimilikinya.

Artinya, jika data dalam jumlah besar, kemungkinan sebuah data mengalami missing value juga besar. Apabila solusi yang Anda terapkan hanya dengan menghapus data-data tersebut, tentu ini bukan pekerjaan yang efisien. Jadi, akan lebih baik apabila Anda melakukan analisis mengapa data-data tersebut hilang dan di mana Anda bisa menemukannya kembali.

Imputation

Langkah berikutnya yang bisa Anda tempuh adalah dengan melakukan imputation. Imputation adalah metode untuk menghitung kembali nilai yang hilang dari sebuah data. Sehingga, data yang menampilkan “NaN”, “?”, atau blank cell dapat terisi kembali dengan melakukan cara ini. Ada beberapa cara yang bisa Anda lakukan pada imputation atau menghitung kembali nilai data.

Untuk menemukan nilai data yang hilang, Anda bisa menghitung nilai tetap, mean, median, dan lain-lain. Cara tersebut dapat dibilang cukup mudah. Akan tetapi, risiko biasnya pun tinggi, apalagi terhadap data-data yang berjumlah banyak. Bias yang terdapat pada data akan memengaruhi analisis dan hasil akhir atau kesimpulan.

Cara lain yang bisa Anda lakukan adalah dengan mencari kemiripan pada data yang hilang. Kemudian, Anda menggantinya dengan data yang dianggap mirip tersebut. Pada akhirnya, semua cara yang dilakukan untuk menanganinya dapat Anda pilih sesuai kebutuhan, apakah data set berjumlah besar, kecil, dan sebagainya.

Kesimpulan

Berdasarkan penjelasan di atas, missing value adalah peristiwa hilang atau tidak terbacanya data. Hal ini sering ditemui oleh para data scientist dan harus segera diatasi karena akan memengaruhi proses analisis dan hasil akhir atau kesimpulan. Untuk mengatasinya, cara-cara di atas dapat Anda terapkan apabila sedang menghadapi missing value pada project data science.

Jika ingin lebih mendalami tentang data science, ikuti berbagai program terkait seperti Algoritma Data Science School! Berbagai program, baik secara individu maupun korporat, telah disediakan dengan kurikulum yang telah diakui oleh RStudio. Informasi lebih lengkap mengenai Algoritma Data Science School, klik di sini!

Referensi:

Yuk belajar data science di Algoritma Data Science Education Center! Kamu bisa ikut berbagai kelas data science untuk pemula, salah satunya di program Academy kami.

PELAJARI LEBIH LANJUT

Related Blog

Real Time Processing
Perbedaan Batch Processing dan Real Time Processing
Metode Pengolahan Data
Tipe, Langkah, dan Metode Pengolahan Data
Batch Processing
Mengenal Batch Processing dan Implementasinya
The last comment needs to be approved.