Get In Touch
PT. Algoritma Data Indonesia.
RDTX Square, 9th Floor. Setiabudi, DKI Jakarta 12930.
WhatsApp: 0816-692-471
Email: community@algorit.ma
17 Februari 2022
Saat berhadapan dengan data, para data scientist sering kali dihadapkan dengan yang namanya missing value. Secara garis besar, missing value akan memengaruhi kinerja Anda dan harus ada langkah khusus yang perlu diambil untuk mengatasinya. Untuk itu, artikel ini akan memberikan cara-cara menangani missing value yang sering dihadapi oleh para data scientist. Sebelum melangkah lebih jauh, ketahui dulu apa yang disebut sebagai missing value.
Missing value adalah peristiwa hilang atau tidak terbacanya data. Peristiwa ini sering ditemui oleh data scientist saat menangani data science. Biasanya, data-data yang tidak dapat terdeteksi akan disimbolkan dengan “NaN” atau hanya dalam bentuk tanda baca, yaitu tanda tanya “?”. Tidak jarang juga, data yang tidak terdeteksi akan ditampilkan sebagai blank cell yang tidak ada nilainya sama sekali.
Sebagai seorang data scientist atau ahli data, penting bagi Anda untuk mengetahui bagaimana cara mengatasi atau memperbaiki data yang hilang atau tidak terbaca. Missing value yang tidak diatasi dapat menimbulkan perubahan hasil analisis. Pada akhirnya, data-data yang memuatnya bisa memberikan kesimpulan yang berbeda dibandingkan dengan data yang telah dibersihkan atau dibenahi.
Missing value yang tidak diatasi dapat menyebabkan kesalahan hasil analisis dan kesimpulan yang tidak sesuai dengan yang diharapkan. Selain itu, ada beberapa mesin algoritma yang tidak memperbolehkan adanya missing value dalam sebuah data. Sehingga, data scientist harus bekerja untuk membersihkan dan membenahi kesalahan-kesalahan tersebut. Untuk mengatasinya, perlu diketahui mengapa dan di mana data tersebut hilang.
Ada beberapa hal yang bisa dilakukan ketika menemukan missing value pada project data science. Berikut adalah cara-cara yang bisa Anda terapkan.
Langkah pertama yang harus Anda lakukan adalah melakukan pengecekan ulang terhadap data yang hilang. Dengan melakukan langkah ini, Anda akan mampu mengumpulkan kembali data-data tersebut. Itu berarti, Anda juga harus menganalisis di mana data tersebut kemungkinan hilang dan tidak sesuai format yang ditentukan.
Misalnya, apabila data tersebut dikumpulkan secara kolektif oleh kelompok, pastikan semua anggota dapat melakukan pengecekan terhadap data yang hilang dan mengumpulkannya bersama-sama sampai data menampilkan hal yang seharusnya ada. Pekerjaan kolektif tentu akan lebih sulit manajemennya karena melibatkan lebih banyak orang.
Cara berikutnya yang bisa Anda lakukan adalah dengan menghapusnya. Cara ini mengharuskan Anda untuk menghapus kolom atau variabel yang mengandung kesalahan. Untuk itu, penting memastikan bahwa data-data yang dihapus bukan merupakan variabel terpenting dari sebuah kumpulan data.
Cara ini mungkin terlihat mudah bagi Anda karena hanya perlu melakukan penghapusan pada data-data yang salah dan hilang. Akan tetapi, apabila data yang Anda kerjakan berjumlah besar, tentu menghapusnya menjadi pekerjaan yang rumit. Semakin banyak data, semakin banyak tinggi pula risiko yang dimilikinya.
Artinya, jika data dalam jumlah besar, kemungkinan sebuah data mengalami missing value juga besar. Apabila solusi yang Anda terapkan hanya dengan menghapus data-data tersebut, tentu ini bukan pekerjaan yang efisien. Jadi, akan lebih baik apabila Anda melakukan analisis mengapa data-data tersebut hilang dan di mana Anda bisa menemukannya kembali.
Langkah berikutnya yang bisa Anda tempuh adalah dengan melakukan imputation. Imputation adalah metode untuk menghitung kembali nilai yang hilang dari sebuah data. Sehingga, data yang menampilkan “NaN”, “?”, atau blank cell dapat terisi kembali dengan melakukan cara ini. Ada beberapa cara yang bisa Anda lakukan pada imputation atau menghitung kembali nilai data.
Untuk menemukan nilai data yang hilang, Anda bisa menghitung nilai tetap, mean, median, dan lain-lain. Cara tersebut dapat dibilang cukup mudah. Akan tetapi, risiko biasnya pun tinggi, apalagi terhadap data-data yang berjumlah banyak. Bias yang terdapat pada data akan memengaruhi analisis dan hasil akhir atau kesimpulan.
Cara lain yang bisa Anda lakukan adalah dengan mencari kemiripan pada data yang hilang. Kemudian, Anda menggantinya dengan data yang dianggap mirip tersebut. Pada akhirnya, semua cara yang dilakukan untuk menanganinya dapat Anda pilih sesuai kebutuhan, apakah data set berjumlah besar, kecil, dan sebagainya.
Berdasarkan penjelasan di atas, missing value adalah peristiwa hilang atau tidak terbacanya data. Hal ini sering ditemui oleh para data scientist dan harus segera diatasi karena akan memengaruhi proses analisis dan hasil akhir atau kesimpulan. Untuk mengatasinya, cara-cara di atas dapat Anda terapkan apabila sedang menghadapi missing value pada project data science.
Jika ingin lebih mendalami tentang data science, ikuti berbagai program terkait seperti Algoritma Data Science School! Berbagai program, baik secara individu maupun korporat, telah disediakan dengan kurikulum yang telah diakui oleh RStudio. Informasi lebih lengkap mengenai Algoritma Data Science School, klik di sini!
Referensi:
Saat berhadapan dengan data, para data scientist sering kali dihadapkan dengan yang namanya missing value. Secara garis besar, missing value akan memengaruhi kinerja Anda dan harus ada langkah khusus yang perlu diambil untuk mengatasinya. Untuk itu, artikel ini akan memberikan cara-cara menangani missing value yang sering dihadapi oleh para data scientist. Sebelum melangkah lebih jauh, ketahui dulu apa yang disebut sebagai missing value.
Missing value adalah peristiwa hilang atau tidak terbacanya data. Peristiwa ini sering ditemui oleh data scientist saat menangani data science. Biasanya, data-data yang tidak dapat terdeteksi akan disimbolkan dengan “NaN” atau hanya dalam bentuk tanda baca, yaitu tanda tanya “?”. Tidak jarang juga, data yang tidak terdeteksi akan ditampilkan sebagai blank cell yang tidak ada nilainya sama sekali.
Sebagai seorang data scientist atau ahli data, penting bagi Anda untuk mengetahui bagaimana cara mengatasi atau memperbaiki data yang hilang atau tidak terbaca. Missing value yang tidak diatasi dapat menimbulkan perubahan hasil analisis. Pada akhirnya, data-data yang memuatnya bisa memberikan kesimpulan yang berbeda dibandingkan dengan data yang telah dibersihkan atau dibenahi.
Missing value yang tidak diatasi dapat menyebabkan kesalahan hasil analisis dan kesimpulan yang tidak sesuai dengan yang diharapkan. Selain itu, ada beberapa mesin algoritma yang tidak memperbolehkan adanya missing value dalam sebuah data. Sehingga, data scientist harus bekerja untuk membersihkan dan membenahi kesalahan-kesalahan tersebut. Untuk mengatasinya, perlu diketahui mengapa dan di mana data tersebut hilang.
Ada beberapa hal yang bisa dilakukan ketika menemukan missing value pada project data science. Berikut adalah cara-cara yang bisa Anda terapkan.
Langkah pertama yang harus Anda lakukan adalah melakukan pengecekan ulang terhadap data yang hilang. Dengan melakukan langkah ini, Anda akan mampu mengumpulkan kembali data-data tersebut. Itu berarti, Anda juga harus menganalisis di mana data tersebut kemungkinan hilang dan tidak sesuai format yang ditentukan.
Misalnya, apabila data tersebut dikumpulkan secara kolektif oleh kelompok, pastikan semua anggota dapat melakukan pengecekan terhadap data yang hilang dan mengumpulkannya bersama-sama sampai data menampilkan hal yang seharusnya ada. Pekerjaan kolektif tentu akan lebih sulit manajemennya karena melibatkan lebih banyak orang.
Cara berikutnya yang bisa Anda lakukan adalah dengan menghapusnya. Cara ini mengharuskan Anda untuk menghapus kolom atau variabel yang mengandung kesalahan. Untuk itu, penting memastikan bahwa data-data yang dihapus bukan merupakan variabel terpenting dari sebuah kumpulan data.
Cara ini mungkin terlihat mudah bagi Anda karena hanya perlu melakukan penghapusan pada data-data yang salah dan hilang. Akan tetapi, apabila data yang Anda kerjakan berjumlah besar, tentu menghapusnya menjadi pekerjaan yang rumit. Semakin banyak data, semakin banyak tinggi pula risiko yang dimilikinya.
Artinya, jika data dalam jumlah besar, kemungkinan sebuah data mengalami missing value juga besar. Apabila solusi yang Anda terapkan hanya dengan menghapus data-data tersebut, tentu ini bukan pekerjaan yang efisien. Jadi, akan lebih baik apabila Anda melakukan analisis mengapa data-data tersebut hilang dan di mana Anda bisa menemukannya kembali.
Langkah berikutnya yang bisa Anda tempuh adalah dengan melakukan imputation. Imputation adalah metode untuk menghitung kembali nilai yang hilang dari sebuah data. Sehingga, data yang menampilkan “NaN”, “?”, atau blank cell dapat terisi kembali dengan melakukan cara ini. Ada beberapa cara yang bisa Anda lakukan pada imputation atau menghitung kembali nilai data.
Untuk menemukan nilai data yang hilang, Anda bisa menghitung nilai tetap, mean, median, dan lain-lain. Cara tersebut dapat dibilang cukup mudah. Akan tetapi, risiko biasnya pun tinggi, apalagi terhadap data-data yang berjumlah banyak. Bias yang terdapat pada data akan memengaruhi analisis dan hasil akhir atau kesimpulan.
Cara lain yang bisa Anda lakukan adalah dengan mencari kemiripan pada data yang hilang. Kemudian, Anda menggantinya dengan data yang dianggap mirip tersebut. Pada akhirnya, semua cara yang dilakukan untuk menanganinya dapat Anda pilih sesuai kebutuhan, apakah data set berjumlah besar, kecil, dan sebagainya.
Berdasarkan penjelasan di atas, missing value adalah peristiwa hilang atau tidak terbacanya data. Hal ini sering ditemui oleh para data scientist dan harus segera diatasi karena akan memengaruhi proses analisis dan hasil akhir atau kesimpulan. Untuk mengatasinya, cara-cara di atas dapat Anda terapkan apabila sedang menghadapi missing value pada project data science.
Jika ingin lebih mendalami tentang data science, ikuti berbagai program terkait seperti Algoritma Data Science School! Berbagai program, baik secara individu maupun korporat, telah disediakan dengan kurikulum yang telah diakui oleh RStudio. Informasi lebih lengkap mengenai Algoritma Data Science School, klik di sini!
Referensi: