Tahapan Saat melakukan data preparation
13 April 2022
13 April 2022
Data preparation adalah proses pengumpulan, penggabungan, penataan, dan pengorganisasian data sehingga dapat digunakan dalam aplikasi business intelligence (BI), analitik, dan visualisasi data. Proses ini terkadang juga disebut dengan istilah data wrangling. Kegiatan data preparation dilakukan oleh teknologi informasi (TI), BI, dan tim manajemen data. Lalu, apa saja tahap penting untuk melakukan data preparation? Untuk mengetahui jawabannya, mari simak penjelasan berikut.
Sebelum data scientist mulai menjelajahi data dengan alat analitik dan laporan, data preparation sebagai langkah pertama harus diselesaikan terlebih dulu. Sederhananya, data preparation adalah proses mengambil data mentah dan menyiapkannya untuk diserap dalam platform analitik. Untuk mencapai tahap akhir persiapan, data harus dibersihkan, diformat, dan diubah menjadi sesuatu yang dapat dicerna oleh alat analisis.
Salah satu fungsi utama data preparation adalah memastikan keakuratan dan konsistensi data mentah yang disiapkan untuk pemrosesan dan analisis. Dengan demikian, hasil aplikasi BI dan analitik akan valid. Proses ini penting untuk menangani kumpulan data yang tidak semuanya akurat akibat perbedaan format antara satu data dengan data lainnya. Lewat data preparation, Anda bisa memperbaiki kesalahan data, memvalidasi kualitas data, dan mengkonsolidasikan kumpulan data.
Ada beberapa tahapan yang harus Anda lalui dalam melakukan data preparation, di antaranya adalah:
Data yang relevan dikumpulkan dari sistem operasional, data warehouse, data lake, dan sumber data lainnya. Selama langkah pengumpulan data, data scientist, anggota tim BI, professional data lainnya, serta pengguna akhir yang mengumpulkan data harus mengonfirmasi bahwa data tersebut sesuai dengan tujuan aplikasi analitik yang direncanakan.
BACA JUGA: Bagaimana Cara Proses Data Collection dalam Data Science?
Langkah selanjutnya adalah data discovery dan profiling yang berguna untuk mengeksplorasi data yang dikumpulkan. Dari eksplorasi tersebut, apa yang terkandung dalam data akan lebih mudah dipahami. Langkah-langkah yang perlu dilakukan untuk mempersiapkan data sesuai tujuan penggunaannya juga bisa ditentukan.
Langkah profiling atau pembuatan profil data bisa membantu mengidentifikasi pola, hubungan, dan atribut lain dalam data, serta mengatasi inkonsistensi, anomali, nilai yang hilang, dan masalah lain yang terdapat pada data.
BACA JUGA: Jenis dan Teknik Data Profiling
Data cleansing adalah proses memperbaiki kesalahan dan masalah data yang teridentifikasi guna membuat kumpulan data yang lengkap dan akurat. Misalnya, sebagai bagian dari data cleansing, data yang salah akan dihapus atau diperbaiki, nilai yang hilang akan diisi, dan entri yang tidak konsisten akan diselaraskan.
Setelah kumpulan data dibersihkan, data perlu diformat. Langkah ini mencakup penyelesaian masalah seperti beberapa format tanggal dalam data atau singkatan yang tidak konsisten. Ada juga kemungkinan bahwa beberapa variabel data tidak diperlukan untuk analisis, sehingga harus dihapus dari kumpulan data analisis.
Langkah data preparation ini akan mendapat manfaat dari automasi. Langkah cleansing dan formatting harus disimpan ke dalam strategi berulang yang dapat diterapkan oleh para ilmuwan atau insinyur data ke kumpulan data serupa di masa mendatang. Misalnya, analisis bulanan data penjualan dan support kemungkinan akan memiliki sumber yang sama, sehingga langkah pembersihan dan pemformatan yang diperlukan juga akan sama setiap bulannya.
Saat kumpulan data telah dibersihkan dan diformat, data kemudian dapat diubah dengan digabungkan bersama kumpulan input. Setelah langkah penggabungan selesai, data siap untuk dipindahkan ke staging area data warehouse. Begitu data dimuat ke dalam staging area, ada kesempatan kedua untuk validasi.
Setelah analisis dimulai, perubahan pada kumpulan data hanya boleh dilakukan dengan sangat hati-hati. Selama analisis, algoritma biasanya disesuaikan dan dibandingkan dengan hasil lainnya. Perubahan pada data dapat mengubah hasil analisis sehingga sulit untuk menentukan apakah perbedaan hasil tersebut disebabkan oleh perubahan pada data atau algoritma.
Pada langkah terakhir ini, rutinitas otomatis dijalankan terhadap data untuk memvalidasi konsistensi, kelengkapan, dan akurasinya. Data yang disiapkan kemudian disimpan pada data warehouse, data lake, atau repositori lain dan digunakan secara langsung oleh siapa pun yang menyiapkannya. Bisa juga tersedia untuk diakses pengguna lain.
Data preparation adalah langkah pra-pemrosesan yang melibatkan pembersihan, transformasi, dan konsolidasi data. Dengan kata lain, ini adalah proses yang melibatkan koneksi ke satu atau banyak sumber data yang berbeda, membersihkan data kotor, memformat ulang atau merestrukturisasi data, dan akhirnya menggabungkan data untuk dianalisis. Sering menjadi langkah yang paling memakan waktu dari seluruh siklus analisis, kecepatan dan efisiensi proses data preparation perlu dijadikan prioritas.
Bagi yang yang tertarik mempelajari proses data preparation atau hal-hal terkait data science lainnya, Anda bisa daftar kelas data science dari Algoritma Data Science School sekarang juga. Tersedia berbagai kelas mengenai data science dari Algoritma Data Science School yang bisa Anda pilih sesuai kebutuhan atau level expertise.
Referensi:
Data preparation adalah proses pengumpulan, penggabungan, penataan, dan pengorganisasian data sehingga dapat digunakan dalam aplikasi business intelligence (BI), analitik, dan visualisasi data. Proses ini terkadang juga disebut dengan istilah data wrangling. Kegiatan data preparation dilakukan oleh teknologi informasi (TI), BI, dan tim manajemen data. Lalu, apa saja tahap penting untuk melakukan data preparation? Untuk mengetahui jawabannya, mari simak penjelasan berikut.
Sebelum data scientist mulai menjelajahi data dengan alat analitik dan laporan, data preparation sebagai langkah pertama harus diselesaikan terlebih dulu. Sederhananya, data preparation adalah proses mengambil data mentah dan menyiapkannya untuk diserap dalam platform analitik. Untuk mencapai tahap akhir persiapan, data harus dibersihkan, diformat, dan diubah menjadi sesuatu yang dapat dicerna oleh alat analisis.
Salah satu fungsi utama data preparation adalah memastikan keakuratan dan konsistensi data mentah yang disiapkan untuk pemrosesan dan analisis. Dengan demikian, hasil aplikasi BI dan analitik akan valid. Proses ini penting untuk menangani kumpulan data yang tidak semuanya akurat akibat perbedaan format antara satu data dengan data lainnya. Lewat data preparation, Anda bisa memperbaiki kesalahan data, memvalidasi kualitas data, dan mengkonsolidasikan kumpulan data.
Ada beberapa tahapan yang harus Anda lalui dalam melakukan data preparation, di antaranya adalah:
Data yang relevan dikumpulkan dari sistem operasional, data warehouse, data lake, dan sumber data lainnya. Selama langkah pengumpulan data, data scientist, anggota tim BI, professional data lainnya, serta pengguna akhir yang mengumpulkan data harus mengonfirmasi bahwa data tersebut sesuai dengan tujuan aplikasi analitik yang direncanakan.
BACA JUGA: Bagaimana Cara Proses Data Collection dalam Data Science?
Langkah selanjutnya adalah data discovery dan profiling yang berguna untuk mengeksplorasi data yang dikumpulkan. Dari eksplorasi tersebut, apa yang terkandung dalam data akan lebih mudah dipahami. Langkah-langkah yang perlu dilakukan untuk mempersiapkan data sesuai tujuan penggunaannya juga bisa ditentukan.
Langkah profiling atau pembuatan profil data bisa membantu mengidentifikasi pola, hubungan, dan atribut lain dalam data, serta mengatasi inkonsistensi, anomali, nilai yang hilang, dan masalah lain yang terdapat pada data.
BACA JUGA: Jenis dan Teknik Data Profiling
Data cleansing adalah proses memperbaiki kesalahan dan masalah data yang teridentifikasi guna membuat kumpulan data yang lengkap dan akurat. Misalnya, sebagai bagian dari data cleansing, data yang salah akan dihapus atau diperbaiki, nilai yang hilang akan diisi, dan entri yang tidak konsisten akan diselaraskan.
Setelah kumpulan data dibersihkan, data perlu diformat. Langkah ini mencakup penyelesaian masalah seperti beberapa format tanggal dalam data atau singkatan yang tidak konsisten. Ada juga kemungkinan bahwa beberapa variabel data tidak diperlukan untuk analisis, sehingga harus dihapus dari kumpulan data analisis.
Langkah data preparation ini akan mendapat manfaat dari automasi. Langkah cleansing dan formatting harus disimpan ke dalam strategi berulang yang dapat diterapkan oleh para ilmuwan atau insinyur data ke kumpulan data serupa di masa mendatang. Misalnya, analisis bulanan data penjualan dan support kemungkinan akan memiliki sumber yang sama, sehingga langkah pembersihan dan pemformatan yang diperlukan juga akan sama setiap bulannya.
Saat kumpulan data telah dibersihkan dan diformat, data kemudian dapat diubah dengan digabungkan bersama kumpulan input. Setelah langkah penggabungan selesai, data siap untuk dipindahkan ke staging area data warehouse. Begitu data dimuat ke dalam staging area, ada kesempatan kedua untuk validasi.
Setelah analisis dimulai, perubahan pada kumpulan data hanya boleh dilakukan dengan sangat hati-hati. Selama analisis, algoritma biasanya disesuaikan dan dibandingkan dengan hasil lainnya. Perubahan pada data dapat mengubah hasil analisis sehingga sulit untuk menentukan apakah perbedaan hasil tersebut disebabkan oleh perubahan pada data atau algoritma.
Pada langkah terakhir ini, rutinitas otomatis dijalankan terhadap data untuk memvalidasi konsistensi, kelengkapan, dan akurasinya. Data yang disiapkan kemudian disimpan pada data warehouse, data lake, atau repositori lain dan digunakan secara langsung oleh siapa pun yang menyiapkannya. Bisa juga tersedia untuk diakses pengguna lain.
Data preparation adalah langkah pra-pemrosesan yang melibatkan pembersihan, transformasi, dan konsolidasi data. Dengan kata lain, ini adalah proses yang melibatkan koneksi ke satu atau banyak sumber data yang berbeda, membersihkan data kotor, memformat ulang atau merestrukturisasi data, dan akhirnya menggabungkan data untuk dianalisis. Sering menjadi langkah yang paling memakan waktu dari seluruh siklus analisis, kecepatan dan efisiensi proses data preparation perlu dijadikan prioritas.
Bagi yang yang tertarik mempelajari proses data preparation atau hal-hal terkait data science lainnya, Anda bisa daftar kelas data science dari Algoritma Data Science School sekarang juga. Tersedia berbagai kelas mengenai data science dari Algoritma Data Science School yang bisa Anda pilih sesuai kebutuhan atau level expertise.
Referensi: