fbpx

Tahapan Saat melakukan data preparation

13 April 2022

Data preparation adalah proses pengumpulan, penggabungan, penataan, dan pengorganisasian data sehingga dapat digunakan dalam aplikasi business intelligence (BI), analitik, dan visualisasi data. Proses ini terkadang juga disebut dengan istilah data wrangling. Kegiatan data preparation dilakukan oleh teknologi informasi (TI), BI, dan tim manajemen data. Lalu, apa saja tahap penting untuk melakukan data preparation? Untuk mengetahui jawabannya, mari simak penjelasan berikut.

Mengenal tentang data preparation

Sebelum data scientist mulai menjelajahi data dengan alat analitik dan laporan, data preparation sebagai langkah pertama harus diselesaikan terlebih dulu. Sederhananya, data preparation adalah proses mengambil data mentah dan menyiapkannya untuk diserap dalam platform analitik. Untuk mencapai tahap akhir persiapan, data harus dibersihkan, diformat, dan diubah menjadi sesuatu yang dapat dicerna oleh alat analisis.

Salah satu fungsi utama data preparation adalah memastikan keakuratan dan konsistensi data mentah yang disiapkan untuk pemrosesan dan analisis. Dengan demikian, hasil aplikasi BI dan analitik akan valid. Proses ini penting untuk menangani kumpulan data yang tidak semuanya akurat akibat perbedaan format antara satu data dengan data lainnya. Lewat data preparation, Anda bisa memperbaiki kesalahan data, memvalidasi kualitas data, dan mengkonsolidasikan kumpulan data.

Tahapan melakukan data preparation

Ada beberapa tahapan yang harus Anda lalui dalam melakukan data preparation, di antaranya adalah:

1. Data collection

Data yang relevan dikumpulkan dari sistem operasional, data warehouse, data lake, dan sumber data lainnya. Selama langkah pengumpulan data, data scientist, anggota tim BI, professional data lainnya, serta pengguna akhir yang mengumpulkan data harus mengonfirmasi bahwa data tersebut sesuai dengan tujuan aplikasi analitik yang direncanakan.

BACA JUGA: Bagaimana Cara Proses Data Collection dalam Data Science?

2. Data discovery and profiling

Langkah selanjutnya adalah data discovery dan profiling yang berguna untuk mengeksplorasi data yang dikumpulkan. Dari eksplorasi tersebut, apa yang terkandung dalam data akan lebih mudah dipahami. Langkah-langkah yang perlu dilakukan untuk mempersiapkan data sesuai tujuan penggunaannya juga bisa ditentukan.

Langkah profiling atau pembuatan profil data bisa membantu mengidentifikasi pola, hubungan, dan atribut lain dalam data, serta mengatasi inkonsistensi, anomali, nilai yang hilang, dan masalah lain yang terdapat pada data.

BACA JUGA:  Jenis dan Teknik Data Profiling

3. Data cleansing

Data cleansing adalah proses memperbaiki kesalahan dan masalah data yang teridentifikasi guna membuat kumpulan data yang lengkap dan akurat. Misalnya, sebagai bagian dari data cleansing, data yang salah akan dihapus atau diperbaiki, nilai yang hilang akan diisi, dan entri yang tidak konsisten akan diselaraskan.

4. Data formatting

Setelah kumpulan data dibersihkan, data perlu diformat. Langkah ini mencakup penyelesaian masalah seperti beberapa format tanggal dalam data atau singkatan yang tidak konsisten. Ada juga kemungkinan bahwa beberapa variabel data tidak diperlukan untuk analisis, sehingga harus dihapus dari kumpulan data analisis. 

Langkah data preparation ini akan mendapat manfaat dari automasi. Langkah cleansing dan formatting harus disimpan ke dalam strategi berulang yang dapat diterapkan oleh para ilmuwan atau insinyur data ke kumpulan data serupa di masa mendatang. Misalnya, analisis bulanan data penjualan dan support kemungkinan akan memiliki sumber yang sama, sehingga langkah pembersihan dan pemformatan yang diperlukan juga akan sama setiap bulannya.

5. Data combining and analyzing

Saat kumpulan data telah dibersihkan dan diformat, data kemudian dapat diubah dengan digabungkan bersama kumpulan input. Setelah langkah penggabungan selesai, data siap untuk dipindahkan ke staging area data warehouse. Begitu data dimuat ke dalam staging area, ada kesempatan kedua untuk validasi.

Setelah analisis dimulai, perubahan pada kumpulan data hanya boleh dilakukan dengan sangat hati-hati. Selama analisis, algoritma biasanya disesuaikan dan dibandingkan dengan hasil lainnya. Perubahan pada data dapat mengubah hasil analisis sehingga sulit untuk menentukan apakah perbedaan hasil tersebut disebabkan oleh perubahan pada data atau algoritma.

6. Data validation and publishing

Pada langkah terakhir ini, rutinitas otomatis dijalankan terhadap data untuk memvalidasi konsistensi, kelengkapan, dan akurasinya. Data yang disiapkan kemudian disimpan pada data warehouse, data lake, atau repositori lain dan digunakan secara langsung oleh siapa pun yang menyiapkannya. Bisa juga tersedia untuk diakses pengguna lain.

Kesimpulan

Data preparation adalah langkah pra-pemrosesan yang melibatkan pembersihan, transformasi, dan konsolidasi data. Dengan kata lain, ini adalah proses yang melibatkan koneksi ke satu atau banyak sumber data yang berbeda, membersihkan data kotor, memformat ulang atau merestrukturisasi data, dan akhirnya menggabungkan data untuk dianalisis. Sering menjadi langkah yang paling memakan waktu dari seluruh siklus analisis, kecepatan dan efisiensi proses data preparation perlu dijadikan prioritas.

Bagi yang yang tertarik mempelajari proses data preparation atau hal-hal terkait data science lainnya, Anda bisa daftar kelas data science dari Algoritma Data Science School sekarang juga. Tersedia berbagai kelas mengenai data science dari Algoritma Data Science School yang bisa Anda pilih sesuai kebutuhan atau level expertise.

Referensi:

  • altair – What is DP?
  • sas – The five D’s of dp
  • actian – Six Essential Data Preparation Steps for Analytics
  • techtarget – What is dp? An in-depth guide to data prep

Yuk belajar data science di Algoritma Data Science Education Center! Kamu bisa ikut berbagai kelas data science untuk pemula, salah satunya di program Academy kami.

PELAJARI LEBIH LANJUT

Related Blog

Distributed Processing
Apa Itu Data Analysis Expressions?
jadi data scientist
Cara Menjadi Data Scientist Handal
Distributed Processing
Mengenal Apa Itu Distributed Processing

Data preparation adalah proses pengumpulan, penggabungan, penataan, dan pengorganisasian data sehingga dapat digunakan dalam aplikasi business intelligence (BI), analitik, dan visualisasi data. Proses ini terkadang juga disebut dengan istilah data wrangling. Kegiatan data preparation dilakukan oleh teknologi informasi (TI), BI, dan tim manajemen data. Lalu, apa saja tahap penting untuk melakukan data preparation? Untuk mengetahui jawabannya, mari simak penjelasan berikut.

Mengenal tentang data preparation

Sebelum data scientist mulai menjelajahi data dengan alat analitik dan laporan, data preparation sebagai langkah pertama harus diselesaikan terlebih dulu. Sederhananya, data preparation adalah proses mengambil data mentah dan menyiapkannya untuk diserap dalam platform analitik. Untuk mencapai tahap akhir persiapan, data harus dibersihkan, diformat, dan diubah menjadi sesuatu yang dapat dicerna oleh alat analisis.

Salah satu fungsi utama data preparation adalah memastikan keakuratan dan konsistensi data mentah yang disiapkan untuk pemrosesan dan analisis. Dengan demikian, hasil aplikasi BI dan analitik akan valid. Proses ini penting untuk menangani kumpulan data yang tidak semuanya akurat akibat perbedaan format antara satu data dengan data lainnya. Lewat data preparation, Anda bisa memperbaiki kesalahan data, memvalidasi kualitas data, dan mengkonsolidasikan kumpulan data.

Tahapan melakukan data preparation

Ada beberapa tahapan yang harus Anda lalui dalam melakukan data preparation, di antaranya adalah:

1. Data collection

Data yang relevan dikumpulkan dari sistem operasional, data warehouse, data lake, dan sumber data lainnya. Selama langkah pengumpulan data, data scientist, anggota tim BI, professional data lainnya, serta pengguna akhir yang mengumpulkan data harus mengonfirmasi bahwa data tersebut sesuai dengan tujuan aplikasi analitik yang direncanakan.

BACA JUGA: Bagaimana Cara Proses Data Collection dalam Data Science?

2. Data discovery and profiling

Langkah selanjutnya adalah data discovery dan profiling yang berguna untuk mengeksplorasi data yang dikumpulkan. Dari eksplorasi tersebut, apa yang terkandung dalam data akan lebih mudah dipahami. Langkah-langkah yang perlu dilakukan untuk mempersiapkan data sesuai tujuan penggunaannya juga bisa ditentukan.

Langkah profiling atau pembuatan profil data bisa membantu mengidentifikasi pola, hubungan, dan atribut lain dalam data, serta mengatasi inkonsistensi, anomali, nilai yang hilang, dan masalah lain yang terdapat pada data.

BACA JUGA:  Jenis dan Teknik Data Profiling

3. Data cleansing

Data cleansing adalah proses memperbaiki kesalahan dan masalah data yang teridentifikasi guna membuat kumpulan data yang lengkap dan akurat. Misalnya, sebagai bagian dari data cleansing, data yang salah akan dihapus atau diperbaiki, nilai yang hilang akan diisi, dan entri yang tidak konsisten akan diselaraskan.

4. Data formatting

Setelah kumpulan data dibersihkan, data perlu diformat. Langkah ini mencakup penyelesaian masalah seperti beberapa format tanggal dalam data atau singkatan yang tidak konsisten. Ada juga kemungkinan bahwa beberapa variabel data tidak diperlukan untuk analisis, sehingga harus dihapus dari kumpulan data analisis. 

Langkah data preparation ini akan mendapat manfaat dari automasi. Langkah cleansing dan formatting harus disimpan ke dalam strategi berulang yang dapat diterapkan oleh para ilmuwan atau insinyur data ke kumpulan data serupa di masa mendatang. Misalnya, analisis bulanan data penjualan dan support kemungkinan akan memiliki sumber yang sama, sehingga langkah pembersihan dan pemformatan yang diperlukan juga akan sama setiap bulannya.

5. Data combining and analyzing

Saat kumpulan data telah dibersihkan dan diformat, data kemudian dapat diubah dengan digabungkan bersama kumpulan input. Setelah langkah penggabungan selesai, data siap untuk dipindahkan ke staging area data warehouse. Begitu data dimuat ke dalam staging area, ada kesempatan kedua untuk validasi.

Setelah analisis dimulai, perubahan pada kumpulan data hanya boleh dilakukan dengan sangat hati-hati. Selama analisis, algoritma biasanya disesuaikan dan dibandingkan dengan hasil lainnya. Perubahan pada data dapat mengubah hasil analisis sehingga sulit untuk menentukan apakah perbedaan hasil tersebut disebabkan oleh perubahan pada data atau algoritma.

6. Data validation and publishing

Pada langkah terakhir ini, rutinitas otomatis dijalankan terhadap data untuk memvalidasi konsistensi, kelengkapan, dan akurasinya. Data yang disiapkan kemudian disimpan pada data warehouse, data lake, atau repositori lain dan digunakan secara langsung oleh siapa pun yang menyiapkannya. Bisa juga tersedia untuk diakses pengguna lain.

Kesimpulan

Data preparation adalah langkah pra-pemrosesan yang melibatkan pembersihan, transformasi, dan konsolidasi data. Dengan kata lain, ini adalah proses yang melibatkan koneksi ke satu atau banyak sumber data yang berbeda, membersihkan data kotor, memformat ulang atau merestrukturisasi data, dan akhirnya menggabungkan data untuk dianalisis. Sering menjadi langkah yang paling memakan waktu dari seluruh siklus analisis, kecepatan dan efisiensi proses data preparation perlu dijadikan prioritas.

Bagi yang yang tertarik mempelajari proses data preparation atau hal-hal terkait data science lainnya, Anda bisa daftar kelas data science dari Algoritma Data Science School sekarang juga. Tersedia berbagai kelas mengenai data science dari Algoritma Data Science School yang bisa Anda pilih sesuai kebutuhan atau level expertise.

Referensi:

  • altair – What is DP?
  • sas – The five D’s of dp
  • actian – Six Essential Data Preparation Steps for Analytics
  • techtarget – What is dp? An in-depth guide to data prep

Yuk belajar data science di Algoritma Data Science Education Center! Kamu bisa ikut berbagai kelas data science untuk pemula, salah satunya di program Academy kami.

PELAJARI LEBIH LANJUT

Related Blog

Real Time Processing
Perbedaan Batch Processing dan Real Time Processing
Metode Pengolahan Data
Tipe, Langkah, dan Metode Pengolahan Data
Batch Processing
Mengenal Batch Processing dan Implementasinya