fbpx

Apa Itu Exploratory Data Analysis?

1 Maret 2022

Belajar data science memang bukan hal yang bisa dilakukan hanya dengan teori. Justru cara yang paling tepat untuk belajar data science adalah dengan terjun langsung menggunakan real-world data. Dengan begitu, proses analisis data, pencarian insight, serta pembuatan machine learning jadi lebih mudah dipahami.

Nah, ketika mengerjakannya, pasti Anda akan menemukan salah satu tahapan bernama Exploratory Data Analysis (EDA). Proses ini tergolong sangat krusial dalam pengolahan data. Apa itu Exploratory Data Analysis? Apa saja contoh dan teknik EDA? Bagaimana langkah-langkah melakukan EDA? Simak ulasannya di bawah ini.

Apa itu Exploratory Data Analysis?

Secara umum, apa itu Exploratory Data Analysis mencakup tentang proses kritis uji investigasi awal pada sebuah data untuk mengidentifikasi pola, menemukan anomali, menguji hipotesis, dan memeriksa asumsi melalui statistik ringkasan dan representasi grafis (visual).

Data specialist menggunakan EDA untuk membedakan kumpulan data apa yang dapat diungkapkan lebih jauh di luar pemodelan data formal atau tugas pengujian hipotesis. Hal ini memungkinkan mereka untuk mendapatkan temuan mendalam tentang variabel dalam kumpulan data dan hubungannya.

EDA dapat membantu mendeteksi kesalahan, mengidentifikasi outlier dalam kumpulan data, memahami hubungan antar data, menggali faktor-faktor penting, menemukan pola dalam data, dan memberikan wawasan baru. EDA sangat bermanfaat untuk analisis statistik. Data profesional sering kali menggunakan EDA untuk menemukan hasil yang valid dan relevan sebagai arah tujuan bisnis yang diinginkan.

Contoh EDA

Exploratory Data Analysis dapat diterapkan untuk menganalisis data di segala bidang. Salah satunya untuk menganalisa uji coba klinis. Sekelompok peneliti menggunakan EDA untuk mengidentifikasi outliers (pencilan) dalam satu populasi pasien serta memverifikasi homogenitas mereka.

Para peneliti kemudian mengklasifikasi pasien yang berpartisipasi ke dalam 40 ciri, termasuk usia dan jenis kelamin. EDA membantu mereka mengetahui bahwa kelompok wanita dalam penelitian tersebut lebih homogen dibandingkan kelompok pria. Hal ini kemudian menjadi acuan bagi peneliti untuk mengadakan uji coba medis dengan perlakuan yang berbeda kepada kelompok pria. Sehingga, penelitian ini terhindar dari temuan palsu.

Contoh lain penerapan EDA adalah dalam bidang retail. Suatu toko online menjual berbagai jenis alas kaki mulai dari sandal, sepatu, sepatu pesta, hiking boots, dan sepatu formal. EDA memungkinkan analis menunjukkan perbedaan tren penjualan secara grafis serta memvisualisasikan data yang berhubungan dengan produk best-selling, demografi dan preferensi pembeli, pola belanja pelanggan, dan unit terjual dalam satu periode.

Teknik EDA

Setidaknya ada empat teknik Exploratory Data Analysis yang umum digunakan oleh ahli data, antara lain:

1. Univariate Non-Graphical

Inilah teknik yang paling sederhana dari EDA, di mana data yang diolah memiliki satu variabel. Karena hanya satu variabel, maka data profesional tidak perlu mengkhawatirkan tentang relasi data. 

Tujuan standar Univariate Non-Graphical pada EDA adalah untuk mengetahui distribusi/data sampel yang mendasari dan melakukan pengamatan tentang populasi. Deteksi outlier juga merupakan bagian dari analisis. Ciri-ciri distribusi populasi antara lain: Central tendency (mean, median, dan modus), spread (variabilitas, varian dan standar deviasi), bentuk distribusi (skewness dan kurtosis).

2. Univariate Graphical

Bila Non-graphical data tidak menunjukan visualisasi lengkap mengenai data yang diolah, maka dalam metode graphical, peneliti akan menampilkan data secara visual. Data yang ditunjukkan dapat berupa stem-and-leaf plots, box plots, dan histogram.

3. Multivariate Non-Graphical

Multivariate data memiliki beberapa variabel. Metode ini menunjukkan hubungan antara dua data variabel atau lebih menggunakan statistik atau tabulasi silang.

4. Multivariate Graphical

Teknik EDA ini menggunakan grafik untuk menunjukkan hubungan antara dua data set atau lebih. Grafis multivariate yang paling sering digunakan antara lain adalah bar chart, bar plot, heat map, bubble chart, run chart, multivariate chart, dan scatter plot.

Langkah-langkah melakukan EDA

Data spesialis melakukan Exploratory Data Analysis menggunakan bahasa scripting yang paling sering dipakai untuk statistik, contohnya Python dan R.

Seorang analis harus mengikuti langkah-langkah berikut dalam menerapkan EDA pada penelitian mereka, antara lain:

  • Mempertanyakan hal yang berkaitan dengan analisis data;
  • Mendalami permasalahan yang dibahas;
  • Menentukan tujuan searah dengan output yang diinginkan.

Kesimpulan 

Memahami Exploratory Data Analysis nyatanya bukan perkara yang mudah. Hanya mengerti tentang apa itu EDA tidaklah cukup. Anda perlu terjun langsung dan mencoba mengolah data di dunia nyata. Dengan begitu, penguasaan akan materi dan penerapan EDA menjadi jauh lebih mudah. Untuk itu, Anda bisa bergabung dengan Algoritma Data Science School yang menyediakan berbagai kelas dengan materi seputar data science!

Referensi:

  • simplilearn – Exploratory Data Analysis [EDA]: Techniques, Best Practices and Popular Applications

Yuk belajar data science di Algoritma Data Science Education Center! Kamu bisa ikut berbagai kelas data science untuk pemula, salah satunya di program Academy kami.

PELAJARI LEBIH LANJUT

The last comment and 1 other comment(s) need to be approved.

Related Blog

Distributed Processing
Apa Itu Data Analysis Expressions?
jadi data scientist
Cara Menjadi Data Scientist Handal
Distributed Processing
Mengenal Apa Itu Distributed Processing

Belajar data science memang bukan hal yang bisa dilakukan hanya dengan teori. Justru cara yang paling tepat untuk belajar data science adalah dengan terjun langsung menggunakan real-world data. Dengan begitu, proses analisis data, pencarian insight, serta pembuatan machine learning jadi lebih mudah dipahami.

Nah, ketika mengerjakannya, pasti Anda akan menemukan salah satu tahapan bernama Exploratory Data Analysis (EDA). Proses ini tergolong sangat krusial dalam pengolahan data. Apa itu Exploratory Data Analysis? Apa saja contoh dan teknik EDA? Bagaimana langkah-langkah melakukan EDA? Simak ulasannya di bawah ini.

Apa itu Exploratory Data Analysis?

Secara umum, apa itu Exploratory Data Analysis mencakup tentang proses kritis uji investigasi awal pada sebuah data untuk mengidentifikasi pola, menemukan anomali, menguji hipotesis, dan memeriksa asumsi melalui statistik ringkasan dan representasi grafis (visual).

Data specialist menggunakan EDA untuk membedakan kumpulan data apa yang dapat diungkapkan lebih jauh di luar pemodelan data formal atau tugas pengujian hipotesis. Hal ini memungkinkan mereka untuk mendapatkan temuan mendalam tentang variabel dalam kumpulan data dan hubungannya.

EDA dapat membantu mendeteksi kesalahan, mengidentifikasi outlier dalam kumpulan data, memahami hubungan antar data, menggali faktor-faktor penting, menemukan pola dalam data, dan memberikan wawasan baru. EDA sangat bermanfaat untuk analisis statistik. Data profesional sering kali menggunakan EDA untuk menemukan hasil yang valid dan relevan sebagai arah tujuan bisnis yang diinginkan.

Contoh EDA

Exploratory Data Analysis dapat diterapkan untuk menganalisis data di segala bidang. Salah satunya untuk menganalisa uji coba klinis. Sekelompok peneliti menggunakan EDA untuk mengidentifikasi outliers (pencilan) dalam satu populasi pasien serta memverifikasi homogenitas mereka.

Para peneliti kemudian mengklasifikasi pasien yang berpartisipasi ke dalam 40 ciri, termasuk usia dan jenis kelamin. EDA membantu mereka mengetahui bahwa kelompok wanita dalam penelitian tersebut lebih homogen dibandingkan kelompok pria. Hal ini kemudian menjadi acuan bagi peneliti untuk mengadakan uji coba medis dengan perlakuan yang berbeda kepada kelompok pria. Sehingga, penelitian ini terhindar dari temuan palsu.

Contoh lain penerapan EDA adalah dalam bidang retail. Suatu toko online menjual berbagai jenis alas kaki mulai dari sandal, sepatu, sepatu pesta, hiking boots, dan sepatu formal. EDA memungkinkan analis menunjukkan perbedaan tren penjualan secara grafis serta memvisualisasikan data yang berhubungan dengan produk best-selling, demografi dan preferensi pembeli, pola belanja pelanggan, dan unit terjual dalam satu periode.

Teknik EDA

Setidaknya ada empat teknik Exploratory Data Analysis yang umum digunakan oleh ahli data, antara lain:

1. Univariate Non-Graphical

Inilah teknik yang paling sederhana dari EDA, di mana data yang diolah memiliki satu variabel. Karena hanya satu variabel, maka data profesional tidak perlu mengkhawatirkan tentang relasi data. 

Tujuan standar Univariate Non-Graphical pada EDA adalah untuk mengetahui distribusi/data sampel yang mendasari dan melakukan pengamatan tentang populasi. Deteksi outlier juga merupakan bagian dari analisis. Ciri-ciri distribusi populasi antara lain: Central tendency (mean, median, dan modus), spread (variabilitas, varian dan standar deviasi), bentuk distribusi (skewness dan kurtosis).

2. Univariate Graphical

Bila Non-graphical data tidak menunjukan visualisasi lengkap mengenai data yang diolah, maka dalam metode graphical, peneliti akan menampilkan data secara visual. Data yang ditunjukkan dapat berupa stem-and-leaf plots, box plots, dan histogram.

3. Multivariate Non-Graphical

Multivariate data memiliki beberapa variabel. Metode ini menunjukkan hubungan antara dua data variabel atau lebih menggunakan statistik atau tabulasi silang.

4. Multivariate Graphical

Teknik EDA ini menggunakan grafik untuk menunjukkan hubungan antara dua data set atau lebih. Grafis multivariate yang paling sering digunakan antara lain adalah bar chart, bar plot, heat map, bubble chart, run chart, multivariate chart, dan scatter plot.

Langkah-langkah melakukan EDA

Data spesialis melakukan Exploratory Data Analysis menggunakan bahasa scripting yang paling sering dipakai untuk statistik, contohnya Python dan R.

Seorang analis harus mengikuti langkah-langkah berikut dalam menerapkan EDA pada penelitian mereka, antara lain:

  • Mempertanyakan hal yang berkaitan dengan analisis data;
  • Mendalami permasalahan yang dibahas;
  • Menentukan tujuan searah dengan output yang diinginkan.

Kesimpulan 

Memahami Exploratory Data Analysis nyatanya bukan perkara yang mudah. Hanya mengerti tentang apa itu EDA tidaklah cukup. Anda perlu terjun langsung dan mencoba mengolah data di dunia nyata. Dengan begitu, penguasaan akan materi dan penerapan EDA menjadi jauh lebih mudah. Untuk itu, Anda bisa bergabung dengan Algoritma Data Science School yang menyediakan berbagai kelas dengan materi seputar data science!

Referensi:

  • simplilearn – Exploratory Data Analysis [EDA]: Techniques, Best Practices and Popular Applications

Yuk belajar data science di Algoritma Data Science Education Center! Kamu bisa ikut berbagai kelas data science untuk pemula, salah satunya di program Academy kami.

PELAJARI LEBIH LANJUT

Related Blog

Real Time Processing
Perbedaan Batch Processing dan Real Time Processing
Metode Pengolahan Data
Tipe, Langkah, dan Metode Pengolahan Data
Batch Processing
Mengenal Batch Processing dan Implementasinya
The last comment and 1 other comment(s) need to be approved.