Apa Itu Exploratory Data Analysis?
1 Maret 2022
1 Maret 2022
Belajar data science memang bukan hal yang bisa dilakukan hanya dengan teori. Justru cara yang paling tepat untuk belajar data science adalah dengan terjun langsung menggunakan real-world data. Dengan begitu, proses analisis data, pencarian insight, serta pembuatan machine learning jadi lebih mudah dipahami.
Nah, ketika mengerjakannya, pasti Anda akan menemukan salah satu tahapan bernama Exploratory Data Analysis (EDA). Proses ini tergolong sangat krusial dalam pengolahan data. Apa itu Exploratory Data Analysis? Apa saja contoh dan teknik EDA? Bagaimana langkah-langkah melakukan EDA? Simak ulasannya di bawah ini.
Secara umum, apa itu Exploratory Data Analysis mencakup tentang proses kritis uji investigasi awal pada sebuah data untuk mengidentifikasi pola, menemukan anomali, menguji hipotesis, dan memeriksa asumsi melalui statistik ringkasan dan representasi grafis (visual).
Data specialist menggunakan EDA untuk membedakan kumpulan data apa yang dapat diungkapkan lebih jauh di luar pemodelan data formal atau tugas pengujian hipotesis. Hal ini memungkinkan mereka untuk mendapatkan temuan mendalam tentang variabel dalam kumpulan data dan hubungannya.
EDA dapat membantu mendeteksi kesalahan, mengidentifikasi outlier dalam kumpulan data, memahami hubungan antar data, menggali faktor-faktor penting, menemukan pola dalam data, dan memberikan wawasan baru. EDA sangat bermanfaat untuk analisis statistik. Data profesional sering kali menggunakan EDA untuk menemukan hasil yang valid dan relevan sebagai arah tujuan bisnis yang diinginkan.
Exploratory Data Analysis dapat diterapkan untuk menganalisis data di segala bidang. Salah satunya untuk menganalisa uji coba klinis. Sekelompok peneliti menggunakan EDA untuk mengidentifikasi outliers (pencilan) dalam satu populasi pasien serta memverifikasi homogenitas mereka.
Para peneliti kemudian mengklasifikasi pasien yang berpartisipasi ke dalam 40 ciri, termasuk usia dan jenis kelamin. EDA membantu mereka mengetahui bahwa kelompok wanita dalam penelitian tersebut lebih homogen dibandingkan kelompok pria. Hal ini kemudian menjadi acuan bagi peneliti untuk mengadakan uji coba medis dengan perlakuan yang berbeda kepada kelompok pria. Sehingga, penelitian ini terhindar dari temuan palsu.
Contoh lain penerapan EDA adalah dalam bidang retail. Suatu toko online menjual berbagai jenis alas kaki mulai dari sandal, sepatu, sepatu pesta, hiking boots, dan sepatu formal. EDA memungkinkan analis menunjukkan perbedaan tren penjualan secara grafis serta memvisualisasikan data yang berhubungan dengan produk best-selling, demografi dan preferensi pembeli, pola belanja pelanggan, dan unit terjual dalam satu periode.
Setidaknya ada empat teknik Exploratory Data Analysis yang umum digunakan oleh ahli data, antara lain:
Inilah teknik yang paling sederhana dari EDA, di mana data yang diolah memiliki satu variabel. Karena hanya satu variabel, maka data profesional tidak perlu mengkhawatirkan tentang relasi data.
Tujuan standar Univariate Non-Graphical pada EDA adalah untuk mengetahui distribusi/data sampel yang mendasari dan melakukan pengamatan tentang populasi. Deteksi outlier juga merupakan bagian dari analisis. Ciri-ciri distribusi populasi antara lain: Central tendency (mean, median, dan modus), spread (variabilitas, varian dan standar deviasi), bentuk distribusi (skewness dan kurtosis).
Bila Non-graphical data tidak menunjukan visualisasi lengkap mengenai data yang diolah, maka dalam metode graphical, peneliti akan menampilkan data secara visual. Data yang ditunjukkan dapat berupa stem-and-leaf plots, box plots, dan histogram.
Multivariate data memiliki beberapa variabel. Metode ini menunjukkan hubungan antara dua data variabel atau lebih menggunakan statistik atau tabulasi silang.
Teknik EDA ini menggunakan grafik untuk menunjukkan hubungan antara dua data set atau lebih. Grafis multivariate yang paling sering digunakan antara lain adalah bar chart, bar plot, heat map, bubble chart, run chart, multivariate chart, dan scatter plot.
Data spesialis melakukan Exploratory Data Analysis menggunakan bahasa scripting yang paling sering dipakai untuk statistik, contohnya Python dan R.
Seorang analis harus mengikuti langkah-langkah berikut dalam menerapkan EDA pada penelitian mereka, antara lain:
Memahami Exploratory Data Analysis nyatanya bukan perkara yang mudah. Hanya mengerti tentang apa itu EDA tidaklah cukup. Anda perlu terjun langsung dan mencoba mengolah data di dunia nyata. Dengan begitu, penguasaan akan materi dan penerapan EDA menjadi jauh lebih mudah. Untuk itu, Anda bisa bergabung dengan Algoritma Data Science School yang menyediakan berbagai kelas dengan materi seputar data science!
Referensi:
Belajar data science memang bukan hal yang bisa dilakukan hanya dengan teori. Justru cara yang paling tepat untuk belajar data science adalah dengan terjun langsung menggunakan real-world data. Dengan begitu, proses analisis data, pencarian insight, serta pembuatan machine learning jadi lebih mudah dipahami.
Nah, ketika mengerjakannya, pasti Anda akan menemukan salah satu tahapan bernama Exploratory Data Analysis (EDA). Proses ini tergolong sangat krusial dalam pengolahan data. Apa itu Exploratory Data Analysis? Apa saja contoh dan teknik EDA? Bagaimana langkah-langkah melakukan EDA? Simak ulasannya di bawah ini.
Secara umum, apa itu Exploratory Data Analysis mencakup tentang proses kritis uji investigasi awal pada sebuah data untuk mengidentifikasi pola, menemukan anomali, menguji hipotesis, dan memeriksa asumsi melalui statistik ringkasan dan representasi grafis (visual).
Data specialist menggunakan EDA untuk membedakan kumpulan data apa yang dapat diungkapkan lebih jauh di luar pemodelan data formal atau tugas pengujian hipotesis. Hal ini memungkinkan mereka untuk mendapatkan temuan mendalam tentang variabel dalam kumpulan data dan hubungannya.
EDA dapat membantu mendeteksi kesalahan, mengidentifikasi outlier dalam kumpulan data, memahami hubungan antar data, menggali faktor-faktor penting, menemukan pola dalam data, dan memberikan wawasan baru. EDA sangat bermanfaat untuk analisis statistik. Data profesional sering kali menggunakan EDA untuk menemukan hasil yang valid dan relevan sebagai arah tujuan bisnis yang diinginkan.
Exploratory Data Analysis dapat diterapkan untuk menganalisis data di segala bidang. Salah satunya untuk menganalisa uji coba klinis. Sekelompok peneliti menggunakan EDA untuk mengidentifikasi outliers (pencilan) dalam satu populasi pasien serta memverifikasi homogenitas mereka.
Para peneliti kemudian mengklasifikasi pasien yang berpartisipasi ke dalam 40 ciri, termasuk usia dan jenis kelamin. EDA membantu mereka mengetahui bahwa kelompok wanita dalam penelitian tersebut lebih homogen dibandingkan kelompok pria. Hal ini kemudian menjadi acuan bagi peneliti untuk mengadakan uji coba medis dengan perlakuan yang berbeda kepada kelompok pria. Sehingga, penelitian ini terhindar dari temuan palsu.
Contoh lain penerapan EDA adalah dalam bidang retail. Suatu toko online menjual berbagai jenis alas kaki mulai dari sandal, sepatu, sepatu pesta, hiking boots, dan sepatu formal. EDA memungkinkan analis menunjukkan perbedaan tren penjualan secara grafis serta memvisualisasikan data yang berhubungan dengan produk best-selling, demografi dan preferensi pembeli, pola belanja pelanggan, dan unit terjual dalam satu periode.
Setidaknya ada empat teknik Exploratory Data Analysis yang umum digunakan oleh ahli data, antara lain:
Inilah teknik yang paling sederhana dari EDA, di mana data yang diolah memiliki satu variabel. Karena hanya satu variabel, maka data profesional tidak perlu mengkhawatirkan tentang relasi data.
Tujuan standar Univariate Non-Graphical pada EDA adalah untuk mengetahui distribusi/data sampel yang mendasari dan melakukan pengamatan tentang populasi. Deteksi outlier juga merupakan bagian dari analisis. Ciri-ciri distribusi populasi antara lain: Central tendency (mean, median, dan modus), spread (variabilitas, varian dan standar deviasi), bentuk distribusi (skewness dan kurtosis).
Bila Non-graphical data tidak menunjukan visualisasi lengkap mengenai data yang diolah, maka dalam metode graphical, peneliti akan menampilkan data secara visual. Data yang ditunjukkan dapat berupa stem-and-leaf plots, box plots, dan histogram.
Multivariate data memiliki beberapa variabel. Metode ini menunjukkan hubungan antara dua data variabel atau lebih menggunakan statistik atau tabulasi silang.
Teknik EDA ini menggunakan grafik untuk menunjukkan hubungan antara dua data set atau lebih. Grafis multivariate yang paling sering digunakan antara lain adalah bar chart, bar plot, heat map, bubble chart, run chart, multivariate chart, dan scatter plot.
Data spesialis melakukan Exploratory Data Analysis menggunakan bahasa scripting yang paling sering dipakai untuk statistik, contohnya Python dan R.
Seorang analis harus mengikuti langkah-langkah berikut dalam menerapkan EDA pada penelitian mereka, antara lain:
Memahami Exploratory Data Analysis nyatanya bukan perkara yang mudah. Hanya mengerti tentang apa itu EDA tidaklah cukup. Anda perlu terjun langsung dan mencoba mengolah data di dunia nyata. Dengan begitu, penguasaan akan materi dan penerapan EDA menjadi jauh lebih mudah. Untuk itu, Anda bisa bergabung dengan Algoritma Data Science School yang menyediakan berbagai kelas dengan materi seputar data science!
Referensi: