fbpx

Cara Mudah Eksplorasi Data di Python

12 April 2022

Analisis data pada dasarnya adalah penerapan statistik dan probabilitas untuk mencari tahu tren dalam kumpulan data. Analisis data membantu Anda untuk memilah tren “nyata” dari noise statistik. Noise adalah sejumlah besar data yang tidak memiliki arti atau nilai. Jika ingin mengeksplorasi data, Anda bisa menggunakan Python untuk melakukannya.

Mengenal exploratory data analysis di Python

Exploratory Data Analysis (EDA) di Python adalah langkah pertama dalam proses analisis data yang dikembangkan oleh “John Tukey” pada tahun 1970-an. Dalam statistik, analisis data eksplorasi menjadi pendekatan untuk menganalisis kumpulan data agar bisa merangkum karakteristik utamanya, sering kali dengan metode visual. Sesuai namanya, EDA adalah langkah untuk menjelajahi kumpulan data.

Cara exploratory data analysis di Python

Berikut langkah-langkah yang bisa Anda terapkan untuk melakukan eksplorasi data atau EDA pada Python:

 1. Import libraries yang dibutuhkan

Di bawah ini adalah library yang umumnya digunakan untuk melakukan EDA:

  • #Import required libraries
  • Import pandas as pd
  • Import numpy as np
  • Import seaborn as sns #visualisation
  • Import matplotlib.pyplot as plt #visualisation
  • %matplotlib inline sns.set(color_code=True)

2. Muat data ke dalam data frame

Memuat data ke dalam data frame Panda merupakan salah satu langkah terpenting dalam EDA karena nilai dari kumpulan data dipisahkan dengan koma. Jadi, yang harus Anda lakukan hanyalah membaca CSV ke dalam data frame dan data frame Panda akan memprosesnya. Untuk memuat dataset ke dalam notebook, lakukan langkah-langkah sederhana berikut:

  1. Pada Google Colab di sisi kiri notebook, Anda akan menemukan simbol “>”.
  2. Saat Anda mengkliknya, Anda akan menemukan tab dengan tiga opsi, pilih File
  3. Kemudian, Anda dapat dengan mudah mengunggah file dengan bantuan opsi Unggah. 
  4. Tidak perlu mount ke google drive atau menggunakan library tertentu, cukup unggah kumpulan data dan pekerjaan Anda selesai. 

3. Cek tipe-tipe data

Penting untuk memeriksa tipe data karena terkadang MSRP akan disimpan sebagai string atau objek. Jika demikian, Anda harus mengubah string menjadi data integer agar dapat memplot data melalui grafik. 

4. Hapus kolom yang tidak relevan

Selanjutnya, hapus kolom yang tidak relevan dan kemudian lakukan penamaan ulang. Sebagian besar nama kolom yang sangat membingungkan untuk dibaca perlu diubah namanya. Ini adalah pendekatan yang baik untuk meningkatkan keterbacaan kumpulan data. 

5. Hapus jika ada baris ganda

Jika ditemukan baris ganda, penting untuk menghapusnya karena kumpulan data besar umumnya memiliki beberapa data duplikat yang mungkin mengganggu. Oleh karena itu, Anda perlu menghapus semua nilai duplikat dari kumpulan data. 

6. Hapus null values

Jika ada null values (nilai yang hilang) dalam dataset sebelum melakukan analisis statistik, Anda perlu menangani nilai yang hilang tersebut. Berikut tiga jenis null values:

  • MCAR (Hilang sepenuhnya secara acak) Nilai-nilai yang tidak bergantung pada fitur lainnya.
  • MAR (Hilang secara random) – Nilai-nilai yang mungkin bergantung pada fitur lain.
  • MNAR (Tidak hilang secara random) – Nilai-nilai yang hilang karena beberapa alasan.

7. Cari apakah ada outliers

Outliers adalah suatu titik atau kumpulan titik yang berbeda dari titik lainnya, terkadang bisa sangat tinggi atau sangat rendah. Usahakan untuk mendeteksi dan menghapus outlier karena outlier adalah salah satu alasan utama model bisa kurang akurat. Oleh karena itu, ada baiknya untuk menghapusnya. Ada dua jenis outlier, yaitu:

  • Univariate outliersTitik data yang nilainya berada di luar rentang nilai dan diharapkan berdasarkan satu variabel.
  • Univariate outliersSaat memplot data, beberapa nilai dari satu variabel mungkin tidak berada di luar rentang yang diharapkan. Namun, saat Anda memplot data dengan beberapa variabel lain, nilai ini mungkin terletak jauh dari nilai yang diharapkan.

Kesimpulan

Banyak data scientist terburu-buru untuk sampai ke tahap machine learning, beberapa melewatkan proses eksplorasi atau melakukan pekerjaan yang sangat minim. Ini adalah kesalahan yang bisa menghasilkan model tidak akurat, model akurat tapi pada data yang salah, tidak membuat jenis variabel yang tepat dalam persiapan data, atau menggunakan sumber daya secara tidak efisien.

Tanpa eksplorasi, Anda akan menghadapi banyak masalah yang sebetulnya dapat diminimalisir dengan EDA. Untuk menguasai keterampilan ini, daftarkan diri Anda ke kelas data science dari Algoritma Data Science School. Algoritma Data Science School menyediakan beragam kelas mengenai data science yang bisa Anda pilih sesuai kebutuhan atau level expertise.

Referensi:

Yuk belajar data science di Algoritma Data Science Education Center! Kamu bisa ikut berbagai kelas data science untuk pemula, salah satunya di program Academy kami.

PELAJARI LEBIH LANJUT

Related Blog

Distributed Processing
Apa Itu Data Analysis Expressions?
jadi data scientist
Cara Menjadi Data Scientist Handal
Distributed Processing
Mengenal Apa Itu Distributed Processing

Analisis data pada dasarnya adalah penerapan statistik dan probabilitas untuk mencari tahu tren dalam kumpulan data. Analisis data membantu Anda untuk memilah tren “nyata” dari noise statistik. Noise adalah sejumlah besar data yang tidak memiliki arti atau nilai. Jika ingin mengeksplorasi data, Anda bisa menggunakan Python untuk melakukannya.

Mengenal exploratory data analysis di Python

Exploratory Data Analysis (EDA) di Python adalah langkah pertama dalam proses analisis data yang dikembangkan oleh “John Tukey” pada tahun 1970-an. Dalam statistik, analisis data eksplorasi menjadi pendekatan untuk menganalisis kumpulan data agar bisa merangkum karakteristik utamanya, sering kali dengan metode visual. Sesuai namanya, EDA adalah langkah untuk menjelajahi kumpulan data.

Cara exploratory data analysis di Python

Berikut langkah-langkah yang bisa Anda terapkan untuk melakukan eksplorasi data atau EDA pada Python:

 1. Import libraries yang dibutuhkan

Di bawah ini adalah library yang umumnya digunakan untuk melakukan EDA:

  • #Import required libraries
  • Import pandas as pd
  • Import numpy as np
  • Import seaborn as sns #visualisation
  • Import matplotlib.pyplot as plt #visualisation
  • %matplotlib inline sns.set(color_code=True)

2. Muat data ke dalam data frame

Memuat data ke dalam data frame Panda merupakan salah satu langkah terpenting dalam EDA karena nilai dari kumpulan data dipisahkan dengan koma. Jadi, yang harus Anda lakukan hanyalah membaca CSV ke dalam data frame dan data frame Panda akan memprosesnya. Untuk memuat dataset ke dalam notebook, lakukan langkah-langkah sederhana berikut:

  1. Pada Google Colab di sisi kiri notebook, Anda akan menemukan simbol “>”.
  2. Saat Anda mengkliknya, Anda akan menemukan tab dengan tiga opsi, pilih File
  3. Kemudian, Anda dapat dengan mudah mengunggah file dengan bantuan opsi Unggah. 
  4. Tidak perlu mount ke google drive atau menggunakan library tertentu, cukup unggah kumpulan data dan pekerjaan Anda selesai. 

3. Cek tipe-tipe data

Penting untuk memeriksa tipe data karena terkadang MSRP akan disimpan sebagai string atau objek. Jika demikian, Anda harus mengubah string menjadi data integer agar dapat memplot data melalui grafik. 

4. Hapus kolom yang tidak relevan

Selanjutnya, hapus kolom yang tidak relevan dan kemudian lakukan penamaan ulang. Sebagian besar nama kolom yang sangat membingungkan untuk dibaca perlu diubah namanya. Ini adalah pendekatan yang baik untuk meningkatkan keterbacaan kumpulan data. 

5. Hapus jika ada baris ganda

Jika ditemukan baris ganda, penting untuk menghapusnya karena kumpulan data besar umumnya memiliki beberapa data duplikat yang mungkin mengganggu. Oleh karena itu, Anda perlu menghapus semua nilai duplikat dari kumpulan data. 

6. Hapus null values

Jika ada null values (nilai yang hilang) dalam dataset sebelum melakukan analisis statistik, Anda perlu menangani nilai yang hilang tersebut. Berikut tiga jenis null values:

  • MCAR (Hilang sepenuhnya secara acak) Nilai-nilai yang tidak bergantung pada fitur lainnya.
  • MAR (Hilang secara random) – Nilai-nilai yang mungkin bergantung pada fitur lain.
  • MNAR (Tidak hilang secara random) – Nilai-nilai yang hilang karena beberapa alasan.

7. Cari apakah ada outliers

Outliers adalah suatu titik atau kumpulan titik yang berbeda dari titik lainnya, terkadang bisa sangat tinggi atau sangat rendah. Usahakan untuk mendeteksi dan menghapus outlier karena outlier adalah salah satu alasan utama model bisa kurang akurat. Oleh karena itu, ada baiknya untuk menghapusnya. Ada dua jenis outlier, yaitu:

  • Univariate outliersTitik data yang nilainya berada di luar rentang nilai dan diharapkan berdasarkan satu variabel.
  • Univariate outliersSaat memplot data, beberapa nilai dari satu variabel mungkin tidak berada di luar rentang yang diharapkan. Namun, saat Anda memplot data dengan beberapa variabel lain, nilai ini mungkin terletak jauh dari nilai yang diharapkan.

Kesimpulan

Banyak data scientist terburu-buru untuk sampai ke tahap machine learning, beberapa melewatkan proses eksplorasi atau melakukan pekerjaan yang sangat minim. Ini adalah kesalahan yang bisa menghasilkan model tidak akurat, model akurat tapi pada data yang salah, tidak membuat jenis variabel yang tepat dalam persiapan data, atau menggunakan sumber daya secara tidak efisien.

Tanpa eksplorasi, Anda akan menghadapi banyak masalah yang sebetulnya dapat diminimalisir dengan EDA. Untuk menguasai keterampilan ini, daftarkan diri Anda ke kelas data science dari Algoritma Data Science School. Algoritma Data Science School menyediakan beragam kelas mengenai data science yang bisa Anda pilih sesuai kebutuhan atau level expertise.

Referensi:

Yuk belajar data science di Algoritma Data Science Education Center! Kamu bisa ikut berbagai kelas data science untuk pemula, salah satunya di program Academy kami.

PELAJARI LEBIH LANJUT

Related Blog

Real Time Processing
Perbedaan Batch Processing dan Real Time Processing
Metode Pengolahan Data
Tipe, Langkah, dan Metode Pengolahan Data
Batch Processing
Mengenal Batch Processing dan Implementasinya