Cara Mudah Eksplorasi Data di Python
12 April 2022
12 April 2022
Analisis data pada dasarnya adalah penerapan statistik dan probabilitas untuk mencari tahu tren dalam kumpulan data. Analisis data membantu Anda untuk memilah tren “nyata” dari noise statistik. Noise adalah sejumlah besar data yang tidak memiliki arti atau nilai. Jika ingin mengeksplorasi data, Anda bisa menggunakan Python untuk melakukannya.
Exploratory Data Analysis (EDA) di Python adalah langkah pertama dalam proses analisis data yang dikembangkan oleh “John Tukey” pada tahun 1970-an. Dalam statistik, analisis data eksplorasi menjadi pendekatan untuk menganalisis kumpulan data agar bisa merangkum karakteristik utamanya, sering kali dengan metode visual. Sesuai namanya, EDA adalah langkah untuk menjelajahi kumpulan data.
Berikut langkah-langkah yang bisa Anda terapkan untuk melakukan eksplorasi data atau EDA pada Python:
Di bawah ini adalah library yang umumnya digunakan untuk melakukan EDA:
Memuat data ke dalam data frame Panda merupakan salah satu langkah terpenting dalam EDA karena nilai dari kumpulan data dipisahkan dengan koma. Jadi, yang harus Anda lakukan hanyalah membaca CSV ke dalam data frame dan data frame Panda akan memprosesnya. Untuk memuat dataset ke dalam notebook, lakukan langkah-langkah sederhana berikut:
Penting untuk memeriksa tipe data karena terkadang MSRP akan disimpan sebagai string atau objek. Jika demikian, Anda harus mengubah string menjadi data integer agar dapat memplot data melalui grafik.
Selanjutnya, hapus kolom yang tidak relevan dan kemudian lakukan penamaan ulang. Sebagian besar nama kolom yang sangat membingungkan untuk dibaca perlu diubah namanya. Ini adalah pendekatan yang baik untuk meningkatkan keterbacaan kumpulan data.
Jika ditemukan baris ganda, penting untuk menghapusnya karena kumpulan data besar umumnya memiliki beberapa data duplikat yang mungkin mengganggu. Oleh karena itu, Anda perlu menghapus semua nilai duplikat dari kumpulan data.
Jika ada null values (nilai yang hilang) dalam dataset sebelum melakukan analisis statistik, Anda perlu menangani nilai yang hilang tersebut. Berikut tiga jenis null values:
Outliers adalah suatu titik atau kumpulan titik yang berbeda dari titik lainnya, terkadang bisa sangat tinggi atau sangat rendah. Usahakan untuk mendeteksi dan menghapus outlier karena outlier adalah salah satu alasan utama model bisa kurang akurat. Oleh karena itu, ada baiknya untuk menghapusnya. Ada dua jenis outlier, yaitu:
Banyak data scientist terburu-buru untuk sampai ke tahap machine learning, beberapa melewatkan proses eksplorasi atau melakukan pekerjaan yang sangat minim. Ini adalah kesalahan yang bisa menghasilkan model tidak akurat, model akurat tapi pada data yang salah, tidak membuat jenis variabel yang tepat dalam persiapan data, atau menggunakan sumber daya secara tidak efisien.
Tanpa eksplorasi, Anda akan menghadapi banyak masalah yang sebetulnya dapat diminimalisir dengan EDA. Untuk menguasai keterampilan ini, daftarkan diri Anda ke kelas data science dari Algoritma Data Science School. Algoritma Data Science School menyediakan beragam kelas mengenai data science yang bisa Anda pilih sesuai kebutuhan atau level expertise.
Referensi:
Analisis data pada dasarnya adalah penerapan statistik dan probabilitas untuk mencari tahu tren dalam kumpulan data. Analisis data membantu Anda untuk memilah tren “nyata” dari noise statistik. Noise adalah sejumlah besar data yang tidak memiliki arti atau nilai. Jika ingin mengeksplorasi data, Anda bisa menggunakan Python untuk melakukannya.
Exploratory Data Analysis (EDA) di Python adalah langkah pertama dalam proses analisis data yang dikembangkan oleh “John Tukey” pada tahun 1970-an. Dalam statistik, analisis data eksplorasi menjadi pendekatan untuk menganalisis kumpulan data agar bisa merangkum karakteristik utamanya, sering kali dengan metode visual. Sesuai namanya, EDA adalah langkah untuk menjelajahi kumpulan data.
Berikut langkah-langkah yang bisa Anda terapkan untuk melakukan eksplorasi data atau EDA pada Python:
Di bawah ini adalah library yang umumnya digunakan untuk melakukan EDA:
Memuat data ke dalam data frame Panda merupakan salah satu langkah terpenting dalam EDA karena nilai dari kumpulan data dipisahkan dengan koma. Jadi, yang harus Anda lakukan hanyalah membaca CSV ke dalam data frame dan data frame Panda akan memprosesnya. Untuk memuat dataset ke dalam notebook, lakukan langkah-langkah sederhana berikut:
Penting untuk memeriksa tipe data karena terkadang MSRP akan disimpan sebagai string atau objek. Jika demikian, Anda harus mengubah string menjadi data integer agar dapat memplot data melalui grafik.
Selanjutnya, hapus kolom yang tidak relevan dan kemudian lakukan penamaan ulang. Sebagian besar nama kolom yang sangat membingungkan untuk dibaca perlu diubah namanya. Ini adalah pendekatan yang baik untuk meningkatkan keterbacaan kumpulan data.
Jika ditemukan baris ganda, penting untuk menghapusnya karena kumpulan data besar umumnya memiliki beberapa data duplikat yang mungkin mengganggu. Oleh karena itu, Anda perlu menghapus semua nilai duplikat dari kumpulan data.
Jika ada null values (nilai yang hilang) dalam dataset sebelum melakukan analisis statistik, Anda perlu menangani nilai yang hilang tersebut. Berikut tiga jenis null values:
Outliers adalah suatu titik atau kumpulan titik yang berbeda dari titik lainnya, terkadang bisa sangat tinggi atau sangat rendah. Usahakan untuk mendeteksi dan menghapus outlier karena outlier adalah salah satu alasan utama model bisa kurang akurat. Oleh karena itu, ada baiknya untuk menghapusnya. Ada dua jenis outlier, yaitu:
Banyak data scientist terburu-buru untuk sampai ke tahap machine learning, beberapa melewatkan proses eksplorasi atau melakukan pekerjaan yang sangat minim. Ini adalah kesalahan yang bisa menghasilkan model tidak akurat, model akurat tapi pada data yang salah, tidak membuat jenis variabel yang tepat dalam persiapan data, atau menggunakan sumber daya secara tidak efisien.
Tanpa eksplorasi, Anda akan menghadapi banyak masalah yang sebetulnya dapat diminimalisir dengan EDA. Untuk menguasai keterampilan ini, daftarkan diri Anda ke kelas data science dari Algoritma Data Science School. Algoritma Data Science School menyediakan beragam kelas mengenai data science yang bisa Anda pilih sesuai kebutuhan atau level expertise.
Referensi: