fbpx

Cara Subset Data Python dengan Cepat

31 Maret 2022

subset data

Saat mengolah data, ada kalanya Anda hanya memerlukan beberapa bagian data, bukan keseluruhan data frame. Jika demikian, apa yang harus dilakukan? Biasanya, para data scientists akan memilih untuk melakukan subset data. Salah satu teknik manipulasi data ini tidak terlalu rumit, tapi mampu mengambil bagian dataframe yang diperlukan dengan baik.

Lalu, bagaimana cara melakukan subset data menggunakan Python? Mari simak langkah-langkahnya berikut ini.

Mengenal apa itu data subsetting

Sebelum membahas tentang cara subset data, mari membahas definisi dari data subsetting terlebih dahulu. Secara sederhana, data subsetting adalah suatu proses untuk mengambil beberapa bagian dataframe dan kemudian memindahkannya ke dataframe lain. Data yang diambil tidak bisa asal pilih. Selain menyesuaikan kebutuhan, data yang diambil dan dipindahkan haruslah konsisten.

Meski terdengar sangat simpel, sebenarnya data subsetting cukup kompleks. Terlebih jika Anda memerlukan data dengan spesifikasi yang amat khusus. Sebab, Anda harus melakukan data filter terlebih dahulu. Tanpa melalui proses filter, konsistensi data yang diperlukan akan sulit tercapai.

Dengan melakukan data subsetting, kebutuhan penyimpanan data akan berkurang (bahkan bisa lebih dari 90%). Selain itu, waktu idle juga akan menurun secara signifikan. Penerapan data subsetting bisa membantu Anda mendapatkan kontrol yang lebih baik dalam perputaran pengujian dan pengembangan data.

Melakukan subset data dengan Python

Sekarang mari membahas cara subset data dengan menggunakan Python. Subset data biasanya diawali dengan impor data agar Anda bisa membuat dataframe. Poin-poin di bawah ini merupakan tahapan yang harus Anda lalui.

 1. Impor data untuk membuat dataframe

Langkah pertama subset data adalah mengambil data yang diperlukan untuk membuat dataframe. Dalam contoh ini, katakanlah Anda menggunakan data dengan nama survey_pelanggan.csv. Impor data tersebut ke dalam dataframe menggunakan Pandas mengikuti format berikut:

surveys_df = pd.read_csv(“data/survey_pelanggan.csv”)

Pastikan impor Pandas telah termuat dan impor sudah di aliasing sebagai pd. Jika proses impor berhasil, maka data secara otomatis akan tersimpan dalam variabel surveys_df pada dataframe Pandas.

2. Pilih subset dataframe menggunakan indexing operator

Langkah selanjutnya adalah memilih subset data yang dibutuhkan. Gunakan indexing operator atau istilah lainnya tanda kurung siku. Dalam proses ini, Anda bisa memilih kolom, baris, atau kombinasi keduanya. Berikut contoh penerapannya:

  • Memilih kolom saja

Katakanlah Anda ingin mengambil data dari dataframe surveys_df, tepatnya pada kolom nama_id. Untuk memilih kolom, Anda bisa menggunakan indexing operator dengan baris kode berikut ini: surveys_df[‘nama_id’]

  • Memilih baris saja

Untuk memilih baris, langkahnya pun tidak jauh berbeda. Hanya saja, Anda perlu ingat bahwa Python selalu menerapkan indeks 0. Itu berarti, elemen pertama suatu objek selalu terletak pada posisi 0. Misalnya Anda ingin mengambil baris yang melampirkan informasi pelanggan dengan jumlah transaksi lebih dari 20 kali, yaitu baris 0,1, dan 2, maka bisa mengikuti baris kode berikut: surveys_df[:3]

3. Subset dataframe di Python dengan loc [ ] atau iloc [ ]

Pengindeks .loc[ ] merupakan salah satu cara yang efektif untuk memilih baris dan kolom pada dataframe sesuai dengan nama index baris atau kolom . Anda perlu mengambil data dari baris dan kolom sekaligus? Pengindeksi ini adalah solusi yang paling efisien. Namun, Anda perlu ingat bahwa pengindeks .loc[ ] sebenarnya bekerja pada label baris atau kolom. Selain mengindeks .loc [ ] ada juga pengindeks .iloc[ ] yang didasarkan pada indeks baris dan kolom.

  • Memilih baris dengan loc [ ]

Katakanlah Anda ingin mengambil baris pertama dari data nama_id, maka baris kode yang harus ditulis adalah:

nama_id.loc[1]

Namun, jika baris yang diambil lebih dari satu, katakanlah baris 1, 3, 7, dan 9, maka baris kode akan berubah menjadi:

nama_id.loc[[1,3,7,9]]

  • Memilih baris dan kolom dengan loc [ ]

Dengan indeks loc() Anda juga bisa memilih baris dan kolom sekaligus. Caranya adalah dengan mengetikkan baris kode berikut:

nama_id.loc[1:5,[‘transaksi’, ‘produk’]]

Pada contoh di atas, data yang diambil adalah baris 1 hingga 5 serta kolom yang menampilkan informasi mengenai “transaksi” dan “produk”.

  • Data subset dengan iloc [ ]

Fungsi iloc() adalah singkatan dari integer location. Fungsi ini bekerja pada pengindeksan integer untuk baris sekaligus kolom. Anda bisa menggunakan baris kode berikut ini:

nama_id.iloc[[1,3,5], [2,4]]

Baris kode tersebut akan menampilkan data subset dari baris pertama, ketiga, dan kelima yang disertai dengan kolom kedua dengan keempat.

Kesimpulan

Dari sini, bisa disimpulkan bahwa data subsetting merupakan suatu proses untuk mengambil sebagian data dari dataframe yang sesuai dengan nama index baris atau kolom. Anda bisa melakukan subset data dengan memanfaatkan Python. Jangan lupakan aturan dasar Python seperti aturan indeks 0. Apabila aturan tersebut tidak diikuti, dikhawatirkan data yang Anda dapat tidak akan sesuai dengan kebutuhan.

Selain data subsetting, masih ada banyak sekali teknik manipulasi data yang bisa Anda pelajari. Tertarik untuk mempelajari tentang manipulasi data atau materi lain seputar data science? Daftarkan diri Anda di kelas Algoritma Data Science School. Di sini, Anda bisa mempelajari berbagai topik mengenai data science dengan jadwal yang fleksibel. Informasi lengkap, silakan klik di sini!

Referensi:

  • datacarpentry – Indexing, Slicing and Subsetting DataFrames in Python
  • askpython – How to Subset a DataFrame in Python?
  • datprof – DATA SUBSETTING

Yuk belajar data science di Algoritma Data Science Education Center! Kamu bisa ikut berbagai kelas data science untuk pemula, salah satunya di program Academy kami.

PELAJARI LEBIH LANJUT

The last comment needs to be approved.

Related Blog

Distributed Processing
Apa Itu Data Analysis Expressions?
jadi data scientist
Cara Menjadi Data Scientist Handal
Distributed Processing
Mengenal Apa Itu Distributed Processing

Saat mengolah data, ada kalanya Anda hanya memerlukan beberapa bagian data, bukan keseluruhan data frame. Jika demikian, apa yang harus dilakukan? Biasanya, para data scientists akan memilih untuk melakukan subset data. Salah satu teknik manipulasi data ini tidak terlalu rumit, tapi mampu mengambil bagian dataframe yang diperlukan dengan baik.

Lalu, bagaimana cara melakukan subset data menggunakan Python? Mari simak langkah-langkahnya berikut ini.

Mengenal apa itu data subsetting

Sebelum membahas tentang cara subset data, mari membahas definisi dari data subsetting terlebih dahulu. Secara sederhana, data subsetting adalah suatu proses untuk mengambil beberapa bagian dataframe dan kemudian memindahkannya ke dataframe lain. Data yang diambil tidak bisa asal pilih. Selain menyesuaikan kebutuhan, data yang diambil dan dipindahkan haruslah konsisten.

Meski terdengar sangat simpel, sebenarnya data subsetting cukup kompleks. Terlebih jika Anda memerlukan data dengan spesifikasi yang amat khusus. Sebab, Anda harus melakukan data filter terlebih dahulu. Tanpa melalui proses filter, konsistensi data yang diperlukan akan sulit tercapai.

Dengan melakukan data subsetting, kebutuhan penyimpanan data akan berkurang (bahkan bisa lebih dari 90%). Selain itu, waktu idle juga akan menurun secara signifikan. Penerapan data subsetting bisa membantu Anda mendapatkan kontrol yang lebih baik dalam perputaran pengujian dan pengembangan data.

Melakukan subset data dengan Python

Sekarang mari membahas cara subset data dengan menggunakan Python. Subset data biasanya diawali dengan impor data agar Anda bisa membuat dataframe. Poin-poin di bawah ini merupakan tahapan yang harus Anda lalui.

 1. Impor data untuk membuat dataframe

Langkah pertama subset data adalah mengambil data yang diperlukan untuk membuat dataframe. Dalam contoh ini, katakanlah Anda menggunakan data dengan nama survey_pelanggan.csv. Impor data tersebut ke dalam dataframe menggunakan Pandas mengikuti format berikut:

surveys_df = pd.read_csv(“data/survey_pelanggan.csv”)

Pastikan impor Pandas telah termuat dan impor sudah di aliasing sebagai pd. Jika proses impor berhasil, maka data secara otomatis akan tersimpan dalam variabel surveys_df pada dataframe Pandas.

2. Pilih subset dataframe menggunakan indexing operator

Langkah selanjutnya adalah memilih subset data yang dibutuhkan. Gunakan indexing operator atau istilah lainnya tanda kurung siku. Dalam proses ini, Anda bisa memilih kolom, baris, atau kombinasi keduanya. Berikut contoh penerapannya:

  • Memilih kolom saja

Katakanlah Anda ingin mengambil data dari dataframe surveys_df, tepatnya pada kolom nama_id. Untuk memilih kolom, Anda bisa menggunakan indexing operator dengan baris kode berikut ini: surveys_df[‘nama_id’]

  • Memilih baris saja

Untuk memilih baris, langkahnya pun tidak jauh berbeda. Hanya saja, Anda perlu ingat bahwa Python selalu menerapkan indeks 0. Itu berarti, elemen pertama suatu objek selalu terletak pada posisi 0. Misalnya Anda ingin mengambil baris yang melampirkan informasi pelanggan dengan jumlah transaksi lebih dari 20 kali, yaitu baris 0,1, dan 2, maka bisa mengikuti baris kode berikut: surveys_df[:3]

3. Subset dataframe di Python dengan loc [ ] atau iloc [ ]

Pengindeks .loc[ ] merupakan salah satu cara yang efektif untuk memilih baris dan kolom pada dataframe sesuai dengan nama index baris atau kolom . Anda perlu mengambil data dari baris dan kolom sekaligus? Pengindeksi ini adalah solusi yang paling efisien. Namun, Anda perlu ingat bahwa pengindeks .loc[ ] sebenarnya bekerja pada label baris atau kolom. Selain mengindeks .loc [ ] ada juga pengindeks .iloc[ ] yang didasarkan pada indeks baris dan kolom.

  • Memilih baris dengan loc [ ]

Katakanlah Anda ingin mengambil baris pertama dari data nama_id, maka baris kode yang harus ditulis adalah:

nama_id.loc[1]

Namun, jika baris yang diambil lebih dari satu, katakanlah baris 1, 3, 7, dan 9, maka baris kode akan berubah menjadi:

nama_id.loc[[1,3,7,9]]

  • Memilih baris dan kolom dengan loc [ ]

Dengan indeks loc() Anda juga bisa memilih baris dan kolom sekaligus. Caranya adalah dengan mengetikkan baris kode berikut:

nama_id.loc[1:5,[‘transaksi’, ‘produk’]]

Pada contoh di atas, data yang diambil adalah baris 1 hingga 5 serta kolom yang menampilkan informasi mengenai “transaksi” dan “produk”.

  • Data subset dengan iloc [ ]

Fungsi iloc() adalah singkatan dari integer location. Fungsi ini bekerja pada pengindeksan integer untuk baris sekaligus kolom. Anda bisa menggunakan baris kode berikut ini:

nama_id.iloc[[1,3,5], [2,4]]

Baris kode tersebut akan menampilkan data subset dari baris pertama, ketiga, dan kelima yang disertai dengan kolom kedua dengan keempat.

Kesimpulan

Dari sini, bisa disimpulkan bahwa data subsetting merupakan suatu proses untuk mengambil sebagian data dari dataframe yang sesuai dengan nama index baris atau kolom. Anda bisa melakukan subset data dengan memanfaatkan Python. Jangan lupakan aturan dasar Python seperti aturan indeks 0. Apabila aturan tersebut tidak diikuti, dikhawatirkan data yang Anda dapat tidak akan sesuai dengan kebutuhan.

Selain data subsetting, masih ada banyak sekali teknik manipulasi data yang bisa Anda pelajari. Tertarik untuk mempelajari tentang manipulasi data atau materi lain seputar data science? Daftarkan diri Anda di kelas Algoritma Data Science School. Di sini, Anda bisa mempelajari berbagai topik mengenai data science dengan jadwal yang fleksibel. Informasi lengkap, silakan klik di sini!

Referensi:

  • datacarpentry – Indexing, Slicing and Subsetting DataFrames in Python
  • askpython – How to Subset a DataFrame in Python?
  • datprof – DATA SUBSETTING

Yuk belajar data science di Algoritma Data Science Education Center! Kamu bisa ikut berbagai kelas data science untuk pemula, salah satunya di program Academy kami.

PELAJARI LEBIH LANJUT

Related Blog

Real Time Processing
Perbedaan Batch Processing dan Real Time Processing
Metode Pengolahan Data
Tipe, Langkah, dan Metode Pengolahan Data
Batch Processing
Mengenal Batch Processing dan Implementasinya
The last comment needs to be approved.