Get In Touch
PT. Algoritma Data Indonesia.
RDTX Square, 9th Floor. Setiabudi, DKI Jakarta 12930.
WhatsApp: 0816-692-471
Email: community@algorit.ma
31 Maret 2022
subset data
Saat mengolah data, ada kalanya Anda hanya memerlukan beberapa bagian data, bukan keseluruhan data frame. Jika demikian, apa yang harus dilakukan? Biasanya, para data scientists akan memilih untuk melakukan subset data. Salah satu teknik manipulasi data ini tidak terlalu rumit, tapi mampu mengambil bagian dataframe yang diperlukan dengan baik.
Lalu, bagaimana cara melakukan subset data menggunakan Python? Mari simak langkah-langkahnya berikut ini.
Sebelum membahas tentang cara subset data, mari membahas definisi dari data subsetting terlebih dahulu. Secara sederhana, data subsetting adalah suatu proses untuk mengambil beberapa bagian dataframe dan kemudian memindahkannya ke dataframe lain. Data yang diambil tidak bisa asal pilih. Selain menyesuaikan kebutuhan, data yang diambil dan dipindahkan haruslah konsisten.
Meski terdengar sangat simpel, sebenarnya data subsetting cukup kompleks. Terlebih jika Anda memerlukan data dengan spesifikasi yang amat khusus. Sebab, Anda harus melakukan data filter terlebih dahulu. Tanpa melalui proses filter, konsistensi data yang diperlukan akan sulit tercapai.
Dengan melakukan data subsetting, kebutuhan penyimpanan data akan berkurang (bahkan bisa lebih dari 90%). Selain itu, waktu idle juga akan menurun secara signifikan. Penerapan data subsetting bisa membantu Anda mendapatkan kontrol yang lebih baik dalam perputaran pengujian dan pengembangan data.
Sekarang mari membahas cara subset data dengan menggunakan Python. Subset data biasanya diawali dengan impor data agar Anda bisa membuat dataframe. Poin-poin di bawah ini merupakan tahapan yang harus Anda lalui.
Langkah pertama subset data adalah mengambil data yang diperlukan untuk membuat dataframe. Dalam contoh ini, katakanlah Anda menggunakan data dengan nama survey_pelanggan.csv. Impor data tersebut ke dalam dataframe menggunakan Pandas mengikuti format berikut:
surveys_df = pd.read_csv(“data/survey_pelanggan.csv”)
Pastikan impor Pandas telah termuat dan impor sudah di aliasing sebagai pd. Jika proses impor berhasil, maka data secara otomatis akan tersimpan dalam variabel surveys_df pada dataframe Pandas.
Langkah selanjutnya adalah memilih subset data yang dibutuhkan. Gunakan indexing operator atau istilah lainnya tanda kurung siku. Dalam proses ini, Anda bisa memilih kolom, baris, atau kombinasi keduanya. Berikut contoh penerapannya:
Katakanlah Anda ingin mengambil data dari dataframe surveys_df, tepatnya pada kolom nama_id. Untuk memilih kolom, Anda bisa menggunakan indexing operator dengan baris kode berikut ini: surveys_df[‘nama_id’]
Untuk memilih baris, langkahnya pun tidak jauh berbeda. Hanya saja, Anda perlu ingat bahwa Python selalu menerapkan indeks 0. Itu berarti, elemen pertama suatu objek selalu terletak pada posisi 0. Misalnya Anda ingin mengambil baris yang melampirkan informasi pelanggan dengan jumlah transaksi lebih dari 20 kali, yaitu baris 0,1, dan 2, maka bisa mengikuti baris kode berikut: surveys_df[:3]
Pengindeks .loc[ ] merupakan salah satu cara yang efektif untuk memilih baris dan kolom pada dataframe sesuai dengan nama index baris atau kolom . Anda perlu mengambil data dari baris dan kolom sekaligus? Pengindeksi ini adalah solusi yang paling efisien. Namun, Anda perlu ingat bahwa pengindeks .loc[ ] sebenarnya bekerja pada label baris atau kolom. Selain mengindeks .loc [ ] ada juga pengindeks .iloc[ ] yang didasarkan pada indeks baris dan kolom.
Katakanlah Anda ingin mengambil baris pertama dari data nama_id, maka baris kode yang harus ditulis adalah:
nama_id.loc[1]
Namun, jika baris yang diambil lebih dari satu, katakanlah baris 1, 3, 7, dan 9, maka baris kode akan berubah menjadi:
nama_id.loc[[1,3,7,9]]
Dengan indeks loc() Anda juga bisa memilih baris dan kolom sekaligus. Caranya adalah dengan mengetikkan baris kode berikut:
nama_id.loc[1:5,[‘transaksi’, ‘produk’]]
Pada contoh di atas, data yang diambil adalah baris 1 hingga 5 serta kolom yang menampilkan informasi mengenai “transaksi” dan “produk”.
Fungsi iloc() adalah singkatan dari integer location. Fungsi ini bekerja pada pengindeksan integer untuk baris sekaligus kolom. Anda bisa menggunakan baris kode berikut ini:
nama_id.iloc[[1,3,5], [2,4]]
Baris kode tersebut akan menampilkan data subset dari baris pertama, ketiga, dan kelima yang disertai dengan kolom kedua dengan keempat.
Dari sini, bisa disimpulkan bahwa data subsetting merupakan suatu proses untuk mengambil sebagian data dari dataframe yang sesuai dengan nama index baris atau kolom. Anda bisa melakukan subset data dengan memanfaatkan Python. Jangan lupakan aturan dasar Python seperti aturan indeks 0. Apabila aturan tersebut tidak diikuti, dikhawatirkan data yang Anda dapat tidak akan sesuai dengan kebutuhan.
Selain data subsetting, masih ada banyak sekali teknik manipulasi data yang bisa Anda pelajari. Tertarik untuk mempelajari tentang manipulasi data atau materi lain seputar data science? Daftarkan diri Anda di kelas Algoritma Data Science School. Di sini, Anda bisa mempelajari berbagai topik mengenai data science dengan jadwal yang fleksibel. Informasi lengkap, silakan klik di sini!
Referensi:
Saat mengolah data, ada kalanya Anda hanya memerlukan beberapa bagian data, bukan keseluruhan data frame. Jika demikian, apa yang harus dilakukan? Biasanya, para data scientists akan memilih untuk melakukan subset data. Salah satu teknik manipulasi data ini tidak terlalu rumit, tapi mampu mengambil bagian dataframe yang diperlukan dengan baik.
Lalu, bagaimana cara melakukan subset data menggunakan Python? Mari simak langkah-langkahnya berikut ini.
Sebelum membahas tentang cara subset data, mari membahas definisi dari data subsetting terlebih dahulu. Secara sederhana, data subsetting adalah suatu proses untuk mengambil beberapa bagian dataframe dan kemudian memindahkannya ke dataframe lain. Data yang diambil tidak bisa asal pilih. Selain menyesuaikan kebutuhan, data yang diambil dan dipindahkan haruslah konsisten.
Meski terdengar sangat simpel, sebenarnya data subsetting cukup kompleks. Terlebih jika Anda memerlukan data dengan spesifikasi yang amat khusus. Sebab, Anda harus melakukan data filter terlebih dahulu. Tanpa melalui proses filter, konsistensi data yang diperlukan akan sulit tercapai.
Dengan melakukan data subsetting, kebutuhan penyimpanan data akan berkurang (bahkan bisa lebih dari 90%). Selain itu, waktu idle juga akan menurun secara signifikan. Penerapan data subsetting bisa membantu Anda mendapatkan kontrol yang lebih baik dalam perputaran pengujian dan pengembangan data.
Sekarang mari membahas cara subset data dengan menggunakan Python. Subset data biasanya diawali dengan impor data agar Anda bisa membuat dataframe. Poin-poin di bawah ini merupakan tahapan yang harus Anda lalui.
Langkah pertama subset data adalah mengambil data yang diperlukan untuk membuat dataframe. Dalam contoh ini, katakanlah Anda menggunakan data dengan nama survey_pelanggan.csv. Impor data tersebut ke dalam dataframe menggunakan Pandas mengikuti format berikut:
surveys_df = pd.read_csv(“data/survey_pelanggan.csv”)
Pastikan impor Pandas telah termuat dan impor sudah di aliasing sebagai pd. Jika proses impor berhasil, maka data secara otomatis akan tersimpan dalam variabel surveys_df pada dataframe Pandas.
Langkah selanjutnya adalah memilih subset data yang dibutuhkan. Gunakan indexing operator atau istilah lainnya tanda kurung siku. Dalam proses ini, Anda bisa memilih kolom, baris, atau kombinasi keduanya. Berikut contoh penerapannya:
Katakanlah Anda ingin mengambil data dari dataframe surveys_df, tepatnya pada kolom nama_id. Untuk memilih kolom, Anda bisa menggunakan indexing operator dengan baris kode berikut ini: surveys_df[‘nama_id’]
Untuk memilih baris, langkahnya pun tidak jauh berbeda. Hanya saja, Anda perlu ingat bahwa Python selalu menerapkan indeks 0. Itu berarti, elemen pertama suatu objek selalu terletak pada posisi 0. Misalnya Anda ingin mengambil baris yang melampirkan informasi pelanggan dengan jumlah transaksi lebih dari 20 kali, yaitu baris 0,1, dan 2, maka bisa mengikuti baris kode berikut: surveys_df[:3]
Pengindeks .loc[ ] merupakan salah satu cara yang efektif untuk memilih baris dan kolom pada dataframe sesuai dengan nama index baris atau kolom . Anda perlu mengambil data dari baris dan kolom sekaligus? Pengindeksi ini adalah solusi yang paling efisien. Namun, Anda perlu ingat bahwa pengindeks .loc[ ] sebenarnya bekerja pada label baris atau kolom. Selain mengindeks .loc [ ] ada juga pengindeks .iloc[ ] yang didasarkan pada indeks baris dan kolom.
Katakanlah Anda ingin mengambil baris pertama dari data nama_id, maka baris kode yang harus ditulis adalah:
nama_id.loc[1]
Namun, jika baris yang diambil lebih dari satu, katakanlah baris 1, 3, 7, dan 9, maka baris kode akan berubah menjadi:
nama_id.loc[[1,3,7,9]]
Dengan indeks loc() Anda juga bisa memilih baris dan kolom sekaligus. Caranya adalah dengan mengetikkan baris kode berikut:
nama_id.loc[1:5,[‘transaksi’, ‘produk’]]
Pada contoh di atas, data yang diambil adalah baris 1 hingga 5 serta kolom yang menampilkan informasi mengenai “transaksi” dan “produk”.
Fungsi iloc() adalah singkatan dari integer location. Fungsi ini bekerja pada pengindeksan integer untuk baris sekaligus kolom. Anda bisa menggunakan baris kode berikut ini:
nama_id.iloc[[1,3,5], [2,4]]
Baris kode tersebut akan menampilkan data subset dari baris pertama, ketiga, dan kelima yang disertai dengan kolom kedua dengan keempat.
Dari sini, bisa disimpulkan bahwa data subsetting merupakan suatu proses untuk mengambil sebagian data dari dataframe yang sesuai dengan nama index baris atau kolom. Anda bisa melakukan subset data dengan memanfaatkan Python. Jangan lupakan aturan dasar Python seperti aturan indeks 0. Apabila aturan tersebut tidak diikuti, dikhawatirkan data yang Anda dapat tidak akan sesuai dengan kebutuhan.
Selain data subsetting, masih ada banyak sekali teknik manipulasi data yang bisa Anda pelajari. Tertarik untuk mempelajari tentang manipulasi data atau materi lain seputar data science? Daftarkan diri Anda di kelas Algoritma Data Science School. Di sini, Anda bisa mempelajari berbagai topik mengenai data science dengan jadwal yang fleksibel. Informasi lengkap, silakan klik di sini!
Referensi: