fbpx

Principal Component Analysis

Principal Component Analysis

Mengenal Principal Component Analysis, Metode Reduksi Dimensi dengan Garis dan Bidang

29 Maret 2022

Principal component analysis (PCA) adalah suatu teknik analisis yang digunakan dalam bidang statistika dan juga data science. Dengan memanfaatkan teknik analisis ini, Anda dapat meringkas informasi yang tercantum dalam tabel data besar hingga menjadi beberapa kumpulan indeks ringkasan yang lebih kecil. Jadi, tahap visualisasi dan analisis data pun menjadi lebih mudah untuk dilakukan.

Penerapan PCA sangat luas, bahkan hampir seluruh industri menerapkan teknik analisis ini. Dari industri kimia, misalnya, principal component analysis adalah teknik yang tepat untuk menggambarkan sifat sampel senyawa atau reaksi kimia tertentu. Untuk lebih mengenal tentang principal component analysis, mari simak penjelasan berikut ini.

Apa itu principal component analysis?

Principal component analysis (PCA) adalah suatu teknik analisis statistik multivariat. Bisa dibilang, inilah teknik analisis statistik yang paling populer sekarang. Biasanya, PCA digunakan dalam bidang pengenalan pola serta pemrosesan sinyal.

PCA pada dasarnya merupakan dasar dari analisis data multivariat yang menerapkan metode proyeksi. Teknik analisis ini biasanya digunakan untuk meringkas tabel data multivariat dalam skala besar hingga bisa dijadikan kumpulan variabel yang lebih kecil atau indeks ringkasan. Dari situ, kemudian variabel dianalisis untuk mengetahui tren tertentu, klaster variabel, hingga outlier.

Kriteria dalam principal component analysis

Untuk menentukan kriteria dalam principal component analysis sebenarnya tidak rumit. Pada kebanyakan kasus, yang dipilih adalah ‘k’ buah komponen utama dari ‘p’ buah komponen utama. Dengan catatan, ‘k’ buah komponen utama tersebut dapat mewakili keragaman data dengan nilai yang cukup besar.

Misalnya, 85% hingga 95% dari data memiliki kriteria k < p. Jika ‘p’ memiliki nilai yang besar dan diketahui bahwa 85-95% dari keragaman total dapat dijelaskan oleh satu atau dua komponen utama, maka komponen tersebut bisa dianggap telah mewakili ‘p’ buah variabel. Meski ringkas, jumlah informasi yang diambil tidak akan banyak berkurang.

Lalu, bagaimana cara kerja principal component analysis dalam menyusun komponen utama? Ada beberapa cara yang bisa dilakukan untuk menyusun komponen utama dalam PCA, di antaranya:

  • Kriteria apriori

    Dalam kriteria ini, analis data harus sudah mengetahui berapa banyak komponen utama yang akan disusun.

  • Kriteria nilai eigen

    Ditentukan dengan melihat besaran nilai eigen. Jika komponen lebih kecil atau kurang dari satu, maka akan langsung dikeluarkan.

  • Kriteria persentase varian 

    Ditentukan dengan melihat persentase kumulatif varian atau pembahasan sebelumnya. Komponen yang lebih besar persentase variannya akan diambil.

Cara kerja principal component analysis

Secara sederhana, cara kerja principal component analysis adalah dengan melalui lima tahapan besar. Tahap pertama adalah standarisasi. Pada tahap ini, seluruh variabel disamakan standarnya. Jadi, tiap variabel bisa memiliki kontribusi yang sama dalam analisis.

Tahap selanjutnya adalah menghitung matrik kovarians. Dengan melakukan tahapan ini, maka Anda bisa mengetahui hubungan antarvariabel dari kumpulan input. Selanjutnya adalah menghitung nilai dan vektor eigen matriks kovarians. Tujuannya adalah agar peneliti bisa mengidentifikasi komponen utama.

Analisis dilanjutkan dengan vektor fitur. Dari komputasi nilai dan vektor eigen, Anda bisa mengetahui mana komponen yang kurang signifikan dan bisa dibuang (komponen dengan nilai eigen rendah). Matriks vektor yang tersisa kemudian disebut vektor fitur. Analisis kemudian ditutup dengan perombakan di sepanjang sumbu komponen utama.

Kapan harus menggunakan principal component analysis?

Principal component analysis adalah teknik yang harus digunakan saat Anda harus mengurangi jumlah variabel, tapi tidak tahu mana yang harus dibuang. Analisis ini juga bisa digunakan saat Anda ingin menguji apakah variabel yang sedang diteliti saling bergantung atau justru tidak terkait sama sekali.

Namun, teknik analisis statistik ini sebaiknya dihindari jika Anda memerlukan penafsiran variabel independen yang jelas dan mudah dipahami. Sebab, variabel independen PCA memiliki kecenderungan untuk kurang bisa ditafsirkan.

Kesimpulan

Jika disimpulkan, principal component analysis adalah suatu teknik analisis yang bertujuan untuk mengurangi data agar interpretasi data bisa dilakukan dengan cepat. Selain itu, teknik analisis statistik ini juga digunakan untuk mengetahui hubungan antarvariabel yang sedang diteliti, saling terkait, atau justru independen.

Selain principal component analysis, ada pula teknik analisis statistik lain yang digunakan dalam data science. Kegunaannya pun berbeda, namun bisa saja teknik-teknik tersebut saling melengkapi. Untuk mendapatkan pemahaman mendalam mengenai teknik analisis data science, Anda bisa mengikuti kelas Algoritma Data Science School. Informasi lengkap mengenai materi dan kelas yang ditawarkan, bisa dicek di sini!

Referensi:

Yuk belajar data science di Algoritma Data Science Education Center! Kamu bisa ikut berbagai kelas data science untuk pemula, salah satunya di program Academy kami.

PELAJARI LEBIH LANJUT

Related Blog

Distributed Processing
Apa Itu Data Analysis Expressions?
jadi data scientist
Cara Menjadi Data Scientist Handal
Distributed Processing
Mengenal Apa Itu Distributed Processing

Principal component analysis (PCA) adalah suatu teknik analisis yang digunakan dalam bidang statistika dan juga data science. Dengan memanfaatkan teknik analisis ini, Anda dapat meringkas informasi yang tercantum dalam tabel data besar hingga menjadi beberapa kumpulan indeks ringkasan yang lebih kecil. Jadi, tahap visualisasi dan analisis data pun menjadi lebih mudah untuk dilakukan.

Penerapan PCA sangat luas, bahkan hampir seluruh industri menerapkan teknik analisis ini. Dari industri kimia, misalnya, principal component analysis adalah teknik yang tepat untuk menggambarkan sifat sampel senyawa atau reaksi kimia tertentu. Untuk lebih mengenal tentang principal component analysis, mari simak penjelasan berikut ini.

Apa itu principal component analysis?

Principal component analysis (PCA) adalah suatu teknik analisis statistik multivariat. Bisa dibilang, inilah teknik analisis statistik yang paling populer sekarang. Biasanya, PCA digunakan dalam bidang pengenalan pola serta pemrosesan sinyal.

PCA pada dasarnya merupakan dasar dari analisis data multivariat yang menerapkan metode proyeksi. Teknik analisis ini biasanya digunakan untuk meringkas tabel data multivariat dalam skala besar hingga bisa dijadikan kumpulan variabel yang lebih kecil atau indeks ringkasan. Dari situ, kemudian variabel dianalisis untuk mengetahui tren tertentu, klaster variabel, hingga outlier.

Kriteria dalam principal component analysis

Untuk menentukan kriteria dalam principal component analysis sebenarnya tidak rumit. Pada kebanyakan kasus, yang dipilih adalah ‘k’ buah komponen utama dari ‘p’ buah komponen utama. Dengan catatan, ‘k’ buah komponen utama tersebut dapat mewakili keragaman data dengan nilai yang cukup besar.

Misalnya, 85% hingga 95% dari data memiliki kriteria k < p. Jika ‘p’ memiliki nilai yang besar dan diketahui bahwa 85-95% dari keragaman total dapat dijelaskan oleh satu atau dua komponen utama, maka komponen tersebut bisa dianggap telah mewakili ‘p’ buah variabel. Meski ringkas, jumlah informasi yang diambil tidak akan banyak berkurang.

Lalu, bagaimana cara kerja principal component analysis dalam menyusun komponen utama? Ada beberapa cara yang bisa dilakukan untuk menyusun komponen utama dalam PCA, di antaranya:

  • Kriteria apriori

    Dalam kriteria ini, analis data harus sudah mengetahui berapa banyak komponen utama yang akan disusun.

  • Kriteria nilai eigen

    Ditentukan dengan melihat besaran nilai eigen. Jika komponen lebih kecil atau kurang dari satu, maka akan langsung dikeluarkan.

  • Kriteria persentase varian 

    Ditentukan dengan melihat persentase kumulatif varian atau pembahasan sebelumnya. Komponen yang lebih besar persentase variannya akan diambil.

Cara kerja principal component analysis

Secara sederhana, cara kerja principal component analysis adalah dengan melalui lima tahapan besar. Tahap pertama adalah standarisasi. Pada tahap ini, seluruh variabel disamakan standarnya. Jadi, tiap variabel bisa memiliki kontribusi yang sama dalam analisis.

Tahap selanjutnya adalah menghitung matrik kovarians. Dengan melakukan tahapan ini, maka Anda bisa mengetahui hubungan antarvariabel dari kumpulan input. Selanjutnya adalah menghitung nilai dan vektor eigen matriks kovarians. Tujuannya adalah agar peneliti bisa mengidentifikasi komponen utama.

Analisis dilanjutkan dengan vektor fitur. Dari komputasi nilai dan vektor eigen, Anda bisa mengetahui mana komponen yang kurang signifikan dan bisa dibuang (komponen dengan nilai eigen rendah). Matriks vektor yang tersisa kemudian disebut vektor fitur. Analisis kemudian ditutup dengan perombakan di sepanjang sumbu komponen utama.

Kapan harus menggunakan principal component analysis?

Principal component analysis adalah teknik yang harus digunakan saat Anda harus mengurangi jumlah variabel, tapi tidak tahu mana yang harus dibuang. Analisis ini juga bisa digunakan saat Anda ingin menguji apakah variabel yang sedang diteliti saling bergantung atau justru tidak terkait sama sekali.

Namun, teknik analisis statistik ini sebaiknya dihindari jika Anda memerlukan penafsiran variabel independen yang jelas dan mudah dipahami. Sebab, variabel independen PCA memiliki kecenderungan untuk kurang bisa ditafsirkan.

Kesimpulan

Jika disimpulkan, principal component analysis adalah suatu teknik analisis yang bertujuan untuk mengurangi data agar interpretasi data bisa dilakukan dengan cepat. Selain itu, teknik analisis statistik ini juga digunakan untuk mengetahui hubungan antarvariabel yang sedang diteliti, saling terkait, atau justru independen.

Selain principal component analysis, ada pula teknik analisis statistik lain yang digunakan dalam data science. Kegunaannya pun berbeda, namun bisa saja teknik-teknik tersebut saling melengkapi. Untuk mendapatkan pemahaman mendalam mengenai teknik analisis data science, Anda bisa mengikuti kelas Algoritma Data Science School. Informasi lengkap mengenai materi dan kelas yang ditawarkan, bisa dicek di sini!

Referensi:

Yuk belajar data science di Algoritma Data Science Education Center! Kamu bisa ikut berbagai kelas data science untuk pemula, salah satunya di program Academy kami.

PELAJARI LEBIH LANJUT

Related Blog

Real Time Processing
Perbedaan Batch Processing dan Real Time Processing
Metode Pengolahan Data
Tipe, Langkah, dan Metode Pengolahan Data
Batch Processing
Mengenal Batch Processing dan Implementasinya