Principal Component Analysis
Get In Touch
PT. Algoritma Data Indonesia.
RDTX Square, 9th Floor. Setiabudi, DKI Jakarta 12930.
Office: 0816-692-471
Email: community@algorit.ma
Principal Component Analysis
29 Maret 2022
Principal component analysis (PCA) adalah suatu teknik analisis yang digunakan dalam bidang statistika dan juga data science. Dengan memanfaatkan teknik analisis ini, Anda dapat meringkas informasi yang tercantum dalam tabel data besar hingga menjadi beberapa kumpulan indeks ringkasan yang lebih kecil. Jadi, tahap visualisasi dan analisis data pun menjadi lebih mudah untuk dilakukan.
Penerapan PCA sangat luas, bahkan hampir seluruh industri menerapkan teknik analisis ini. Dari industri kimia, misalnya, principal component analysis adalah teknik yang tepat untuk menggambarkan sifat sampel senyawa atau reaksi kimia tertentu. Untuk lebih mengenal tentang principal component analysis, mari simak penjelasan berikut ini.
Principal component analysis (PCA) adalah suatu teknik analisis statistik multivariat. Bisa dibilang, inilah teknik analisis statistik yang paling populer sekarang. Biasanya, PCA digunakan dalam bidang pengenalan pola serta pemrosesan sinyal.
PCA pada dasarnya merupakan dasar dari analisis data multivariat yang menerapkan metode proyeksi. Teknik analisis ini biasanya digunakan untuk meringkas tabel data multivariat dalam skala besar hingga bisa dijadikan kumpulan variabel yang lebih kecil atau indeks ringkasan. Dari situ, kemudian variabel dianalisis untuk mengetahui tren tertentu, klaster variabel, hingga outlier.
Untuk menentukan kriteria dalam principal component analysis sebenarnya tidak rumit. Pada kebanyakan kasus, yang dipilih adalah ‘k’ buah komponen utama dari ‘p’ buah komponen utama. Dengan catatan, ‘k’ buah komponen utama tersebut dapat mewakili keragaman data dengan nilai yang cukup besar.
Misalnya, 85% hingga 95% dari data memiliki kriteria k < p. Jika ‘p’ memiliki nilai yang besar dan diketahui bahwa 85-95% dari keragaman total dapat dijelaskan oleh satu atau dua komponen utama, maka komponen tersebut bisa dianggap telah mewakili ‘p’ buah variabel. Meski ringkas, jumlah informasi yang diambil tidak akan banyak berkurang.
Lalu, bagaimana cara kerja principal component analysis dalam menyusun komponen utama? Ada beberapa cara yang bisa dilakukan untuk menyusun komponen utama dalam PCA, di antaranya:
Dalam kriteria ini, analis data harus sudah mengetahui berapa banyak komponen utama yang akan disusun.
Ditentukan dengan melihat besaran nilai eigen. Jika komponen lebih kecil atau kurang dari satu, maka akan langsung dikeluarkan.
Ditentukan dengan melihat persentase kumulatif varian atau pembahasan sebelumnya. Komponen yang lebih besar persentase variannya akan diambil.
Secara sederhana, cara kerja principal component analysis adalah dengan melalui lima tahapan besar. Tahap pertama adalah standarisasi. Pada tahap ini, seluruh variabel disamakan standarnya. Jadi, tiap variabel bisa memiliki kontribusi yang sama dalam analisis.
Tahap selanjutnya adalah menghitung matrik kovarians. Dengan melakukan tahapan ini, maka Anda bisa mengetahui hubungan antarvariabel dari kumpulan input. Selanjutnya adalah menghitung nilai dan vektor eigen matriks kovarians. Tujuannya adalah agar peneliti bisa mengidentifikasi komponen utama.
Analisis dilanjutkan dengan vektor fitur. Dari komputasi nilai dan vektor eigen, Anda bisa mengetahui mana komponen yang kurang signifikan dan bisa dibuang (komponen dengan nilai eigen rendah). Matriks vektor yang tersisa kemudian disebut vektor fitur. Analisis kemudian ditutup dengan perombakan di sepanjang sumbu komponen utama.
Principal component analysis adalah teknik yang harus digunakan saat Anda harus mengurangi jumlah variabel, tapi tidak tahu mana yang harus dibuang. Analisis ini juga bisa digunakan saat Anda ingin menguji apakah variabel yang sedang diteliti saling bergantung atau justru tidak terkait sama sekali.
Namun, teknik analisis statistik ini sebaiknya dihindari jika Anda memerlukan penafsiran variabel independen yang jelas dan mudah dipahami. Sebab, variabel independen PCA memiliki kecenderungan untuk kurang bisa ditafsirkan.
Jika disimpulkan, principal component analysis adalah suatu teknik analisis yang bertujuan untuk mengurangi data agar interpretasi data bisa dilakukan dengan cepat. Selain itu, teknik analisis statistik ini juga digunakan untuk mengetahui hubungan antarvariabel yang sedang diteliti, saling terkait, atau justru independen.
Selain principal component analysis, ada pula teknik analisis statistik lain yang digunakan dalam data science. Kegunaannya pun berbeda, namun bisa saja teknik-teknik tersebut saling melengkapi. Untuk mendapatkan pemahaman mendalam mengenai teknik analisis data science, Anda bisa mengikuti kelas Algoritma Data Science School. Informasi lengkap mengenai materi dan kelas yang ditawarkan, bisa dicek di sini!
Referensi:
Principal component analysis (PCA) adalah suatu teknik analisis yang digunakan dalam bidang statistika dan juga data science. Dengan memanfaatkan teknik analisis ini, Anda dapat meringkas informasi yang tercantum dalam tabel data besar hingga menjadi beberapa kumpulan indeks ringkasan yang lebih kecil. Jadi, tahap visualisasi dan analisis data pun menjadi lebih mudah untuk dilakukan.
Penerapan PCA sangat luas, bahkan hampir seluruh industri menerapkan teknik analisis ini. Dari industri kimia, misalnya, principal component analysis adalah teknik yang tepat untuk menggambarkan sifat sampel senyawa atau reaksi kimia tertentu. Untuk lebih mengenal tentang principal component analysis, mari simak penjelasan berikut ini.
Principal component analysis (PCA) adalah suatu teknik analisis statistik multivariat. Bisa dibilang, inilah teknik analisis statistik yang paling populer sekarang. Biasanya, PCA digunakan dalam bidang pengenalan pola serta pemrosesan sinyal.
PCA pada dasarnya merupakan dasar dari analisis data multivariat yang menerapkan metode proyeksi. Teknik analisis ini biasanya digunakan untuk meringkas tabel data multivariat dalam skala besar hingga bisa dijadikan kumpulan variabel yang lebih kecil atau indeks ringkasan. Dari situ, kemudian variabel dianalisis untuk mengetahui tren tertentu, klaster variabel, hingga outlier.
Untuk menentukan kriteria dalam principal component analysis sebenarnya tidak rumit. Pada kebanyakan kasus, yang dipilih adalah ‘k’ buah komponen utama dari ‘p’ buah komponen utama. Dengan catatan, ‘k’ buah komponen utama tersebut dapat mewakili keragaman data dengan nilai yang cukup besar.
Misalnya, 85% hingga 95% dari data memiliki kriteria k < p. Jika ‘p’ memiliki nilai yang besar dan diketahui bahwa 85-95% dari keragaman total dapat dijelaskan oleh satu atau dua komponen utama, maka komponen tersebut bisa dianggap telah mewakili ‘p’ buah variabel. Meski ringkas, jumlah informasi yang diambil tidak akan banyak berkurang.
Lalu, bagaimana cara kerja principal component analysis dalam menyusun komponen utama? Ada beberapa cara yang bisa dilakukan untuk menyusun komponen utama dalam PCA, di antaranya:
Dalam kriteria ini, analis data harus sudah mengetahui berapa banyak komponen utama yang akan disusun.
Ditentukan dengan melihat besaran nilai eigen. Jika komponen lebih kecil atau kurang dari satu, maka akan langsung dikeluarkan.
Ditentukan dengan melihat persentase kumulatif varian atau pembahasan sebelumnya. Komponen yang lebih besar persentase variannya akan diambil.
Secara sederhana, cara kerja principal component analysis adalah dengan melalui lima tahapan besar. Tahap pertama adalah standarisasi. Pada tahap ini, seluruh variabel disamakan standarnya. Jadi, tiap variabel bisa memiliki kontribusi yang sama dalam analisis.
Tahap selanjutnya adalah menghitung matrik kovarians. Dengan melakukan tahapan ini, maka Anda bisa mengetahui hubungan antarvariabel dari kumpulan input. Selanjutnya adalah menghitung nilai dan vektor eigen matriks kovarians. Tujuannya adalah agar peneliti bisa mengidentifikasi komponen utama.
Analisis dilanjutkan dengan vektor fitur. Dari komputasi nilai dan vektor eigen, Anda bisa mengetahui mana komponen yang kurang signifikan dan bisa dibuang (komponen dengan nilai eigen rendah). Matriks vektor yang tersisa kemudian disebut vektor fitur. Analisis kemudian ditutup dengan perombakan di sepanjang sumbu komponen utama.
Principal component analysis adalah teknik yang harus digunakan saat Anda harus mengurangi jumlah variabel, tapi tidak tahu mana yang harus dibuang. Analisis ini juga bisa digunakan saat Anda ingin menguji apakah variabel yang sedang diteliti saling bergantung atau justru tidak terkait sama sekali.
Namun, teknik analisis statistik ini sebaiknya dihindari jika Anda memerlukan penafsiran variabel independen yang jelas dan mudah dipahami. Sebab, variabel independen PCA memiliki kecenderungan untuk kurang bisa ditafsirkan.
Jika disimpulkan, principal component analysis adalah suatu teknik analisis yang bertujuan untuk mengurangi data agar interpretasi data bisa dilakukan dengan cepat. Selain itu, teknik analisis statistik ini juga digunakan untuk mengetahui hubungan antarvariabel yang sedang diteliti, saling terkait, atau justru independen.
Selain principal component analysis, ada pula teknik analisis statistik lain yang digunakan dalam data science. Kegunaannya pun berbeda, namun bisa saja teknik-teknik tersebut saling melengkapi. Untuk mendapatkan pemahaman mendalam mengenai teknik analisis data science, Anda bisa mengikuti kelas Algoritma Data Science School. Informasi lengkap mengenai materi dan kelas yang ditawarkan, bisa dicek di sini!
Referensi: