Mengenal Tipe Analisis Regresi
18 Februari 2022
18 Februari 2022
Analisis regresi dalam bidang ekonomi digunakan untuk menganalisis hubungan suatu variabel dependen dengan suatu variabel independen. Disebut dengan regresi karena hasil yang disajikan berupa persamaan matematis. Lalu, dalam bidang data science, ternyata istilah ini pun digunakan. Seperti apa pengertian analisis regresi dalam data science?
Pada dasarnya, pengertian analisis regresi pada data science pun sama dengan pengertian analisis regresi di bidang ekonomi. Sebab, keduanya memang berasal dari pendekatan matematis. Untuk memudahkan memahaminya, mari simak contoh berikut.
Katakanlah Anda diminta untuk membuat prediksi penjualan kuartal II tahun 2022. Nah, untuk bisa membuat prediksi tersebut, Anda tentu perlu data mengenai beberapa hal yang memengaruhi penjualan, misalnya pengenalan produk baru, perubahan demografi, hingga strategi marketing.
Dari contoh tersebut, bisa diketahui ada dua variabel yang dapat diselidiki hubungannya dengan analisis regresi. Variabel pertama yang merupakan variabel dependen adalah penjualan itu sendiri. Sedangkan variabel kedua atau independen adalah faktor-faktor yang memengaruhi penjualan. Melakukan analisis regresi dalam kasus ini berarti menyelidiki hubungan antara penjualan dan faktor yang memengaruhinya.
Sebenarnya, penggunaan analisis begitu luas. Ini karena ada banyak sekali variabel dependen yang berhubungan dengan satu (atau lebih) variabel independen. Pada umumnya, analisis regresi digunakan saat:
Analisis regresi sendiri hadir dalam beberapa tipe. Dalam artikel kali ini, akan dibahas lima tipe analisis regresi yang sering diterapkan, yaitu linear regression, ridge regression, lasso regression, panel data regression, dan logistic regression. Berikut penjelasan untuk masing-masing tipe.
Merupakan jenis analisis regresi yang paling umum digunakan. Pada tipe ini, variabel dependen bersifat kontinu, sedangkan variabel independen bisa bersifat kontinu atau diskrit (terpisah). Untuk sifat garis regresinya sendiri bersifat linier.
Dalam linear regression, hubungan antara variabel dependen (Y) dengan satu atau lebih variabel independen (X) menggunakan garis lurus yang paling sesuai (garis regresi). Biasanya, hubungan tersebut diwakili dengan persamaan Y=a+b*X. Dalam persamaan tersebut, a berarti intercept, dan b adalah kemiringan garis.
Berikutnya, ada ridge regression. Umumnya, regresi tipe ini digunakan saat data mengalami multikolinearitas atau variabel independen yang sangat berkorelasi.
Multikolinearitas berkaitan dengan perkiraan ordinary least square (OLS). Meski OLS tidak bias, variansnya (ragam suatu peubah acak) cenderung besar. Hal ini menyebabkan terjadinya penyimpangan pada nilai yang diamati. Bisa jadi, nilai yang diamati jauh dari nilai sebenarnya. Dengan menambahkan derajat bias, maka ridge regression dapat meminimalisir penyimpangan tersebut.
Lasso regression mirip dengan ridge regression. Lasso sendiri merupakan singkatan dari Least Absolute Shrinkage and Selection Operator. Sebab, tipe analisis ini pun mampu mengurangi variabilitas dan meningkatkan akurasi model regresi linier.
Meski begitu, saat dibandingkan, keduanya berbeda. Pada lasso regression, Anda menggunakan nilai absolut, bukan kuadrat seperti ridge regression. Dengan begitu, nilai yang menyebabkan estimasi parameter bisa benar-benar nol.
Seperti namanya, panel data regression memanfaatkan struktur data berupa data panel. Biasanya, estimasi parameternya menggunakan metode OLS. Analisis ini pada dasarnya merupakan kombinasi antara penerapan data cross section dan data time series.
Data cross section diukur pada waktu yang berbeda. Itu artinya, data panel berasal dari beberapa individu yang diukur pada periode waktu tertentu. Apabila ditemukan bahwa waktu untuk tiap individu sama, data tersebut dikatakan sebagai balanced panel. Namun, jika yang terjadi sebaliknya, data disebut sebagai unbalanced panel.
Terakhir ada logistic regression yang merupakan suatu metode analisis untuk membuat prediksi. Mekanismenya mirip dengan linear regression. Hanya saja, dalam metode ini, peneliti membuat prediksi variabel dependen berskala dikotomi. Apa itu skala dikotomi? Skala ini merupakan sebuah skala data nominal yang memiliki dua klasifikasi, seperti: Salah dan Betul serta Ya dan Tidak.
Bisa disimpulkan bahwa analisis regresi merupakan suatu metode analisis yang menyelidiki hubungan antara dua variabel, yaitu variabel dependen dan variabel independen. Untuk menerapkan analisis ini, bisa melalui beberapa tipe, yaitu linear regression, ridge regression, lasso regression, panel data regression, dan logistic regression.
Data science mengenal banyak sekali jenis analisis. Selain analisis regresi seperti yang dibahas di sini, Anda juga bisa menemukan analisis lainnya. Tertarik untuk mempelajarinya lebih jauh? Algoritma Data Science School membuka beragam kelas mengenai data science yang bisa dipelajari siapa saja, termasuk pemula. Untuk informasi selengkapnya, klik di sini!
Referensi:
Analisis regresi dalam bidang ekonomi digunakan untuk menganalisis hubungan suatu variabel dependen dengan suatu variabel independen. Disebut dengan regresi karena hasil yang disajikan berupa persamaan matematis. Lalu, dalam bidang data science, ternyata istilah ini pun digunakan. Seperti apa pengertian analisis regresi dalam data science?
Pada dasarnya, pengertian analisis regresi pada data science pun sama dengan pengertian analisis regresi di bidang ekonomi. Sebab, keduanya memang berasal dari pendekatan matematis. Untuk memudahkan memahaminya, mari simak contoh berikut.
Katakanlah Anda diminta untuk membuat prediksi penjualan kuartal II tahun 2022. Nah, untuk bisa membuat prediksi tersebut, Anda tentu perlu data mengenai beberapa hal yang memengaruhi penjualan, misalnya pengenalan produk baru, perubahan demografi, hingga strategi marketing.
Dari contoh tersebut, bisa diketahui ada dua variabel yang dapat diselidiki hubungannya dengan analisis regresi. Variabel pertama yang merupakan variabel dependen adalah penjualan itu sendiri. Sedangkan variabel kedua atau independen adalah faktor-faktor yang memengaruhi penjualan. Melakukan analisis regresi dalam kasus ini berarti menyelidiki hubungan antara penjualan dan faktor yang memengaruhinya.
Sebenarnya, penggunaan analisis begitu luas. Ini karena ada banyak sekali variabel dependen yang berhubungan dengan satu (atau lebih) variabel independen. Pada umumnya, analisis regresi digunakan saat:
Analisis regresi sendiri hadir dalam beberapa tipe. Dalam artikel kali ini, akan dibahas lima tipe analisis regresi yang sering diterapkan, yaitu linear regression, ridge regression, lasso regression, panel data regression, dan logistic regression. Berikut penjelasan untuk masing-masing tipe.
Merupakan jenis analisis regresi yang paling umum digunakan. Pada tipe ini, variabel dependen bersifat kontinu, sedangkan variabel independen bisa bersifat kontinu atau diskrit (terpisah). Untuk sifat garis regresinya sendiri bersifat linier.
Dalam linear regression, hubungan antara variabel dependen (Y) dengan satu atau lebih variabel independen (X) menggunakan garis lurus yang paling sesuai (garis regresi). Biasanya, hubungan tersebut diwakili dengan persamaan Y=a+b*X. Dalam persamaan tersebut, a berarti intercept, dan b adalah kemiringan garis.
Berikutnya, ada ridge regression. Umumnya, regresi tipe ini digunakan saat data mengalami multikolinearitas atau variabel independen yang sangat berkorelasi.
Multikolinearitas berkaitan dengan perkiraan ordinary least square (OLS). Meski OLS tidak bias, variansnya (ragam suatu peubah acak) cenderung besar. Hal ini menyebabkan terjadinya penyimpangan pada nilai yang diamati. Bisa jadi, nilai yang diamati jauh dari nilai sebenarnya. Dengan menambahkan derajat bias, maka ridge regression dapat meminimalisir penyimpangan tersebut.
Lasso regression mirip dengan ridge regression. Lasso sendiri merupakan singkatan dari Least Absolute Shrinkage and Selection Operator. Sebab, tipe analisis ini pun mampu mengurangi variabilitas dan meningkatkan akurasi model regresi linier.
Meski begitu, saat dibandingkan, keduanya berbeda. Pada lasso regression, Anda menggunakan nilai absolut, bukan kuadrat seperti ridge regression. Dengan begitu, nilai yang menyebabkan estimasi parameter bisa benar-benar nol.
Seperti namanya, panel data regression memanfaatkan struktur data berupa data panel. Biasanya, estimasi parameternya menggunakan metode OLS. Analisis ini pada dasarnya merupakan kombinasi antara penerapan data cross section dan data time series.
Data cross section diukur pada waktu yang berbeda. Itu artinya, data panel berasal dari beberapa individu yang diukur pada periode waktu tertentu. Apabila ditemukan bahwa waktu untuk tiap individu sama, data tersebut dikatakan sebagai balanced panel. Namun, jika yang terjadi sebaliknya, data disebut sebagai unbalanced panel.
Terakhir ada logistic regression yang merupakan suatu metode analisis untuk membuat prediksi. Mekanismenya mirip dengan linear regression. Hanya saja, dalam metode ini, peneliti membuat prediksi variabel dependen berskala dikotomi. Apa itu skala dikotomi? Skala ini merupakan sebuah skala data nominal yang memiliki dua klasifikasi, seperti: Salah dan Betul serta Ya dan Tidak.
Bisa disimpulkan bahwa analisis regresi merupakan suatu metode analisis yang menyelidiki hubungan antara dua variabel, yaitu variabel dependen dan variabel independen. Untuk menerapkan analisis ini, bisa melalui beberapa tipe, yaitu linear regression, ridge regression, lasso regression, panel data regression, dan logistic regression.
Data science mengenal banyak sekali jenis analisis. Selain analisis regresi seperti yang dibahas di sini, Anda juga bisa menemukan analisis lainnya. Tertarik untuk mempelajarinya lebih jauh? Algoritma Data Science School membuka beragam kelas mengenai data science yang bisa dipelajari siapa saja, termasuk pemula. Untuk informasi selengkapnya, klik di sini!
Referensi: