fbpx
ANALISIS REGRESI

Mengenal Tipe Analisis Regresi

18 Februari 2022

Analisis regresi dalam bidang ekonomi digunakan untuk menganalisis hubungan suatu variabel dependen dengan suatu variabel independen. Disebut dengan regresi karena hasil yang disajikan berupa persamaan matematis. Lalu, dalam bidang data science, ternyata istilah ini pun digunakan. Seperti apa pengertian analisis regresi dalam data science?

Apa itu analisis regresi?

Pada dasarnya, pengertian analisis regresi pada data science pun sama dengan pengertian analisis regresi di bidang ekonomi. Sebab, keduanya memang berasal dari pendekatan matematis. Untuk memudahkan memahaminya, mari simak contoh berikut.

Katakanlah Anda diminta untuk membuat prediksi penjualan kuartal II tahun 2022. Nah, untuk bisa membuat prediksi tersebut, Anda tentu perlu data mengenai beberapa hal yang memengaruhi penjualan, misalnya pengenalan produk baru, perubahan demografi, hingga strategi marketing.

Dari contoh tersebut, bisa diketahui ada dua variabel yang dapat diselidiki hubungannya dengan analisis regresi. Variabel pertama yang merupakan variabel dependen adalah penjualan itu sendiri. Sedangkan variabel kedua atau independen adalah faktor-faktor yang memengaruhi penjualan. Melakukan analisis regresi dalam kasus ini berarti menyelidiki hubungan antara penjualan dan faktor yang memengaruhinya.

Kapan analisis regresi harus dipakai?

Sebenarnya, penggunaan analisis begitu luas. Ini karena ada banyak sekali variabel dependen yang berhubungan dengan satu (atau lebih) variabel independen. Pada umumnya, analisis regresi digunakan saat:

  • Memerlukan perkiraan efek paparan atas hasil yang diberikan.
  • Harus memprediksi hasil hanya dengan variabel yang telah diketahui.
  • Menyeimbangkan kelompok yang berbeda.
  • Membuat contoh model untuk menggantikan data yang hilang.
  • Muncul rekaman data yang tak biasa.

Tipe analisis regresi 

Analisis regresi sendiri hadir dalam beberapa tipe. Dalam artikel kali ini, akan dibahas lima tipe analisis regresi yang sering diterapkan, yaitu linear regression, ridge regression, lasso regression, panel data regression, dan logistic regression. Berikut penjelasan untuk masing-masing tipe.

1. Linear regression

Merupakan jenis analisis regresi yang paling umum digunakan. Pada tipe ini, variabel dependen bersifat kontinu, sedangkan variabel independen bisa bersifat kontinu atau diskrit (terpisah). Untuk sifat garis regresinya sendiri bersifat linier.

Dalam linear regression, hubungan antara variabel dependen (Y) dengan satu atau lebih variabel independen (X) menggunakan garis lurus yang paling sesuai (garis regresi). Biasanya, hubungan tersebut diwakili dengan persamaan Y=a+b*X. Dalam persamaan tersebut, a berarti intercept, dan b adalah kemiringan garis.

2. Ridge regression

Berikutnya, ada ridge regression. Umumnya, regresi tipe ini digunakan saat data mengalami multikolinearitas atau variabel independen yang sangat berkorelasi.

Multikolinearitas berkaitan dengan perkiraan ordinary least square (OLS). Meski OLS tidak bias, variansnya (ragam suatu peubah acak) cenderung besar. Hal ini menyebabkan terjadinya penyimpangan pada nilai yang diamati. Bisa jadi, nilai yang diamati jauh dari nilai sebenarnya. Dengan menambahkan derajat bias, maka ridge regression dapat meminimalisir penyimpangan tersebut.

3. Lasso regression

Lasso regression mirip dengan ridge regression. Lasso sendiri merupakan singkatan dari Least Absolute Shrinkage and Selection Operator. Sebab, tipe analisis ini pun mampu mengurangi variabilitas dan meningkatkan akurasi model regresi linier.

Meski begitu, saat dibandingkan, keduanya berbeda. Pada lasso regression, Anda menggunakan nilai absolut, bukan kuadrat seperti ridge regression. Dengan begitu, nilai yang menyebabkan estimasi parameter bisa benar-benar nol.

4. Panel data regression

Seperti namanya, panel data regression memanfaatkan struktur data berupa data panel. Biasanya, estimasi parameternya menggunakan metode OLS. Analisis ini pada dasarnya merupakan kombinasi antara penerapan data cross section dan data time series.

Data cross section diukur pada waktu yang berbeda. Itu artinya, data panel berasal dari beberapa individu yang diukur pada periode waktu tertentu. Apabila ditemukan bahwa waktu untuk tiap individu sama, data tersebut dikatakan sebagai balanced panel. Namun, jika yang terjadi sebaliknya, data disebut sebagai unbalanced panel.

5. Logistic regression

Terakhir ada logistic regression yang merupakan suatu metode analisis untuk membuat prediksi. Mekanismenya mirip dengan linear regression. Hanya saja, dalam metode ini, peneliti membuat prediksi variabel dependen berskala dikotomi. Apa itu skala dikotomi? Skala ini merupakan sebuah skala data nominal yang memiliki dua klasifikasi, seperti: Salah dan Betul serta Ya dan Tidak.

Kesimpulan 

Bisa disimpulkan bahwa analisis regresi merupakan suatu metode analisis yang menyelidiki hubungan antara dua variabel, yaitu variabel dependen dan variabel independen. Untuk menerapkan analisis ini, bisa melalui beberapa tipe, yaitu linear regression, ridge regression, lasso regression, panel data regression, dan logistic regression.

Data science mengenal banyak sekali jenis analisis. Selain analisis regresi seperti yang dibahas di sini, Anda juga bisa menemukan analisis lainnya. Tertarik untuk mempelajarinya lebih jauh? Algoritma Data Science School membuka beragam kelas mengenai data science yang bisa dipelajari siapa saja, termasuk pemula. Untuk informasi selengkapnya, klik di sini!

Referensi:

Yuk belajar data science di Algoritma Data Science Education Center! Kamu bisa ikut berbagai kelas data science untuk pemula, salah satunya di program Academy kami.

PELAJARI LEBIH LANJUT

The last comment and 1 other comment(s) need to be approved.

Related Blog

Distributed Processing
Apa Itu Data Analysis Expressions?
jadi data scientist
Cara Menjadi Data Scientist Handal
Distributed Processing
Mengenal Apa Itu Distributed Processing

Analisis regresi dalam bidang ekonomi digunakan untuk menganalisis hubungan suatu variabel dependen dengan suatu variabel independen. Disebut dengan regresi karena hasil yang disajikan berupa persamaan matematis. Lalu, dalam bidang data science, ternyata istilah ini pun digunakan. Seperti apa pengertian analisis regresi dalam data science?

Apa itu analisis regresi?

Pada dasarnya, pengertian analisis regresi pada data science pun sama dengan pengertian analisis regresi di bidang ekonomi. Sebab, keduanya memang berasal dari pendekatan matematis. Untuk memudahkan memahaminya, mari simak contoh berikut.

Katakanlah Anda diminta untuk membuat prediksi penjualan kuartal II tahun 2022. Nah, untuk bisa membuat prediksi tersebut, Anda tentu perlu data mengenai beberapa hal yang memengaruhi penjualan, misalnya pengenalan produk baru, perubahan demografi, hingga strategi marketing.

Dari contoh tersebut, bisa diketahui ada dua variabel yang dapat diselidiki hubungannya dengan analisis regresi. Variabel pertama yang merupakan variabel dependen adalah penjualan itu sendiri. Sedangkan variabel kedua atau independen adalah faktor-faktor yang memengaruhi penjualan. Melakukan analisis regresi dalam kasus ini berarti menyelidiki hubungan antara penjualan dan faktor yang memengaruhinya.

Kapan analisis regresi harus dipakai?

Sebenarnya, penggunaan analisis begitu luas. Ini karena ada banyak sekali variabel dependen yang berhubungan dengan satu (atau lebih) variabel independen. Pada umumnya, analisis regresi digunakan saat:

  • Memerlukan perkiraan efek paparan atas hasil yang diberikan.
  • Harus memprediksi hasil hanya dengan variabel yang telah diketahui.
  • Menyeimbangkan kelompok yang berbeda.
  • Membuat contoh model untuk menggantikan data yang hilang.
  • Muncul rekaman data yang tak biasa.

Tipe analisis regresi 

Analisis regresi sendiri hadir dalam beberapa tipe. Dalam artikel kali ini, akan dibahas lima tipe analisis regresi yang sering diterapkan, yaitu linear regression, ridge regression, lasso regression, panel data regression, dan logistic regression. Berikut penjelasan untuk masing-masing tipe.

1. Linear regression

Merupakan jenis analisis regresi yang paling umum digunakan. Pada tipe ini, variabel dependen bersifat kontinu, sedangkan variabel independen bisa bersifat kontinu atau diskrit (terpisah). Untuk sifat garis regresinya sendiri bersifat linier.

Dalam linear regression, hubungan antara variabel dependen (Y) dengan satu atau lebih variabel independen (X) menggunakan garis lurus yang paling sesuai (garis regresi). Biasanya, hubungan tersebut diwakili dengan persamaan Y=a+b*X. Dalam persamaan tersebut, a berarti intercept, dan b adalah kemiringan garis.

2. Ridge regression

Berikutnya, ada ridge regression. Umumnya, regresi tipe ini digunakan saat data mengalami multikolinearitas atau variabel independen yang sangat berkorelasi.

Multikolinearitas berkaitan dengan perkiraan ordinary least square (OLS). Meski OLS tidak bias, variansnya (ragam suatu peubah acak) cenderung besar. Hal ini menyebabkan terjadinya penyimpangan pada nilai yang diamati. Bisa jadi, nilai yang diamati jauh dari nilai sebenarnya. Dengan menambahkan derajat bias, maka ridge regression dapat meminimalisir penyimpangan tersebut.

3. Lasso regression

Lasso regression mirip dengan ridge regression. Lasso sendiri merupakan singkatan dari Least Absolute Shrinkage and Selection Operator. Sebab, tipe analisis ini pun mampu mengurangi variabilitas dan meningkatkan akurasi model regresi linier.

Meski begitu, saat dibandingkan, keduanya berbeda. Pada lasso regression, Anda menggunakan nilai absolut, bukan kuadrat seperti ridge regression. Dengan begitu, nilai yang menyebabkan estimasi parameter bisa benar-benar nol.

4. Panel data regression

Seperti namanya, panel data regression memanfaatkan struktur data berupa data panel. Biasanya, estimasi parameternya menggunakan metode OLS. Analisis ini pada dasarnya merupakan kombinasi antara penerapan data cross section dan data time series.

Data cross section diukur pada waktu yang berbeda. Itu artinya, data panel berasal dari beberapa individu yang diukur pada periode waktu tertentu. Apabila ditemukan bahwa waktu untuk tiap individu sama, data tersebut dikatakan sebagai balanced panel. Namun, jika yang terjadi sebaliknya, data disebut sebagai unbalanced panel.

5. Logistic regression

Terakhir ada logistic regression yang merupakan suatu metode analisis untuk membuat prediksi. Mekanismenya mirip dengan linear regression. Hanya saja, dalam metode ini, peneliti membuat prediksi variabel dependen berskala dikotomi. Apa itu skala dikotomi? Skala ini merupakan sebuah skala data nominal yang memiliki dua klasifikasi, seperti: Salah dan Betul serta Ya dan Tidak.

Kesimpulan 

Bisa disimpulkan bahwa analisis regresi merupakan suatu metode analisis yang menyelidiki hubungan antara dua variabel, yaitu variabel dependen dan variabel independen. Untuk menerapkan analisis ini, bisa melalui beberapa tipe, yaitu linear regression, ridge regression, lasso regression, panel data regression, dan logistic regression.

Data science mengenal banyak sekali jenis analisis. Selain analisis regresi seperti yang dibahas di sini, Anda juga bisa menemukan analisis lainnya. Tertarik untuk mempelajarinya lebih jauh? Algoritma Data Science School membuka beragam kelas mengenai data science yang bisa dipelajari siapa saja, termasuk pemula. Untuk informasi selengkapnya, klik di sini!

Referensi:

Yuk belajar data science di Algoritma Data Science Education Center! Kamu bisa ikut berbagai kelas data science untuk pemula, salah satunya di program Academy kami.

PELAJARI LEBIH LANJUT

Related Blog

Real Time Processing
Perbedaan Batch Processing dan Real Time Processing
Metode Pengolahan Data
Tipe, Langkah, dan Metode Pengolahan Data
Batch Processing
Mengenal Batch Processing dan Implementasinya
The last comment and 1 other comment(s) need to be approved.