Binary Logistic Regression (Bagian 1): Teori

Multivariate Data Analysis, Research & Statistics, Statistics

Kontributor: Kharisma Prima
Editor: Gin Gumilang

Model regresi logistik digunakan untuk menggambarkan hubungan antara variabel respon biner dengan satu atau beberapa buah variabel prediktor. Menurut Agresti (1996), dalam model regresi logistik dapat menggunakan variabel independen yang berupa kualitatif (berskala pengukuran nominal atau ordinal) atau kuantitatif (berskala pengukuran interval atau rasio) atau gabungan (campuran) dari keduanya. Dalam regresi logistik digunakan link function logit.

Variabel dependen dalam regresi logistik pada umumnya berbentuk dikotomus, dimana variabel dependen dapat mengambil nilai 0 dengan suatu kemungkinan sukses π(x), atau nilai 1 dengan kemungkinan kegagalan 1-π(x). Variabel jenis ini disebut variabel biner.

Seperti yang telah dijelaskan sebelumnya, variabel independen atau prediktor dalam regresi logistik dapat berbentuk apapun, baik itu berbentuk kategori atau kontinu. Selain itu, terdapat juga asumsi-asumsi dalam regresi logistik, yakni tidak harus berdistribusi normal, berhubungan secara linier atau memiliki varians yang sama di dalam masing-masing kelompok. Hubungan antara variabel prediksi dan variabel respon bukanlah suatu fungsi linier dalam regresi logistik, sebagai alternatif, fungsi regresi logistik yang digunakan merupakan transformasi logit dari π(x):

dimana α = konstanta, β = koefisien regresi, dan i = banyaknya variabel independen. Namun terdapat suatu bentuk alternatif dari persamaan regresi logistik, yaitu:


Untuk menaksir parameter dalam model regresi logistik digunakan metode penaksiran maximum likelihood melalui iterasi. Dengan cara ini, regresi logistik menaksir peluang terjadinya suatu peristiwa tertentu. Perhatikan bahwa regresi logistik menghitung perubahan dalam log odds variabel dependen, bukan perubahan dalam variabel dependen itu sendiri seperti halnya pada regresi linier biasa.

Odds dapat diartikan sebagai rasio antara dua peluang, seperti rasio antara peluang peristiwa sukses dengan peluang peristiwa gagal. Nilai odds yang tinggi dapat disamakan dengan nilai peluang yang tinggi. Begitu pula sebaliknya, nilai odds yang rendah sesuai dengan nilai peluang yang rendah. Odds yang dinotasikan oleh θ dapat dirumuskan sebagai berikut:

Untuk menghitung asosiasi X dan Y dapat diperlihatkan melalui rasio dua buah odds yang disebut Odds Ratio, yang mana dinotasikan oleh ψ dengan perumusan sebagai berikut:

Regresi logistik memiliki banyak kesamaan dengan regresi linier biasa: koefisien logit dapat disamakan dengan koefisien β dalam persamaan regresi linier biasa, koefisien logit yang distandarisasi dapat disamakan dengan β yang diboboti, dan R2 untuk meringkas kekuatan hubungan. Walau bagaimanapun tidak seperti regresi linier biasa, regresi logistik tidak mengasumsikan hubungan linier antara variabel independen dan variabel dependen, tidak memerlukan variabel yang berdistribusi normal, tidak mengasumsikan homokedastisitas, dan biasanya memiliki syarat yang lebih sedikit. Akan tetapi, regresi logistik memiliki syarat bahwa pengamatan bersifat independen. Uji kecocokan model dapat dilakukan dengan menggunakan chi-square sebagai indikator kecocokan model, dan statistik Wald untuk menguji signifikans variabel independen secara individual.

Uji Signifikansi Parameter

Sebelum melakukan uji signifikansi parameter secara individual, lakukan uji signifikansi parameter secara overall terlebih dahulu. Pengujian secara overall dapat disebut juga uji keberartian model, dimana salah satu alat pengujiannya adalah Likelihood Ratio Test. Hipotesis dalam Likelihood Ratio Test adalah H0: β1 = β2 = … = βp = 0, yang menyatakan model tidak berarti. Statistik uji yang digunakan dalam Likelihood Ratio Test, yaitu:

dengan:
l0 : Nilai maksimum dari fungsi likelihood untuk model dibawah hipotesis nol.
l1 : Nilai maksimumdari fungsi likelihood untuk model dibawah hipotesis alternatif.
L0 : Nilai fungsi log likelihood yang maksimum untuk model dibawah hipotesis nol.
L1 : Nilai fungsi log likelihood yang maksimum untuk model dibawah hipotesis alternatif.

Nilai -2(L0–L1) tersebut mengikuti distribusi chi-square dengan df = p. Jika -2(L0–L1) ≥ χ²(p), maka tolak H0, terima dalam hal lainnya. Jika H0 ditolak artinya model berarti, sehingga uji signifikansi parameter dapat dilanjutkan dengan pengujian secara individual untuk mengetahui variabel-variabel X yang signifikan terhadap variabel Y.

Wald Test digunakan untuk menguji signifikans dari tiap koefisien (β) dalam model. Hipotesis dalam Wald Test adalah H0: β = 0, yang menyatakan peluang sukses independen terhadap variabel X. Statistik uji yang digunakan dalam Wald Test, yaitu:

Nilai kuadrat Z tersebut mengikuti distribusi chi-square dengan df = 1. Jika ≥ χ²(1), maka tolak H0, terima dalam hal lainnya.

Uji Kecocokan Model

Salah satu alat yang dapat digunakan untuk menguji kecocokan model dari regresi logistik adalah Uji Hosmer-Lemeshow. Statistik Hosmer-Lemeshow mengevaluasi kecocokan model dengan membuat 10 kelompok pengamatan yang direncanakan dan kemudian dibandingkan dengan jumlah yang sebenarnya pada masing-masing kelompok (yang diamati) dengan jumlah yang diprediksi oleh model regresi logistik (yang diprediksi). Sehingga, statistik uji adalah suatu statistik chi-square dengan df = g-2, dimana g adalah banyaknya kelompok. Hipotesis (H0) dalam uji Hosmer-Lemeshow adalah model prediksi dengan yang diamati tidak berbeda secara signifikan.

Langkah-langkah dalam uji Hosmer-Lemeshow adalah sebagai berikut:

Koefisien Determinasi

Koefisien determinasi dapat menjelaskan besarnya kekuatan hubungan antara variabel dependen dengan variabel independen. Koefisien determinasi pada regresi linier tidak dapat digunakan pada analisis regresi logistik karena dalam analisis regresi linier biasa terdapat asumsi bahwa variabel dependen harus berupa metrik.

Agresti (1990), mengemukakan suatu nilai koefisien determinasi pada model regresi logistik untuk variabel dependen berupa biner yaitu  (koefisien determinasi) dan 0,adj (koefisien determinasi yang disesuaikan), yang dapat dirumuskan sebagai berikut:

  1. Bentuk sepuluh kelompok pengamatan yang dapat menggunakan dua cara, yaitu:
    a. Pengamatan dapat dikelompokkan berdasarkan peluang taksirannya; yaitu pengamatan yang mempunyai peluang taksiran 0-0,1 membentuk satu kelompok, kemudian pengamatan yang mempunyai peluang taksiran 0,1-0,2 membentuk satu kelompok pula, dan begitu seterusnya, sampai kepada pengamatan yang mempunyai peluang 0,9-1,0.
    b. Pengamatan dikelompokkan berdasarkan persentil dari nilai peluang taksirannya; yaitu kelompok pertama beranggotakan n1 = n/10 pengamatan yang memiliki peluang taksiran terkecil, dan begitu seterusnya hingga kelompok terakhir beranggotakan n10 = n/10 pengamatan yang memiliki peluang taksiran terbesar.
  2. Masing-masing kelompok tersebut selanjutnya dibagi menjadi dua kelompok berdasarkan variabel hasil pengamatan yang sebenarnya (sukses, gagal). Kemudian sebagian besar pengamatan dengan peristiwa sukses digolongkan dalam desil resiko yang lebih tinggi dan pengamatan dengan peristiwa gagal digolongkan dalam desil resiko yang lebih rendah.
  3. Hitung statistik chi-square dengan perumusan sebagai berikut:

    dengan:
    Ni : Total frekuensi pengamatan kelompok ke-i,
    Oi : Frekuensi pengamatan kelompok ke-i,
    πi : Rata-rata taksiran peluang kelompok ke-i.
  4. Bandingkan dengan nilai χ² pada tabel chi-square dengan df = g-2, dimana g adalah banyaknya kelompok. Jika χ²HL ≥ χ²(g-2) maka tolak hipotesis (H0), dan terima dalam hal lainnya.

Koefisien Determinasi

Koefisien determinasi dapat menjelaskan besarnya kekuatan hubungan antara variabel dependen dengan variabel independen. Koefisien determinasi pada regresi linier tidak dapat digunakan pada analisis regresi logistik karena dalam analisis regresi linier biasa terdapat asumsi bahwa variabel dependen harus berupa metrik.

Agresti (1990), mengemukakan suatu nilai koefisien determinasi pada model regresi logistik untuk variabel dependen berupa biner yaitu  (koefisien determinasi) dan 0,adj (koefisien determinasi yang disesuaikan), yang dapat dirumuskan sebagai berikut:

dan 0,adj sebagai berikut:

dengan:

 

n: banyaknya pengamatan
k: banyaknya prediktor

Untuk memudahkan proses estimasi model, kita dapat menggunakan software statistik seperti SPSS, Stata, Minitab, atau yang lainnya. Pada artikel berikutnya akan dijelaskan langkah-langkah analisa dan interpretasi model binary logistic regression dengan menggunakan software SPSS.

 

Referensi:

  • Agresti, Alan. 1990. Categorical Data Analysis. USA: John Wiley and Sons.
  • Agresti, Alan. 1996. An Introduction to Categorical Data Analysis. USA: John Wiley and Sons.
  • Hosmer, D. W. And Lemeshow, S. 1989. Applied Logistic Regression. New York: John Wiley and Sons.

Bagian 1   |   Bagian 2

Comments

comments

» Multivariate Data Analysis, Research & Statistics, Statistics » Binary Logistic Regression (Bagian 1): Teori

, , , , , , March 20, 2015

Comments are closed.