Analisis Regresi Logistik: Dari Univariate hingga Multivariate
MK Epidemiologi Klinik & Biostatistik Lanjut (6 SKS)
Dr.dr. Budi Siswanto, Sp.OG., Subsp.Obginsos., SH., S.Kom.
Konsultan Obstetri Ginekologi Sosial
Deskripsi Modul
Analisis bivariat terlalu sederhana untuk realitas klinis. Regresi logistik adalah instrumen utama untuk menganalisis kompleksitas ini pada outcome biner.
Penting:
Pemahaman yang dangkal tentang asumsi, interpretasi, dan keterbatasan metode ini menyebabkan banyak kesalahan dalam literatur — dari over-interpretation OR hingga model yang overfitted.
Capaian Pembelajaran
Menjelaskan prinsip dasar regresi logistik untuk outcome biner
Melakukan dan menginterpretasikan analisis univariat
Membangun model multivariat dan menghindari overfitting
Menginterpretasikan koefisien, adjusted OR, dan CI
Mengevaluasi kualitas model (kalibrasi & diskriminasi)
Materi Inti
C.1. Mengapa Regresi Logistik?
Regresi linear biasa tidak dapat digunakan untuk outcome biner karena tiga masalah fundamental:
Masalah 1
Nilai prediksi bisa melampaui rentang 0–1 (negatif atau >1).
Masalah 2
Asumsi linearitas dilanggar. Hubungan berbentuk sigmoid.
Masalah 3
Distribusi residual tidak normal.
Solusi: Transformasi Logit
Kurva sigmoid terbatas antara 0 dan 1, sesuai sifat probabilitas.
C.2. Konsep Dasar Koefisien
Hubungan fundamental: Eksponensial koefisien = Odds Ratio.
- β > 0 → OR > 1 → Meningkatkan odds
- β = 0 → OR = 1 → Tidak ada asosiasi
- β < 0 → OR < 1 → Menurunkan odds
Adjusted OR: OR yang telah dikontrol terhadap semua variabel lain dalam model. Berbeda fundamental dari Crude OR.
C.3. Analisis Univariat: Langkah Pertama
Seleksi kandidat variabel untuk model multivariat.
Threshold Konvensional: p < 0.25 (bukan 0.05)
Alasannya: p < 0.05 terlalu ketat dan bisa mengeksklusi variabel yang penting secara klinis.
C.4. Membangun Model Multivariat
Events Per Variable (EPV)
EPV Minimal: 10 – 15
Contoh: 60 Kasus → Maksimal 4–6 Prediktor. Lebih dari itu = Overfitting.
Strategi Membangun Model:
C.5. Evaluasi Model
Kalibrasi
Seberapa baik memprediksi probabilitas?
Diskriminasi
Seberapa baik membedakan kasus vs non-kasus?
C.6. Masalah Khusus
Complete Separation
Prediktor memisahkan outcome sempurna. Solusi: Firth's logistic regression.
Multikolinearitas
Prediktor berkorelasi kuat. Deteksi: VIF > 10. Solusi: Eliminasi salah satu variabel.
Overfitting
Model "menghafal" noise. Solusi: Validasi internal (bootstrap) atau eksternal.
C.7. Contoh: Model Faktor Risiko Preeklampsia
n=450, Events=67 (14.9%). EPV ≈ 11. Maks 6 prediktor.
| Variabel | Crude OR | Adjusted OR | p-value | |
|---|---|---|---|---|
| Primipara | 2,34 | → | 1,98 | 0,035 |
| Riwayat DM | 3,12 | → | 2,67 | 0,019 |
| Obesitas (BMI≥30) | 2,87 | → | 2,41 | 0,008 |
| Usia ≥35 th | 1,89 | → | 1,54 | 0,225 (ns) |
C.8. Kesalahan Umum dalam Publikasi
Memasukkan terlalu banyak variabel (EPV rendah). Sangat umum di tesis lokal.
Stepwise selection tanpa justifikasi teori.
Tidak melaporkan Crude OR (hanya Adjusted).
Menginterpretasikan OR sebagai RR untuk outcome umum.
Pertanyaan Diskusi
Pertanyaan 1:
Peneliti dengan 45 kasus membuat model 12 variabel stepwise backward. Identifikasi 3 masalah metodologis utama. Jelaskan konsekuensi dan perbaikannya.
Pertanyaan 2:
Model dengan AUC 0.83 di training set turun menjadi 0.61 di validasi eksternal. Apa penyebabnya? Implikasi untuk kebijakan nasional?
Rangkuman
Regresi logistik mentransformasi probabilitas menjadi log-odds untuk mengatasi keterbatasan regresi linear.
Adjusted OR adalah OR yang sudah dikontrol variabel lain, berbeda fundamental dari Crude OR.
EPV minimal 10-15. Melanggar aturan ini menyebabkan overfitting.
Evaluasi model wajib: Kalibrasi (Hosmer-Lemeshow) dan Diskriminasi (AUC).
Referensi
- Hosmer DW, et al. Applied Logistic Regression. 3rd ed. 2013.
- Steyerberg EW. Clinical Prediction Models. 2nd ed. 2019.
- Harrell FE. Regression Modeling Strategies. 2nd ed. 2015.
- Peduzzi P, et al. A simulation study of EPV. J Clin Epidemiol. 1996.
- TRIPOD Statement. Ann Intern Med. 2015.