Multiple Linear Regression (Bagian 1): Teori

Forecasting & Prediction, Multivariate Data Analysis, Research & Statistics, Statistics

Kontributor: Anas Teguh S.
Editor: Kharisma Prima


1. PENDAHULUAN

Multiple Linear Regression Analysis (Analisis Regresi Linier Majemuk) adalah salah satu teknik multivariat yang digunakan untuk mengestimasi hubungan antara satu variabel dependen metrik dengan satu himpunan variabel independen metrik atau nonmetrik. Dengan analisis regresi majemuk peneliti dapat mengestimasi dan atau memprediksi nilai rata-rata (populasi) satu variabel dependen berdasarkan dua atau lebih variabel independen. Analisis regresi akan menghasilkan sebuah persamaan/model regresi.

Analisis regresi majemuk berbeda dengan analisis korelasi yang hanya menghasilkan nilai korelasi. Pada analisis korelasi, yang dianalisis ialah keberadaan hubungan antara dua variabel dan seberapa kuat hubungan tersebut, sedangkan pada analisis regresi majemuk yang dianalisis adalah seberapa besar pengaruh suatu variabel (selanjutnya disebut variabel independen) terhadap variabel lainnya (selanjutnya disebut variabel dependen).

Sebagai contoh analisis regresi, yaitu seorang peneliti menduga bahwa tingkat penjualan produk tertentu dipengaruhi oleh jumlah dana periklanan, jumlah salesman yang dikerahkan dan jumlah outlet yang tersebar di setiap tempat. Untuk keperluan studinya ini, peneliti dapat memanfaatkan analisis regresi majemuk yaitu dengan menempatkan tingkat penjualan sebagai variabel dependen metrik dan ketiga variabel lainnya sebagai variabel independen metrik. Peneliti akan memperoleh suatu model regresi yang dapat digunakan untuk menjelaskan dan memprediksi variansi tingkat penjualan yang dipengaruhi oleh ketiga variabel independen tersebut.

Adapun model dasar dari teknik analisis regresi majemuk ini adalah sebagai berikut:

\hat{Y}=\beta_0+\beta_1X_1+\beta_2X_2+\beta_3X_3+...+\beta_iX_i

dengan:
\hat{Y}    : Prediksi nilai variabel dependen
\beta_0   : Konstanta (intercept)
\beta_i   : Bobot (koefisien) regresi untuk variabel independen ke-i
X_i   : Variabel independen ke-i


2. TAHAPAN ANALISIS REGRESI LINIER MAJEMUK

Gambar 1. Tahapan Multiple Regression Linear Analysis (Hair, et al, 1987)

Gambar 1. Tahapan Multiple Linear Regression Analysis (Hair, et al, 1987)

2.1. Masalah Penelitian

Analisis regresi majemuk dapat digunakan untuk:

  1. Menghasilkan prediksi (prediction) nilai dari suatu variabel dependen berdasarkan nilai-nilai variabel independen. Dalam model regresi yang dibentuk, setiap variabel independen diberi bobot berdasarkan kontribusi relatifnya terhadap prediksi keseluruhan.
  2. Memberikan penjelasan (explanation) mengenai tingkat dan karakteristik hubungan antara variabel dependen dengan variabel-variabel independen. Dalam hal ini dapat diperkirakan seberapa penting sebuah variabel independen mempengaruhi nilai prediksi variabel dependen.

Analisis regresi majemuk tepat untuk digunakan jika hubungan antara variabel dependen dan independen yang ingin diteliti adalah statistical relationship, bukan functional relationship. Pada functional relationship prediksi terhadap nilai variabel dependen bersifat pasti atau diharapkan tidak memiliki error sama sekali. Contoh dari functional relationship terdapat pada persamaan berikut:

Total_cost = Variable_cost + Fixed_cost

Jika variable cost sebesar Rp.2.000 per unit, fixed cost sebesar Rp.500.000, dan jumlah barang yang diproduksi sebanyak 100 unit, maka dapat diperkirakan nilai total cost adalah sebesar Rp.700.000. Seandainya terdapat deviasi antara total cost hasil perhitungan dengan fakta total cost yang sebenarnya terjadi, maka deviasi tersebut dihasilkan dari kesalahan menghitung variable cost dan fixed cost. Deviasi tidak disebabkan oleh hubungan antara ketiga jenis cost di atas karena hubungan tersebut sudah bersifat pasti.

Pada statistical relationship variabel dependen diasumsikan sebagai variabel random. Untuk setiap nilai variabel independen tertentu, hasil yang diperoleh hanya berupa estimasi atas nilai rata-rata variabel dependen, bukan nilai pastinya. Output dari statistical relationship bukanlah prediksi sempurna, karena masih mengandung error.

Keberhasilan penggunaan teknik analisis regresi majemuk ditentukan oleh ketepatan pemilihan variabel-variabel yang akan diteliti. Pemilihan baik variabel dependen maupun variabel independen sebaiknya dilakukan berdasarkan dasar teori yang sudah ada. Berkaitan dengan pemilihan variabel ini, terdapat dua kemungkinan untuk melakukan kesalahan. Kemungkinan pertama dikenal dengan istilah measurement error, yaitu kesalahan yang terjadi karena variabel dependen yang dipilih bukan merupakan alat ukur yang akurat dan konsisten bagi konsep yang sedang diteliti.

Kesalahan kedua yang mungkin timbul adalah specification error. Specification error dapat terjadi karena peneliti memasukkan variabel independen yang tidak relevan, atau sebaliknya tidak mengikutkan variabel independen yang relevan. Masuknya variabel yang tidak relevan dalam analisis dapat mengakibatkan bias, sedangkan tidak diikutsertakannya variabel independen yang relevan dalam analisis akan menyebabkan tertutupinya efek dari variabel yang lebih berguna serta menyebabkan tes signifikansi menjadi kurang presisi.


2.2. Desain Penelitian

Hal-hal berikut ini perlu diperhatikan sebelum melakukan perhitungan-perhitungan dalam analisis regresi:

2.2.1. Ukuran Sampel

Analisis regresi mensyaratkan ukuran sampel minimal 20 observasi dan perbandingan antara jumlah subjek sampel dan variabel independen sebesar 5 banding 1 (artinya untuk setiap satu variabel independen minimum terdapat lima buah subjek sampel). Idealnya terdapat 15-20 subjek sampel untuk setiap satu variabel independen.

Penentuan ukuran sampel biasanya dikaitkan dengan power dari analisis regresi. Kekuatan (power) analisis regresi ini mengacu kepada probabilitas mendeteksi nilai koefisien determinasi R2 yang signifikan pada tingkat alpha dan ukuran sampel tertentu. Tabel 1 berikut ini dapat digunakan untuk menentukan ukuran sampel yang sesuai dengan tingkat alpha dan power tertentu yang hendak dicapai.

Minimum R-Square yang Dapat Dinyatakan Sebagai Signifikan dengan Power 0.80 untuk Berbagai Jumlah Variabel Independen dan Ukuran Sampel

Tabel 1. Minimum R-Square yang Dapat Dinyatakan Sebagai Signifikan dengan Power 0,80 untuk Berbagai Jumlah Variabel Independen dan Ukuran Sampel. Keterangan: NA = Not Applicable (tidak dapat dilakukan)

2.2.2. Variabel Dummy

Sebenarnya, analisis regresi merupakan teknik yang dapat digunakan hanya jika variabel dependen serta variabel independennya bersifat metrik. Akan tetapi, analisis regresi majemuk ini dapat pula mengakomodasi variabel independen nonmetrik. Caranya ialah dengan menggunakan variabel dummy, yaitu jawaban kualitatif (kategori) yang diberikan suatu kode tertentu (misalkan 0 = panas;  dan 1 = dingin). Variabel dummy ini, jika nantinya masuk ke dalam model, akan berperan sebagai intercept.

2.2.3. Efek Kurvilinier

Analisis regresi majemuk juga dapat mengakomodasi sifat data yang tidak linear (curvilinear). Data yang bersangkutan dapat ditransformasi dengan dilogaritma atau diakar kuadrat. Akan tetapi, metode ini hanya dapat berlaku untuk mengubah sedikit plot data. Selain itu, metode ini tidak memiliki landasan statistik yang memadai mengenai ketepatan model linear yang akan dibentuk. Oleh karena itu, dapat digunakan alternatif lain berupa polinomial. Polinomial dibentuk dengan mengikutsertakan suatu komponen nonlinear dari variabel independen ke dalam model regresi. Efek kurvilinier ini dapat dimodelkan dengan menggunakan persamaan berikut:

\hat{Y}=\beta_0+\beta_1X_1+\beta_2X_1^2

dengan:
\hat{Y}       : Prediksi nilai variabel dependen
\beta_0      : Konstanta (intercept)
\beta_1X_1 : Efek linier X_1
\beta_2X_1^2 : Efek kurvilinier X_1

2.2.4. Efek Moderator

Karakteristik lain yang juga dapat diakomodasi adalah efek moderator atau efek interaksi, yaitu suatu kondisi yang terjadi ketika suatu variabel mempengaruhi bentuk hubungan antara variabel independen lainnya dengan variabel dependen. Misalnya tingkat penghasilan ditemukan sebagai variabel moderator terhadap hubungan antara ukuran keluarga dan jumlah pengggunaan kartu kredit. Akibatnya, ukuran keluarga yang besar belum menjamin tingginya penggunaan kartu kredit. Hubungan ini hanya berlaku untuk keluarga dengan tingkat penghasilan yang tinggi. Untuk mengakomodasi karakteristik ini, maka ke dalam model regresi dapat diikutsertakan suatu variabel independen yang merupakan perkalian antara variabel tingkat penghasilan dengan variabel ukuran keluarga.

Berikut contoh untuk memodelkan efek moderator dalam analisis regresi majemuk:

\hat{Y}=\beta_0+\beta_1X_1+\beta_2X_2+\beta_3X_1X_2

dengan:
\hat{Y}       : Prediksi nilai variabel dependen
\beta_0      : Konstanta (intercept)
\beta_1X_1 : Efek linier X_1
\beta_2X_2 : Efek linier X_2
\beta_3X_1X_2 : Efek moderator dari X_2 pada X_1


2.3. Asumsi

Dalam membentuk model regresi – menentukan koefisien regresi – peneliti dituntut untuk dapat meminimasi jumlah total kuadrat error (residu). Error ini merupakan selisih antara nilai variabel dependen aktual dengan nilai variabel dependen yang diprediksi melalui model regresi. Metode minimasi kuadrat error ini dikenal sebagai least-square method.

Sebelum menggunakan analisis regresi, peneliti harus menjamin bahwa data-data yang dikumpulkannya memenuhi asumsi berikut ini :

  1. Linieritas.
    Suatu model linier harus dapat memprediksikan nilai (variabel dependen) pada suatu garis lurus yang perubahan nilainya konstan terhadap perubahan nilai variabel independen. Pengujian hubungan linier antara variabel dependen dan independen dapat dilakukan dengan membuat plot residu. Apabila plot residu mengikuti suatu garis lurus untuk setiap pertambahan nilai variabel independen dan dependen, maka model dinyatakan memenuhi asumsi linieritas.
  1. Variansi Residu yang Konstan (homoscedasticity).
    Asumsi ini diperlukan karena diharapkan bahwa variansi nilai variabel dependen yang dijelaskan melalui model tidak terkonsentrasi pada nilai variabel independen yang terbatas. Pengujian variansi ini dapat dilakukan dengan membuat plot antara residu (studentized residu) terhadap nilai variabel dependen. Pada output SPSS ditunjukkan dengan scatter plot yang bentuknya acak.
  1. Independensi Residu.
    Nilai variabel dependen yang diprediksi harus independen satu dengan lainnya. Tidak ada kaitan antara suatu hasil prediksi nilai variabel dependen dengan prediksi berikutnya. Untuk mendeteksinya dapat dilakukan dengan membuat plot antara residu dengan dengan variabel independen terurut yang mungkin (misalnya plot antara residu dengan  variabel waktu). Apabila residu bersifat independen, maka plot akan terlihat random.
  1. Residu yang Berdistribusi Normal.
    Sifat kenormalan harus dimiliki oleh variabel dependen maupun independen. Pengujian ini dapat dilakukan dengan melakukan pemeriksaan visual terhadap histogram residu. Metode lainnya adalah dengan membuat normal probability plot, yaitu plot antara residu yang distandarisasi dengan plot distribusi normal. Jika normal, maka plot residu ini akan mengikuti suatu garis lurus.
Gambar 2. Analisis Grafis Terhadap Residual (Error)

Gambar 2. Analisis Grafis Terhadap Residual (Error)

 

2.4. Estimasi Model Regresi

Metode yang digunakan untuk mengestimasi fungsi regresi adalah metode pendekatan kuadrat terkecil (least square approach). Melalui metode ini peneliti bermaksud memperkecil jumlah kuadrat error yang terjadi (error total merupakan selisih antara nilai aktual dengan nilai yang diprediksi melalui model regresi).

2.4.1. Seleksi Variabel

Estimasi model dimulai dengan menentukan variabel independen yang akan masuk dalam persamaan regresi. Salah satu pendekatan yang dapat dan sering digunakan adalah pendekatan pencarian sekuensial. Selain itu ada dua pendekatan lain yaitu spesifikasi konfirmatori dan combinatorial. Ada tiga metode yang umum digunakan dalam pendekatan sekuensial ini, yaitu:

  • Pemilihan ke Belakang (Backward)
    Metode ini dimulai dengan memasukkan semua variabel independen yang ada ke dalam persamaan regresi. Kemudian dilakukan penilaian terhadap setiap variabel independen apakah layak untuk tetap berada dalam persamaan regresi. Variabel independen yang telah dikeluarkan tidak dapat masuk kembali.
    Secara ringkas, langkah-langkah yang dilakukan pada metode ini adalah sebagai berikut:
  1. Tampilkan persamaan regresi yang mencakup seluruh variabel bebas yang ada.
  2. Hitung nilai R^2 yang disebabkan penghilangan setiap variabel, atau secara ekivalen adalah nilai uji F bagi setiap variabel independen yang diperlakukan sebagai variabel terakhir yang masuk ke persamaan regresi.
  3. Nilai uji F parsial yang terendah, diberi lambang F_L, dibandingkan dengan suatu nilai kritis yang telah ditentukan, diberi lambang F_C. Jika:
    a. F_L<F_C, keluarkan variabel yang berhubungan dengan nilai F_L ini, lalu hitung kembali persamaan regresi berdasarkan susunan variabel independen yang baru dan kembali ke tahap 2.
    b. F_L>F_C, ambil persamaan regresi tersebut.
  • Pemilihan ke Depan (Forward)
    Metode ini dimulai dari keadaan ketika semua variabel independen berada di luar persamaan regresi. Lalu dilakukan penilaian satu persatu terhadap variabel independen tersebut. Variabel independen yang sudah masuk tidak dapat keluar lagi.
    Tahap-tahap yang dilakukan sebagai berikut:

    1. Proses dimulai dalam keadaan tidak ada variabel independen yang berada di dalam persamaan regresi.
    2. Hitung nilai korelasi semua variabel independen terhadap variabel dependen. Variabel independen dengan korelasi terbesar dipilih jika nilai F parsialnya secara statistik signifikan.
    3. Setelah variabel independen yang dipilih pada tahap 2 masuk, hitung persamaan regresi.
    4. Pada tahap selanjutnya, pilih variabel independen lainnya dengan korelasi parsial terbesar.
    5. Nilai uji F untuk setiap variabel independen, diberi lambang F_H, dibandingkan dengan nilai kritis yang telah ditentukan sebelumnya, diberi lambang F_C. Kemudian, jika:
      a. F_H>F_C, masukkan variabel yang berhubungan dengan nilai F_H ini, lalu hitung kembali persamaan regresi berdasarkan susunan variabel independen yang baru dan kembali ke tahap 4.
      b. F_H<F_C, ambil persamaan regresi yang telah dihitung.
  • Pemilihan Stepwise
    Cara ini lebih ketat dibandingkan kedua metode sebelumnya. Kelebihannya adalah sifat reversibel terhadap variabel independen yanga akan masuk persamaan regresi. Tahapannya sebagai berikut:

    1. Hitung nilai korelasi masing-masing variabel independen terhadap variabel variabel dependen. Variabel dengan nilai korelasi terbesar akan masuk pertama ke dalam persamaan regresi (misalkan X_I)
    2. Regresikan Y terhadap X_I. Tahan X_I di dalam model jika seluruh uji F menunjukkan bahwa persamaan regresi secara statistik signifikan.
    3. Hitung nilai korelasi parsial dari seluruh variabel independen yang berada di luar persamaan. Pilih variabel independen dengan korelasi parsial terbesar sebagai variabel independen kedua yang masuk ke persamaan (misalkan X_J).
    4. Dengan dua variabel independen di dalam model, hitung kembali persamaan regresi. Tahan X_J  pada persamaan bila nilai F parsialnya signifikan dibandingkan dengan nilai kritis di bawah distribusi F dengan derajat kebebasan 1 dan n-2-1. Selanjutnya, periksa apakah X_I masih layak berada di dalam persamaan yang telah mengandung X_J. Bandingkan nilai F parsial X_I dengan nilai kritis di bawah distribusi F dengan derajat kebebasan 1 dan n-2-1. Tahan X_I pada persamaan bersama-sama X_J bila nilai F parsialnya signifikan bila dibandingkan dengan kriteria yang telah ditentukan.
    5. Selanjutnya pilih variabel independen lainnya yang akan masuk ke persamaan, dengan syarat memiliki nilai koefisien parsial terbesar di antara variabel independen lainnya yang berada di luar persamaan (misalkan X_K).
    6. Masukkan X_K ke dalam persamaan yang telah mengandung X_I dan X_J, dan putuskan berdasarkan nilai F parsial, apakah:
      a. X_K sebaiknya masuk dalam persamaan yang mengandung X_I dan X_J.
      b. X_I masih layak berada dalam persamaan, di mana telah ada X_K dan X_J.
      c. X_J masih layak berada dalam persamaan, di mana telah ada X_K dan X_I.
      Sebagai contoh, jika nilai F parsial jatuh pada variabel X_I dan ternyata nilai tersebut kurang dari nilai kritis di bawah distribusi F dengan derajat kebebasan 1 dan n-3-1, maka keluarkan X_I dari persamaan. Lalu hitung kembali persamaan regresi dan uji nilai F parsial dari kedua variabel lainnya (X_J dan X_K).
    7. Prosedur stepwise berlanjut hingga tidak ada lagi variabel independen yang akan masuk atau keluar persamaan regresi.


2.4.2. Pengujian Signifikansi Model

Beberapa konsep berikut dapat dijadikan pedoman penentuan signifikansi dalam model.

  • Multiple R.
    Multiple R merupakan koefisien korelasi untuk variabel yang masuk ke dalam model dengan variabel dependen.
  • R square (R^2).
    R square merupakan kuadrat dari koefisien korelasi dan biasa juga disebut sebagai koefisien determinasi (coefficient of determination). Nilai ini mengindikasikan total variasi dari variabel dependen yang terjelaskan oleh variabel independen yang masuk dalam model.
  • Adjusted R^2.
    R^2 dipengaruhi oleh jumlah variabel independen relatif terhadap ukuran sampel. Adjusted R^2 digunakan untuk menghilangkan pengaruh jumlah variabel independen sehingga beberapa model dengan jumlah variabel independen yang berbeda dapat diperbandingkan.
  • Standard error of estimate (SEE).
    Standard error of estimate merupakan salah satu ukuran akurasi kemampuan memprediksi oleh model. Standard error of estimate merupakan akar dari sum of the squared error dibagi dengan degree of freedom. Standard error of estimate digunakan sebagai estimasi atas deviasi standar dari nilai dependen aktual di sekitar garis regresi.
  • Standard error of the coefficient.
    Semakin kecil standard error of the coefficient, maka semakin reliabel prediksi yang dihasilkan.
  • Partial t values of variables in the equation.
    Partial t values of variables in the equation menunjukkan ukuran signifikansi korelasi parsial dari variabel-variabel yang terdapat dalam model.  Angka ini berguna untuk menentukan apakah suatu variabel tetap dipertahankan dalam model atau dihilangkan. Jika nilai partial t suatu variabel kurang dari nilai t kritis-nya (dilihat dari tabel, tergantung degree of freedom), maka variabel tersebut sebaiknya dihilangkan dari model.
  • Partial correlation variables not in the equation.
    Partial correlation variables not in the equation menunjukkan persentase variansi yang belum terjelaskan oleh variabel-variabel dalam persamaan yang dapat dijelaskan oleh variabel yang tidak berada dalam persamaan.
  • Partial t values of variables not in the equation.
    Sama dengan partial t values of variables in the equation hanya saja berlaku bagi variabel yang tidak berada dalam persamaan. Jika nilai t dari suatu variabel signifikan, maka variabel tersebut dapat dimasukkan ke dalam persamaan.


2.5. Interpretasi Hasil Analisis Regresi

Interpretasi dilakukan dengan menganalisis koefisien regresi yang terbentuk dari model regresi. Koefisien regresi dalam hal ini merupakan bobot yang dimiliki oleh setiap variabel independen dalam persamaan regresi. Akan tetapi, koefisien regresi yang besar pada suatu variabel tidak mengindikasikan bahwa variabel yang bersangkutan menjadi lebih penting.

Untuk membandingkan tingkat kepentingan tersebut, peneliti harus menggunakan koefisien beta. Beta merupakan koefisien regresi yang sudah distandarisasikan. Hal ini berarti setiap koefisien tidak lagi mengandung satuan pengukuran variabel independennya, melainkan sudah memiliki satuan pengukuran yang seragam. Oleh karena itu, koefisien ini dapat digunakan sebagai bahan perbandingan.

Satu hal yang harus diperhatikan dari model regresi yang diperoleh adalah keberadaan multikolinearitas (multicolinearity), yaitu adanya hubungan antarvariabel independen. Multikolinearitas dapat mempengaruhi kemampuan model dalam menjelaskan dan mengestimasi variabel dependen. Adanya multikolinearitas dapat diketahui dengan melihat paramater Variance Inflation Factor (VIF) dan tolerance. Parameter ini menunjukkan korelasi antarvariabel independen dalam model regresi. Multikolinearitas ini dapat diatasi dengan menghilangkan variabel-variabel yang diduga saling berkorelasi tinggi. Multikolinearitas tidak menjadi masalah yang krusial jika model regresi digunakan untuk keperluan prediksi saja, tidak untuk interpretasi.


2.6. Validasi Hasil Analisis

Validasi model regresi dapat dilakukan dengan dua cara berikut:

  1. Menerapkan model ini ke dalam sampel lainnya.
    Sampel lainnya di sini dapat diperoleh dari sampel baru atau sampel yang diambil sebagai bagian dari sampel terdahulu. Jika data-data baru sukar untuk diperoleh, peneliti dapat menggunakan data awal dengan membagi dua data tersebut secara random. Dengan demikian, sebelum analisis regresi dilakukan akan terdapat dua set data. Set data pertama digunakan untuk membangun model, sedangkan set data kedua digunakan untuk menguji validitas model.
  1. Membandingkan beberapa model regresi.
    Cara ini dilakukan dengan membandingkan suatu model regresi terhadap model-model regresi lainnya dengan jumlah variabel independen dan atau ukuran sampel yang berbeda. Perbandingan dilakukan berdasarkan nilai adjusted R^2.

 

Referensi:

  • Hair, Joseph F. ,et al., 2006. Multivariate Data Analysis. New Jersey: Pearson Education, Inc.

 

Comments

comments

» Forecasting & Prediction, Multivariate Data Analysis, Research & Statistics, Statistics » Multiple Linear Regression (Bagian 1): Teori

, , April 2, 2015

Comments are closed.