Empty Use: setheader(no|en,rooturl,roottopic,subtopic,emailcontact,telephone)

12.3 Logistisk regresjonsanalyse

I avsnitt 12.2 så vi på lineær regresjon, som er analysemetoden vi bruker når vi har en kontinuerlig avhengig variabel, og vi er interessert i å studere sammenhengen mellom et sett med forklaringsvariabler og den avhengige variabelen. Når vi har flere forklaringsvariabler som bidrar til forklaringen av den avhengige variabelen, må vi innføre alle de forklaringsvariablene vi er interessert, for å se om den effekten som vi hadde for én forklaringsvariabel beholdes når vi tar inn flere forklaringsvariabler. Vi sier at vi kontrollerer for effekten av de andre forklaringsvariablene.

I lineær regresjonsanalyse er det ufravikelig at den avhengige variabelen skal være kontinuerlig, men forklaringsvariabelen behøver ikke være det. Vi kan for eksempel bruke en kategorisk variabel – med to kategorier – direkte i en regresjonsanalyse. Men kategoriske variabler med flere enn to kategorier kan vi ikke bruke som de er. I regresjonsanalysen må vi omkode dem til dummy-variabler, som hver er kategoriske med to kategorier. Antallet dummy-variabler vi må lage, er lik antallet kategorier i variabelen minus 1, se avsnitt 12.2. I SPSS sitt program for logistisk regresjon, behøver vi ikke lage dummy-variabler. Programmet gjør det for oss, forutsatt at vi markerer at vi har en kategorisk variabel som skal gjøres om til dummy-variabler

I logistisk regresjon ser vi på sammenhengen mellom en binær avhengig variabel og forklaringsvariabler som enten er kontinuerlige eller kategoriske. Den avhengige variabelen skal alltid ha to kategorier, 1 og 0.

La oss igjen bruke datasettet lowbwt.sav som eksempel. I kapittel 12.2, lineær regresjon, så vi først på sammenhengen barnets vekt (BWT) og mors vekt (LWTKG) i en enkel lineær regresjon. Deretter så vi på om variablene AGE, SMOKE, HT, RACE, PTLD og FTVD hadde noen effekt på BWT. Til slutt så vi på om hvilke av disse variablene som vil påvirke barnets vekt (BWT). Dette gjør vi via en multippel regresjonsanalyse med BWT som avhengig variabel og de andre variablene som mulige forklaringsvariabler.

Når den avhengige variabelen er binær, må vi analysere sammenhengen mellom denne variabelen og én forklaringsvariabel eller et sett av forklaringsvariabler med logistisk regresjon. Grunner til at vi ikke kan analysere en binær variabel med lineær regresjon, er så enkel som at sammenhengen ikke er lineær.

I datasettet lowbwt.sav er variabelen LOW binær. Dersom vi plotter sammenhengen mellom LOW og LWTKG finner vi

https://studmed.uio.no/elaring/lcms16/med-statistikk-2016/spss/images/12.3a.jpg

Vi ser at det ikke kan være en lineær sammenheng mellom lav fødselsvekt og mors vekt. Derimot viser det seg at en logistisk sammenheng passer fint. Siden den avhengige variabelen er binær, er det sannsynligheten for at den avhengige variabelen har verdien 1, vi er interessert i. Den logistiske regresjonsmodellen kan da skrives

P(LOW = 1) = exp(a + b LWTKG)/([1 + exp(a + b LWTKG)].

Her betyr exp(x) eksponentialfunksjonen av x.

Denne formelen kan også skrives som

ln{P(LOW = 1)/[1 - P(LOW = 1)] = a + b LWTKG,

eller som

P(LOW = 1)/[1 - P(LOW = 1)] = exp(a + b LWTKG)

Venstre side av den første at disse to formlene over kjenner vi igjen som logaritmen til oddsen for at barnet skal ha lav fødselsvekt. Høyre side viser en lineær sammenheng mors vekt.

Når vi nå skal fortolke verdien av regresjonskoeffisienten b, gjør vi dette vi oddsforholdet. Dersom vi endrer LWTKG med 1, vil da exp(b) være endringen i odds for å føde et lite barn (altså for at LOW = 1).

Dersom vi nå formulerer den enkle logistiske regresjonsmodellen med y som avhengig variabel og x som forklaringsvariabel, vil formelen være

ln{P(y = 1)/[1 - P(y = 1)] = a + b x

og fortolkningen av regresjonskoeffisienten b, vil være at dersom vi endrer forklaringsvariabelen med 1 enhet, vil oddsen for at y = 1 endre seg med exp(b) enheter.

Tilsvarende som for enkel og multippel lineær regresjon kan vi finne effekten av én forklaringsvariabel, kontrollert for andre, ved å gjøre en multippel logistisk regresjonsanalyse. Hvis vi generelt har p forklaringsvariabler, vil effekten av én forklaringsvariabel, kontrollert for de p – 1 andre, uttrykkes ved at oddsen for at y = 1 endrer seg med exp(b) enheter, når vi endrer forklaringsvariabelen med 1 enhet.

Gangen i en regresjonsanalyse vil vanligvis være som i lineær regresjon:

  1. Kjør enkel logistisk regresjon med hver enkelt forklaringsvariabel. Dersom p-verdien er < 0.20 tar vi den med videre som en kandidat for en multippel regresjon. Ta også med variable som er av biologisk eller medisinsk interesse, selv om de har en p-verdi > 0.20.

  1. Kjør multippel logistisk regresjon med alle variablene som er inkludert på trinn 1.

  1. I den multiple regresjonsmodellen tar vi ut den forklaringsvariabelen som har høyest p-verdi, og kjør en multippel regresjon uten den.

  1. Gjenta trinn 3 inntil alle forklaringsvariablene er statistisk signifikant, med p < 0.05. Behold forklaringsvariabler som er av biologisk eller medisinsk interesse