12.2 Lineær regresjonsanalyse
Regresjonsanalyse er en svært viktig metode i all statistisk analyse. I dette kapittelet skal vi se på lineær regresjon, som er analysemetoden vi bruker når vi har en kontinuerlig avhengig variabel. I all statistisk analyse er vi interessert i å studere sammenhengen mellom et sett med forklaringsvariabler og den avhengige variabelen. I enkel lineær regresjon ser vi på sammenhengen mellom den avhengige variabelen og én forklaringsvariabel. Men vanligvis har vi flere forklaringsvariabler som bidrar til forklaringen av den avhengige variabelen. Vi må da innføre alle de forklaringsvariablene vi er interessert, for å se om den effekten som vi hadde for én forklaringsvariabel beholdes når vi tar inn flere forklaringsvariabler. Vi sier at vi kontrollerer for effekten av de andre forklaringsvariablene.
La oss bruke datasettet lowbwt.sav som eksempel. Vi antar at det er en sammenheng mellom barnets vekt (BWT) og mors vekt (LWTKG). Den studerer vi en i enkel lineær regresjon, med BWT som avhengig variabel og LWTKG som (eneste) forklaringsvariabel. Men vi vet at om mor røyker (SMOKE = 1) vil påvirke barnet vekt (BWT) og mors vekt (LWTKG). Vil da mors vekt fortsatt ha effekt på barnets vekt når vi tar bort, eller kontrollerer for som vi sier, effekten av røyking. Dette får vi ut ved å analysere dette via en multippel regresjonsanalyse med BWT som avhengig variabel og LWTKG og SMOKE som forklaringsvariabler.
Vanligvis tenker vi på lineær regresjonsanalyse som en metode for å studere sammenhengen mellom en kontinuerlig avhengig variabel og en kontinuerlig forklaringsvariabel. Det er ufravikelig at den avhengige variabelen skal være kontinuerlig, men forklaringsvariabelen behøver ikke være det. Vi kan bruke en kategorisk variabel med to kategorier direkte i en regresjonsanalyse. Dette betyr at vi kan bruke variablene SMOKE, PTLD og FTVD direkte i regresjonsanalysen.
Men kategoriske variabler med flere enn to kategorier kan vi ikke bruke som de er. Her må vi omkode dem til dummy-variabler, som hver er kategoriske med to kategorier. Antallet dummy-variabler vi må lage, er lik antallet kategorier i variabelen minus 1. Vi kan altså ikke bruke RACE direkte, men vi må lage to dummy-variabler ut av RACE. Det var det vi gjorde i kapittel 14.5, da vi lagde RACE2 og RACE3. Når vi skal bruke RACE i en regresjonsanalyse, må vi altså bruke både RACE2 og RACE3 som våre forklaringsvariabler.
Gangen i en regresjonsanalyse vil vanligvis være som følger:
- Kjør enkel lineær regresjon med hver enkelt forklaringsvariabel. Dersom p-verdien er < 0.20 tar vi den med videre som en kandidat for en multippel regresjon. Ta også med variable som er av biologisk eller medisinsk interesse, selv om de har en p-verdi > 0.20.
- Kjør multippel regresjon med alle variablene som er inkludert på trinn 1.
- I den multiple regresjonsmodellen tar vi ut den forklaringsvariabelen som har høyest p-verdi, og kjør en multippel regresjon uten den.
- Gjenta trinn 3 inntil alle forklaringsvariablene er statistisk signifikant, med p < 0.05. Behold forklaringsvariable som er av biologisk eller medisinsk interesse.