12.2.1 Enkel lineær regresjon. Eksempel: lowbwt.sav
Vi skal i dette eksempelet analysere BWT som avhengig variabel og med LWTKG, AGE, SMOKE, HT, RACE, PTLD og FTVD som forklaringsvariabler. SMOKE, HT, PTLD og FTVD er kategoriske variabler med to kategorier, og de trenger vi ikke gjøre noe med. RACE er en kategorisk variabel, med tre kategorier. Da må vi lage to dummy-variabler, RACE2 og RACE3, som vi har gjort tidligere.
Da er vi klare til å gjøre trinn 1 i metoden som vi beskrev i innledningen til dette kapittelet. Vi gjør da enkle regresjonsanalyser med hver enkelt av variablene LWTKG, AGE, SMOKE, HT, RACE, PTLD og FTVD.
Vi starter med en regresjon av BWT på LWTKG. Vi går da inn i Analyze/Regression/Linear. Vi trekker over BWT i Dependent og LWTKG over i Independent. Så gå vi til Statistics. Der klikker vi av på Confidence Interval Level, og lar det stå 95 der, siden vi ønsker et 95% konfidensintervall. Da ser dialogboksen vår slik ut:
Da får vi følgende resultat:
I den første tabellen ser vi at r = 0.186 og vi ser at r2 = 0.035. Disse tallene kjenner vi igjen fra korrelasjonsanalysen som vi gjorde i kapittel 11.5.
I neste tabell finner vi resultatene fra selve regresjonsanalysen. I kolonnen under B finner vi selve regresjonskoeffisienten. For LWTKG er den 9.84, med en standardfeil på 3.81. At effekten av LWTKG er 9.84 betyr at for hver kilo økning av mors vekt gir en vektøkning på barnet på 9.84 gram.
Siden teststørrelsen er lik effektmålet delt på standardfeilen, har vi at t = 9.84/3.81 = 2.59. Den to-sidige p-verdien finner vi under Sig. Den er p = 0.010. Den kjenner vi også igjen fra p-verdien på korrelasjonskoeffisienten. P-verdien for testen på om regresjonskoeffisienten er 0, er den samme som for om korrelasjonskoeffisienten er lik 0, siden de to testene er identiske. Til slutt har vi konfidensintervallet for regresjonskoeffisienten. Som vi har fra tidligere er dette tilnærmet gitt som
(Effektmålet - 1.96xStandardfeilen, Effektmålet + 1.96xStandardfeilen)
Vi ser at dette er tilnærmet likt det som SPSS gir som sitt konfidensintervall, nemlig (1919.0, 2820.3). Vi ser at konfidensintervallet i sin helhet ligger over 0, som betyr at p-verdien er nødt til å være < 0.05. Vi oppsummerer altså med at effekten av mors vekt er 9.84 gram per kilo vektøkning, KI = (1919.0, 2820.3), p = 0.010.
Da gjør vi en helt tilsvarende analyse for sammenhengen mellom BWT og AGE. Vi går da tilbake til Analyze/Regression/Linear. Vi beholder BWT i Dependent men trekker LWTKG tilbake fra Independent. Istedenfor trekker vi AGE over i Independent. Ved å klikke på OK får vi følgende resultat.
Vi ser av første tabell at r2 = 0.008. Det betyr at 0.8% av variasjonen i fødelsvekt er forklart av mors alder. Det er ikke mye! Dette stemmer også bra med resultatet i neste tabell. Der ser vi at fødselsvekten øker med 12 gram for hver år mor blir eldre, KI = (-7.4, 32.1) og p = 0.090. Siden p = 0.090, som er > 0.05, er sammenhengen mellom fødselsvekt og mors alder ikke statistisk signifikant. Dette får vi også bekreftet ved å se på konfidensintervallet som dekker verdien 0. Men p-verdien er lavere enn det kravet som vi satte i punkt 1 i innledningen til dette kapittelet.
Men mors alder er en viktig biologisk og medisinsk forklaringsvariabel så vi velger å ta denne med videre i analysen, uansett om p-verdien hadde vært > 0.20.
Så går vi videre til variabelen SMOKE. Dette er en to-kategorisk variabel, men den kan tas direkte inn i regresjonsanalysen, og regresjonskoeffisienten kan tolkes som effekten av SMOKE når den går fra 0 (ikke-røykere) til 1 (røykere).
Vi gjør da som over og går til Analyze/Regression/Linear. Vi trekker AGE tilbake fra Independent og trekker over SMOKE. Ved å klikke på OK får vi følgende resultat:
Her ser vi SMOKE forklarer bare 3.6% av variansen i BWT. Det er også lite, men av tabellen nedenfor ser vi at effekten av SMOKE på BWT er statistisk signifikant, p = 0.009. Vi finner at regresjonskoeffisienten er -281.7, 95% KI = (-493, -71). Snur vi på fortolkningen av dette har at fødselsvekten reduseres med 281.7 gram når mor er røyker, i forhold til å være ikke-røyker. Et 95% konfidensintervall på reduksjonen i vekt er (71, 493).
Disse resultatene kjenner vi igjen fra kapittelet om t-tester. Da vi gjorde en t-test for uavhengige utvalg i analysen av BWT og SMOKE hadde vi følgende resultat (som er kopiert fra kapittel 11.2.2):
Her ser vi effektmålet, forskjellen i gjennomsnittlig fødselsvekt, er 281.7 gram. Vi har et 95% konfidensintervallet som er (70.7, 492.7). I tabellen ser vi at p-verdien er p = 0.009. Disse resultatene er identiske med dem vi fikk i regresjonsanalysen, bortsett fra at fortegnene er snudd.
Dette er et generelt prinsipp: Det å gjøre en regresjonsanalyse med en kategorisk forklaringsvariabel med to kategorier er det samme som å gjøre en t-test for to uavhengige utvalg.
La oss så går videre med RACE. Her må vi huske at RACE er en kategorisk variabel med tre kategorier. Da må vi bruke to dummy variabler for å studere effekten av to kategorier i forhold til den tredje. Vi har valgt å lage RACE2 og RACE3 slik at kategorier White er referansekategorien og variabelen RACE2 måler effekten av Black i forhold til White og RACE3 måler effekten av Other i forhold til White. Når vi bruker dummy variabler til å studere effekten av kategoriske variabler, er det viktig at vi alltid tar med alle dummy variablene i analysen. Vi må altså ta med både RACE2 og RACE3 for å finne den samlede effekten av RACE.
Vi går da inn i Analyze/Regression/Linear. Vi trekker SMOKE tilbake fra Independent og trekker over RACE2 og RACE3 i Independent. Da ser dialogboksen vår slik ut:
Ved å klikke på OK får vi følgende resultat:
Av den første tabellen ser vi at r = 0.051, dvs. at 5.1% av variasjonen er forklart av variabelen RACE (altså samlet av RACE2 og RACE3). Av den neste tabellen ser vi at mødre som er Black føder barn som er 384.1 gram lettere enn White mødre, og Other mødre føder barn som er 300.0 gram lettere enn White mødre. Vi ser at p-verdiene er henholdsvis 0.016 og 0.009, som betyr at begge disse effekten er statistisk signifikante. Vi ser at konfidensintervallet for Black i forhold til White er (72.6, 695.5) og (75.5, 524.0) for Other i forhold til White. Merk at i her har snudd fortegnet for å få en enklere presentasjon av effektene.
I kapittel 12.1.1 brukte vi ANOVA til å sammenligne effektene mellom gruppene white, black og other. Hvis vi nå går tilbake til resultatene for sammenligningen mellom black og white hadde vi der:
Vi ser at selve effekten er den samme, nemlig 384.0 gram. Men p-verdien og konfidensintervallet er litt forskjellige. Grunnen til det er at i regresjonsanalysen regnes standardfeilen ut på en litt annen måte enn i t-testene. Det blir derfor en liten forskjell i resultatene for p-verdiene og konfidensintervallene.
Men som for t-testene har vi at et generelt prinsipp: Det å gjøre en regresjonsanalyse med en kategorisk forklaringsvariabel med flere kategorier er det samme som å gjøre en variansanalyse.
Da går vi videre med HT. Da finner vi følgende resultat.
HT forklarer også bare en liten del av variansen i BWT, 2.4%. Men effekten av HT på BWT er statistisk signifikant, p = 0.034. Regresjonskoeffisienten er -228.7, og et 95% KI = (-439, -18). Fødselsvekten reduseres med 228.7 gram når mor er hypertensive, i forhold til å være normotensive, og et 95% konfidensintervall på reduksjonen i vekt er (18, 439).
Vi må fortsette med PTLD. For den variabelen finner vi følgende resultat:
Igjen ser vi PTLD forklarer bare en liten del av variasjonen i BWT, men effekten er klart statistisk signifikant ( p < 0.001). Når PTLD = 1 får vi en redusert fødselsvekt på barnet på 434.2 gram, med et 95% konfidensintervall (154.1, 714.3).
Til slutt analyserer vi FTVD. Da får vi på lignende måte:
FTVD forklarer også bare en liten del av variasjonen i BWT (0.8%). Denne effekten er ikke statistisk signifikant ( p = 0.113). Når FTVD = 1 får vi en økt fødselsvekt på barnet på 168.6 gram, med et 95% konfidensintervall på (-40.1, 377.3).