Elæring fra med.fak. UiO

9.6 Sjekking av normalitet. Eksempel: pulse.sav

Antagelsen om normalitet er helt sentral i statistisk analyse. Mange av de metodene vi skal bruke, for eksempel t-tester og regresjon, bygger på antagelsen om at dataene er normalfordelte. Hvordan skal vi sjekke antagelsen om normalitet?

Det finnes noen tester for normalitet, men vi skal ikke bruke dem, men heller sjekke ved et såkalt normalfordelingsplott. Dette finner vi under Analyze/Descriptive Statistics/Explore.

Vi henter frem datafilen pulse.sav. Vi skal her se på om variablene PULSE1 og PULSE2 kan betraktes som normalfordelte. Vi går da inn Analyze/Descriptive Statistics/Explore og trekker PULSE1 og PULSE2 over i vinduet Dependent List. Vi klikker så på Plots i knapperekken til høyre. Midt i dialogboksen står det Normality plots with test. Der klikker vi av. Vi klikker også på at vi skal ha Histogram og ikke Stem-leaf-plot. Da ser dialogboksen slik ut:

https://studmed.uio.no/elaring/lcms16/med-statistikk-2016/spss/images/19.6a.jpg

Vi klikker Continue og OK. Da får vi mye utskrift som vi kjenner igjen fra før. Her kopierer vi bare inn histogrammet og normalfordelingsplottet:

https://studmed.uio.no/elaring/lcms16/med-statistikk-2016/spss/images/19.6b.jpg

https://studmed.uio.no/elaring/lcms16/med-statistikk-2016/spss/images/19.6c.jpg

https://studmed.uio.no/elaring/lcms16/med-statistikk-2016/spss/images/19.6d.jpg

https://studmed.uio.no/elaring/lcms16/med-statistikk-2016/spss/images/19.6e.jpg

Vi ser at under normalfordelingsplottet ligger det et «detrended» normalfordelingsplottet. At det er «detrended» betyr at vi der ser på avstanden mellom observasjonene og linjen. Det er vanskeligere å tolke, så vi skal heller tolke normalfordelingsplottet.

I et normalfordelingsplott plotter vi alle observasjonenes verdi mot den tilsvarende verdien som observasjonen skulle ha vært, dersom vi hadde normalfordelte data. Dersom dataene er prefekt normalfordelt, skal de ligger på den rette linjen som også er tegnet i plottet. Men vi må forvente avvik, særlig når vi har lite data.

Først en liten kommentar til histogrammene. Vi kan bruke histogrammene til en vurdering av om data er normalfordelt, siden dette er en symmetrisk fordeling. Men det gir ikke en tilstrekkelig bakgrunn for å vurdere avvik fra normalfordelingen, særlig når det gjelder halene i fordelingen. Vi må derfor basere vurderingen på normalfordelingsplottet.

I normalfordelingsplottet for PULSE1 ser vi bare helt minimale avvik fra den rette linjen, og vi konkluderer med at PULSE1 er normalfordelt.

I plottet for PULSE2 ser vi noe større avvik. Vi ser for øvre del av fordelingen, dvs. i høyre hale, har vi to observasjoner som peker seg ut. For normalfordelingen skulle disse ha ligget på linjen, men det har altså for høye verdier, i forhold til normalfordelingen. Tilsvarende er det to verdier som som er for lave i forhold til normalfordelingen, i venstre hale. Men vi ser på disse avvikene som mindre, og konkluderer med at vi kan gå videre med antagelsen om at PULS2E1 og PULSE2 er normalfordelte.

Generelt kan vi si at når vi har mange observasjoner som er ikke-normale i halene, må vi forlate antagelsen om normalfordelte data. Da kan vi ikke bruke statistiske metoder som bygger på denne antagelsen, og må bruke såkalte ikke-parametriske metoder, se kapittel 11.3.