9.4 Explore. Eksempel: pulse.sav
Kommandoen Explore gir oss mange muligheter til å se på hele fordelingen til en variabel, både i tall og grafisk fremstilling. Explore gir også mulighet til å se på sammenhengen mellom to variabler.
Vi skal se på variabelen PULSE1. Vi klikker på Analyze/Descriptive Statistics/Explore og kommer inn ny dialogboks. Denne dialogboksen har en avhengig variabel dvs. den variabelen vi vil forklare eller undersøke. Dette er variabelen som skal inn i Dependent Variable(s). For oss er det PULSE1. Vi flytter den over. Vi ser at det også her er en knapperekke til høyre. Der går vi inn i Plots. Da åpner det seg en dialogboks der vi tar bort haken på Stem-and-leaf, men setter inn en hake på Histogram. Da ser dialogboksen slik ut:
![]() |
Vi klikker på Continue og OK og får da følgende resultat i utskriftsvinduet:
![]() |
Her er det mye informasjon. Det meste vil bli gjennomgått i statistikkundervisningen, men vi må gå gjennom noen viktige punkter her. Først får vi gjennomsnittet (Mean), som for PULSE1 er 72.69. Vi får også beregnet et 5% trimmet gjennomsnitt (5% Trimmed Mean) som er det gjennomsnittet vi får når vi tar ut de 5% største og de 5% minste observasjonene. Vi får også medianen, som er den observasjonen som deler datamaterialet i to like store deler. Median er da lik annen kvartil. Alle disse er mål for hvor observasjonene er sentrert.
Så har vi forskjellige mål for spredning. Vi får skrevet ut Std. Deviation som er standardavviket, og som er beregnet til 11.06. Variansen (Variance) er kvadratet av standavviket, og er 122.37. Interkvartil differansen (Interquartile Range) er avstanden mellom øvre og nedre kvartil. Differansen mellom største (Maximum) og minste (Minimum) observasjon er også et mål for spredning.
I tillegg til Std. Deviation får vi også skrevet ut Std. Error, som delt på kvadratroten av antall observasjoner, dvs. 11.06/ sqrt(92) =1.17. Dette er spredningen til gjennomsnittet. Det er denne vi bruker til å beregne konfidensintervallet. Vi beregner nemlig konfidensintervallet som
(Gjennomsnitt - 1.96 x Standardfeilen, Gjennomsnittet + 1.96 x Standardfeilen).
Når vi bruker denne formelen finner vi at konfidensintervallet er
(72.69 - 1.96x1.71, 72.69 + 1.96x1.17) = (70.37, 75.01)
I tillegg til denne oversikten får vi også to grafer: et histogram og et boksplott.
![]() |
![]() |
Histogrammet gir en enkel presentasjon av dataene i grupper, siden det gir en oversikt over antallet som faller de definerte gruppene. Histogrammet gir en fin oversikt over om fordelingen er symmetrisk om gjennomsnittet. Men det ligger mer informasjon i boksplottet. Det består av en boks, med en nedre kant som er nedre kvartil. I midten ligger det en strek som er medianen og den øvre kanten er øvre kvartil. Dersom medianen ligger midt i boksen, er det samme avstand mellom nedre kvartil og medianen, som mellom medianen og øvre kvartil. Da er fordelingen symmetrisk rundt medianen. Hvis også medianen er ganske lik gjennomsnittet, har vi en symmetri rundt gjennomsnittet. I vårt tilfelle er det en litt kortere avstand i nedre del av boksen, men det er ikke spesielt stort avvik fra symmetri.
Linjene som går ut boksen, oppover og nedover, går opp til høyeste verdi og ned til laveste verdi. Men hver linje strekker seg bare opp til 1.5 ganger boksens lengde. Observasjoner som er høyere eller lavere enn dette, kalles ekstremverdier (outliers) og plottes som enkeltstående observasjoner som sirkler.



