Elæring fra med.fak. UiO

4.3 Data i ASCII-format: Eksempel: pulse.dat

Det finnes i dag et utall forskjellige dataprogrammer som alle lagrer data på ulike måter. SPSS lagrer også sine data på en særegen måte som bare SPSS benytter. Filer på dette formatet vi kaller vi SPSS-filer.

Imidlertid finnes det heldigvis en internasjonalt akseptert amerikansk standard for datafiler. Den standarden heter ASCII (American Standard Code for Information Interchange). Alle viktige programmer for statistisk analyse kan lese og skrive ASCII-datafiler og således kommunisere med hverandre. Vi skal nå se på hvordan SPSS kan lese ASCII data-filer. Vi skal også navnsette de forskjellige variablene i datasettet vårt og foreta enkel deskriptiv statistikk. Filen vi skal analysere heter pulse.dat. Den ligger på kursets hjemmeside. Start med å laste den ned til in katalog på PC-en din.

Dataene på denne filen kommer fra en undersøkelse av mannlige og kvinnelige studenter hvor vi målte pulsen deres før (PULSE1) og etter (PULSE2) en intervensjon, som her var løping. Halvparten av studentene løp under denne intervensjonen (RAN=1), den andre halvparten var i ro (RAN=2). I tillegg ble kjønn, høyde, vekt og røykevaner registrert. Datafilen pulse.dat inneholder bare tall skrevet i ASCII-format. Den består av 92 linjer svarende til 92 individer. For hvert individ er det 8 variabler bortover. Variabelnavn og fortolkning framgår av tabellen under.

Variable No.	Description	Name
1	First pulse rate	PULSE1
2	Second pulse rate	PULSE2
3	Running (1 = ran in place. 2 = did not run)	RAN
4	Smoking (1 = smokes regularly. 2 = does not smoke regularly)	SMO
5	Sex (1 = male. 2 = female)	SEX
6	Height in inches	HEI
7	Weight in pounds	WEI
8	Usual level of physical activity (1 = slight. 2 = moderate. 3 = a lot)	ACT

De 10 første og de 5 siste enhetene på datafilen ser slik ut:

64 88 1 2 1 66,00 140 2
58 70 1 2 1 72,00 145 2
62 76 1 1 1 73,50 160 3
66 78 1 1 1 73,00 190 1
64 80 1 2 1 69,00 155 2
74 84 1 2 1 73,00 165 1
84 84 9 2 1 72,00 150 3
68 72 1 2 1 74,00 190 2
62 75 1 2 1 72,00 195 2
76 118 1 2 1 71,00 138 2
,
,
,
90 92 2 1 2 64,00 125 1
78 80 2 2 2 68,00 133 1
68 68 2 2 2 62,00 110 2
86 84 2 2 2 67,00 150 3
76 76 2 2 9 61,75 108 2

Legg merke til at desimalpunktum i denne filen er satt til komma. Det skyldes at Windows er satt opp med komma som desimalpunktum. Dersom Windows er satt opp med komma, må vi endre alle kommaene til punktumer i datafilen, før vi laster den inn i SPSS.

Denne filen ligger i såkalt fritt format. Det er et standard format for ASCII-filer. Det betyr at hver variabel er skilt med (minst) et blankt tegn. Det spiller ingen rolle om det er flere blanke tegn mellom variablene, og det spiller ingen rolle at lengden på hver datalinje er den samme. Det motsatte av fritt format er fast format. Da må dataene ligge på samme måte i alle datalinjene. Det går vi ikke nærmere inn på her.

Legg også merke til at hver person (individ) ligger på én datalinje.

Vi går inn i SPSS og kommer igjen til et tomt datavindu. For å lese ASCII-filen pulse.dat inn i datavinduet klikker vi på File/Read Text Data. Vi går da til den katalogen vi har lagt datafilene våre, og velger da å ta inn datafilen pulse.dat derfra.

Vi kommer da inn i SPSS Text Wizard Import og må gå gjennom en meny i 6 trinn. Startmenyen ser slik ut:

https://studmed.uio.no/elaring/lcms16/med-statistikk-2016/spss/images/11.3a.jpg

I alle trinnene velger vi de opsjonene som er satt opp av SPSS. På trinn 2 blir vi spurt om Does your text file match a predefined format?. Siden vår datafil er i fritt format, lar vi markeringen stå på No. Vi går trinn 3 via Next. Her blir vi spurt om How are your variables arranged? Vi velger Delimited siden dataene er delt med blanke. På neste trinn blir vi spurt om to ting: How are your cases represented?. Siden hver person ligger på én linje, velger vi også her øverste alternativ. Deretter blir vi spurt om How many cases do you want to import. Vi skal importere alle dataene. På neste side blir vi spurt om Which delimiters appear between the variables. I fritt format er det Space(blank). Når vi kommer til siste trinn velger vi V1 som variabelnavn. Vi har altså valgt Next hele veien inntil vi avslutter med Finish. Da ser dialogboksen slik ut:

https://studmed.uio.no/elaring/lcms16/med-statistikk-2016/spss/images/11.3b.jpg

Vi ser at dataene våre ligger i et lite vindu i dialogboksen, men etter at vi er ferdige, må vi likevel sikre oss at innlesingen av datafilen har gått riktig for seg. Vi går inn Data View og ser at dataene ligger riktig i kolonner og søyler. Har dette blitt galt, må vi gå tilbake og sjekke at selve datafilen vår er på riktig format. Hvis vi ser at vi har gjort noe galt, må vi starte på nytt med innlesingen av data.

I dataarket ser dataene (når de er riktige) slik ut:

https://studmed.uio.no/elaring/lcms16/med-statistikk-2016/spss/images/11.3c.jpg

Legg merke til at det i variabelen V1 og V2 ligger 999 flere steder. Dette er én av kodene som brukes for manglende opplysninger, eller Missing values. I V3 ligger det også flere steder 9. Andre koder som brukes er for eksempel 99. Men siden 99 er en gyldig verdi for variablene V1 og V2, er det her brukt 999. For V3 er heller ikke 9 en gyldig kode. SPSS tror i utgangspunktet at dette er en gyldig numerisk verdi. Vi må derfor fortelle SPSS at det er den ikke, den er bare en indikator på at det er en Missing value. Hvordan vi gjør det skal vi se på i kapittel 5.5, men først skal vi navngi variablene, og gi dem riktige koder.

Vi går over i Variable View. Vi ser at alle variablene er blitt numeriske, og at alle dataene er riktig lest inn. Legg spesielt merke til at alle dataene er markert som numeriske. Dersom vi ikke har riktig desimalpunktum, f.eks. punktum istedenfor komma, vil SPSS oppfatte variabelen med desimaltegn, som en tekstvariabel (String). Da kan vi ikke bruke SPSS til gjøre statistiske analyser på denne variabelen.

Når vi nå har lest inn datafilen vår, passer vi på å legge den ned som en SPSS-fil i katalogen vår. Vi går da til File/Save as. Der velger vi katalogen vi skal legge filen i. Under File name: velger vi pulse. Merk at SPSS foreslår av filnavnet skal slutte på sav. Det er viktig at vi beholder den ekstensjonen, siden vi da sikrer oss at SPSS kjenner igjen denne filen som en SPSS-fil. Når vi har gjort det, trykker vi på Save. Da har vi lagret filen pulse.sav.

Vi skal i kapittel 5 gå gjennom hvordan vi legger inn variabelnavn (Variable name), et mer utfyllende variabel variabelnavn (Variabel label), koder for verdiene på kategoriske variabler (Value label) og håndterer manglende verdier (Missing value).