Elæring fra med.fak. UiO

Eksamensteoretiske betraktninger

I analysen av vår gamle eksamen som tilsynssensor Knut Aspegren et al laget i 2008, ble behovet for content validity og sampling validity poengtert.

Content validity
vil si at eksamen faktisk prøver det vi vil at studentene skal lære av studiet - fortrinnsvis presist reflektert i læringsmålene.
Med få oppgaver får man i alminnelighet begrenset content validity fordi bare en liten del av stoffet prøves. Et av Aspegrens et als råd var derfor å lage mange spørsmål. Våre digitale eksamener har typisk rundt 100 spørsmål som skal besvares innenfor 4 timer.
I USA og Trondheim sørger man for god (bred) nok content validity ved å spre mange uavhengige enkeltspørsmål ut over hele faget. Vi har strategisk valgt at eksamen, i hvert fall i kliniske fag, skal inneholde kliniske kasuistikker = kliniske beslutningstrær, fordi den kliniske utredningen og resonneringen er så sentral i legearbeidet at den også bør være sentral i eksamen (mer om kasuistikkene nedenfor).
Med få, smale kasuistikker og veldig fokuserte spørsmål kunne vi imidlertid endt opp med lav content validity. Eksempelvis i 5. semester er det bare én oppgave i hjerte, én i lunge osv. Mulige utveier er da å lage brede, multimorbide kasus (som jo mer og mer tilsvarer virkeligheten legene møter), eller reservere en del enkeltstående spørsmål for å dekke sentralt stoff som kasuistikkene ikke dekker. I 7., 9. og 12.semester har man valgt å lage mange, mindre kasuistikker (hhv 9, 10, 12 oppgaver) og kan på det viset få tilstrekkelig bred dekning.
Noen hevder at så lenge studentene ikke vet hvorfra spørsmålene kommer, så vil de lese på alt, og da er det ikke så farlig om vi fokuserer på et lite, men varierende utvalg tema på eksamen. Det ligger implisitt i Aspegren et als råd at de ikke er enige i det. Erfaringene fra digital eksamen så langt er da også at noen studenter kan ha svære hull i enkeltfag. Hadde vi ikke testet disse fagene, så hadde vi risikert å slippe studentene ut i arbeidslivet med potensielt farlige kunnskapshull. Så selv om dette jevner seg ut statistisk over tid, må vi ha fokus på at vi skal sertifisere hver enkelt student til virksomhet som lege. En test med adekvat bredde er derfor viktig.

Sampling validity
vil si at antallet spørsmål innen ulike tema tilsvarer tyngden studieplanleggerne vil at temaene skal ha.
Et hjelpemiddel er såkalt blue-printing, det vil si at man lager tabeller som viser antall spørsmål hver kategori skal ha og teller opp at det man lager stemmer med malen.
På noen måter ivaretas dette bra i eksamenene våre. I 3.semester lager hvert fag et antall spørsmål som tilsvarer fagets omfang i timeplanen. I 5., 7., 9. og 12.semester fordeles oppgavene på de ulike fagene etter gitte nøkler.
Man burde imidlertid også sikre god sampling validity langs andre akser, eksempelvis fordelingen mellom kliniske, parakliniske og basale fag til kliniske eksamener og mellom ulike kognitive ferdigheter som reprodusering av faktakunnskap, forklaring og anvendelse av kunnskap. Det stilles alt for mange faktaspørsmål til eksamen.

Oppgaverammer

Som nevnt satser vi i de kliniske fagene på kliniske kasuistikker i form av beslutningstrær. Her rulles en sykehistorie ut gjennom flere deler hvor studentene for hver del får noen kliniske opplysninger fulgt av relevante spørsmål. Så sender studentene svarene sine inn på en ugjenkallelig måte. Deretter kommer neste del i kasuistikken med fasit på de mest sentrale spørsmål i forrige del, nye opplysninger og nye spørsmål. Ved å gi fasiten trekker man studenten inn til hovedsporet i beslutningstreet og unngår følgefeil.
Denne oppgavemodellen var den viktigste grunnen til å digitalisere eksamen hos oss. Dersom man ikke kan lage slike resonneringskjeder, er det bare et logistisk og ikke noe pedagogisk poeng med digital eksamen.
I basalfagene har vi også prøvd med kliniske kasuistikkrammer, men det blir ofte kunstig. Utfordringen blir da å likevel lage gode resonneringsoppgaver.

Formatering når du skriver oppgaven.

Marker klart starten på ny deloppgave. Lag ny deloppgave når du kommer til et punkt hvor følgefeil kan oppstå dersom studentene ikke får fasit på de foregående spørsmålene eller hvor en spørsmålstekst avslører svaret på et tidligere spørsmål.
Skriv bare det som er nytt i sykehistorien (eller tilsvarende) i hver deloppgave samt fasiten på de viktigste spørsmålene i forrige deloppgave. Skriv det i fet skrift. Vi akkumulerer automatisk sykehistorien fra deloppgave til deloppgave.
Oppgi referanseområde for alle laboratorieprøver og generisk navn på medikamenter. Bruk norsk tegnsetting (f.eks. desimalkomma) i norske oppgaver.

Del 1.
Du er fastlege. En 58 år gammel mann kommer til konsultasjon fordi han har smerter og stivhet i begge skuldre, overarmer og nedre del av ryggen med utstråling til bekken og lårmuskulatur. Han har vansker med å komme seg ut av sengen og å kle seg om morgenen. Plagene startet brått for fire uker siden. Ved undersøkelse er han øm i muskulaturen i overarmene og i lårene. Han har noe nedsatt aktiv og passiv bevegelse i skuldrene. Ikke innskrenket bevegelse i hoftene.
Blodprøver viser:
B-Hemoglobin: 10,8 g/dl (13,4 - 17,0), MCV: 79,1 fL (81,5 - 98,4), Leukocytter: 7,0 x 10⁹/L (3,6 - 9,3), B-SR (senkningsreaksjon): 95 mm/t (<20), S-CRP (C- reaktivt protein): 78 mg/l (<5), S- Ferritin: 440 μg/L (20 – 300).

Spørsmålstyper

Mange spørsmål kan implementeres med flere av variantene omtalt nedenfor, og valget må da baseres på en pedagogisk vurdering.

Det er en fordel at alle spørsmål nummereres etter algoritmen oppgavenummer.deloppgavenummer.spørsmålsnummer, slik at f.eks. det 4. spørsmålet i deloppgave 3 i oppgave 1 får nummeret 1.3.4. Dette letter kommunikasjonen og forebygger feil både under oppgaveskrivingen, innleggingen i eksamenssystemet og sensuren. Se også eksemplene nedenfor.

Essay
Dette er spørsmål med svært korte fritekst svar - fra 1 ord til kanskje 10 linjer. Siden det ikke gis noen hjelp i form av svaralternativ, slik det gjøres på flervalgsspørsmålene, må spørsmålet formuleres svært presist for å unngå flertydighet.
Svarene må sensureres manuelt. Vår omforente karakterskala er et heltall fom 0 tom 6 (se nedenfor om vekting og skalering). I prosessen forut for eksamen må du "ta" eksamen og besvare essay-spørsmålene dine. Svaret ditt blir sensurveiledningen, og det skal i hvert fall beskrive kravene til et fullgodt svar (6 p) og til et halvgodt svar (3 p). For å sikre god sensurreliabilitet bør det helst være ennå mer detaljert.

Formatering når du skriver spørsmålet.

Marker at dette er et essayspørsmål ved å skrive (E) over spørsmålet.
Oppgi hvor langt du mener et fullgodt svar maksimalt bør være - med god margin, f.eks.: max 2 linjer. Vi setter da av en tilsvarende tekstboks med 80 tegn lange linjer. Det er imidlertid for tiden teknisk mulig for studentene å skrive mer enn boksens størrelse - teksten scroller da.

(E)
2.3.1. Forklar hvorfor akutt nyresvikt kan utløses ved samtidig bruk av enalapril og NSAIDs (max 5 linjer).

Det vil se slik ut på eksamen:

2.3.1. Forklar hvorfor akutt nyresvikt kan utløses ved samtidig bruk av enalapril og NSAIDs (max 5 linjer).

Multiple choice
Dette er et avkryssingsspørsmål hvor det bare skal og kan avgis ett svar. Svarene rettes automatisk.
Studenten får typisk 4-6 svaralternativ hvorav ett er riktig. Antallet alternativ er en balanse mellom sannsynligheten for å få rett svar ved ren gjetting (1/n) og muligheten for å finne gode svaralternativ.
Denne spørsmålsformen er basis for de amerikanske eksamenene i regi av National Board of Medical Examiners (NBME), og det er en hel vitenskap om hvordan man skriver gode MC-spørsmål. NBME har laget en ganske stor, men svært lesverdig skriveguide. Noen eksempler: Alternativene må være unidimensjonale, dvs at man ikke skal blande f.eks. behandling og diagnose, men holde seg til en av de. Det riktige alternativet må ha tilstrekkelig avstand fra de andre til at det ikke kan reises tvil om riktigheten. Samtidig må de andre alternativene, som kalles distraktorer, ikke være banale.
Mange synes at MC-spørsmål egner seg best til fakta-prøving og at det er vanskelig å skrive f.eks. vurderingsspørsmål. NBME klarer etter egen mening dette utmerket, så det kan være verdt å lese skriveguiden deres.
I systemet vårt er det teknisk mulig å la noen svar være partielt riktige, men det skaper uklarhet og en uoversiktlig praksis vi helst vil unngå.

Formatering når du skriver spørsmålet.

Marker at dette er et multiple choice spørsmål ved å skrive (MC) over spørsmålet.
Etter spørsmålsteksten oppgir du ett svaralternativ pr linje og skriver det riktige svaret i fet skrift.

(MC)
3.1.5. Arteriell blodgass på romluft viser: pH 7,44 (7,35 - 7,45), pO₂ 8,3 kPa (10 - 12), pCO₂ 5,4 kPa (4,7 - 6,0), BE 3,0 mmol/L (-3 - 3).
Hvordan vil du beskrive/tolke blodgassen?

Hypoksemi uten respirasjonssvikt
Respiratorisk acidose
Respiratorisk alkalose
Respirasjonssvikt type 1
Respirasjonssvikt type 2

Det vil se slik ut på eksamen:

3.1.5. Arteriell blodgass på romluft viser: pH 7,44 (7,35 - 7,45), pO₂ 8,3 kPa (10 - 12), pCO₂ 5,4 kPa (4,7 - 6,0), BE 3,0 mmol/L (-3 - 3).
Hvordan vil du beskrive/tolke blodgassen?

	Hypoksemi uten respirasjonssvikt
	Respiratorisk acidose
	Respiratorisk alkalose
	Respirasjonssvikt type 1
	Respirasjonssvikt type 2

Pull-down
Dette er i prinsippet en samling av multiple choice spørsmål som har en felles innledningstekst(hovedspørsmål) og felles svaralternativ. Svaralternativene framstilles ikke som trykknapper, men som nedtrekksmenyer der man bare kan velge ett alternativ. Svarene rettes automatisk. Vurderingene for utformingen av multiple choice spørsmål gjelder også for pull-down.
I pull-down spørsmålene kan alle delspørsmål gi poeng. Om svaralternativene f.eks. er ja og nei, vil både korrekte ja-svar og korrekte nei-svar gi poeng. Det er altså ikke mulig å "helgardere" seg fram til full poengsum. Man må være oppmerksom på at et ubesvart delspørsmål ikke har noe implisitt svar, men gir 0 poeng. Det fordrer visse hensyn under oppgaveskrivingen. Det følgende spørsmålet, som hadde ja/nei svar, ble tolket av noen studenter slik at de kun behøvde å svare på de riktige alternativene og at de andre underforstått var "nei":
"Hvilke to av de følgende blodprøver vil du være spesielt interessert i med tanke på eventuelle bivirkninger av simvastatinbehandlingen?"
Spørsmålet burde i stedet vært formulert slik:
"Hvilke av de følgende blodprøver vil du være spesielt interessert i med tanke på eventuelle bivirkninger av simvastatinbehandlingen? Det skal være 2 ja-svar og resten nei-svar."
En annen sak er hvorvidt man skal oppgi antall rette svar. Det avhenger av hvilken vanskelighetsgrad man tilstreber, og det er en del meningsforskjeller blant lærerne om dette.

Formatering når du skriver spørsmålet.

Marker at dette er et pull-down spørsmål ved å skrive (PD) over spørsmålet.
Etter spørsmålsteksten oppgir du først delspørsmålene, ett pr linje, etterfulgt av riktig svar. Deretter oppgir du alle svaralternativene, ett pr.linje.

(PD)
5.1.2. Hvordan vil minuttvolumet hos denne pasienten endre seg dersom -

preload blir mindre minke
afterload blir større minke

øke
uendret
minke

Det vil se slik ut på eksamen:

5.1.2. Hvordan vil minuttvolumet hos denne pasienten endre seg dersom -

preload blir mindre
afterload blir større

Multiple response
Dette er et avkryssingsspørsmål hvor det i prinsippet kan være mulig og korrekt å velge alt fra 0 til alle alternativ. Svarene rettes automatisk.
Dersom bare riktige svar telte og man kunne krysse av alle alternativene, ville man være garantert full score. Tidligere ga vi derfor like mye fradrag for feil svar som tillegg for riktig svar. Selv om vi satte en nedre grense på 0 poeng, kunne dette slå hardt ut. Vi gjør derfor om bruken av multiple response spørsmål. Nå reserverer vi de til spørsmål hvor det er naturlig å oppgi hvor mange svar man ønsker, og vi hindrer ad teknisk vei at det kan krysses av på flere alternativ (men studenten kan endre avkryssingene så mye man vil inntil svaret sendes inn). Vi gir poeng for riktige svar og ingen fradrag for feil svar.
Det er spesielt naturlig å bruke multiple response i graderingsspørsmål, f.eks. av typen "Hvilke er de 3 mest aktuelle differensialdiagnosene...". Der hvor man har relative begrep som viktigst, vanligst osv i spørsmålet, er det umulig for studenten å vite hvor omfattende oppgaveskriveren mener viktigst og vanligst er. Slike begrep må derfor kvantifiseres.

Formatering når du skriver spørsmålet.

Marker at dette er et multiple response spørsmål ved å skrive (MR) over spørsmålet.
Husk å oppgi i spørsmålsteksten hvor mange svar du ønsker. Vi begrenser da avkryssingsmulighetene tilsvarende. Etter spørsmålsteksten oppgir du ett svaralternativ pr linje og skriver de riktige svarene i fet skrift.

(MR)
1.1.2. Hvilke er de 2 første tiltak du vil gjøre blant følgende?

CT thorax
Ta ny blodgass som kontroll
Ultralyd thorax
Innleggelse av thoraxdren
MR
Intubere og kople til respirator
Gi oksygen

Det vil se slik ut på eksamen:

1.1.2. Hvilke er de 2 første tiltak du vil gjøre blant følgende?

Bilder

Medisin er et veldig visuelt fag, og bilder kan med stor fordel brukes både i oppgaverammen og i spørsmålene. Det krever imidlertid litt ekstra omtanke å forberede bilder til eksamensbruk.
For det første må man ha sikret seg tillatelse til å bruke bilder vi ikke eier, og samtykke fra personer man tar bilde av. Samtykkeskjemaet vi har utviklet for elæringsformål kan brukes om man ikke har noe annet.
Vi vil i regelen ha bildene i riktig størrelse i JPEG-format og med RGB fargekoding. Dette kan lett ordnes i Photoshop og lignende verktøy, men dersom man ikke behersker det, kan vi hjelpe til.
PCene vi bruker til eksamen har skjermer på 29,5 x 16,6 cm (b x h) med 1366 x 768 pixler. For hvert bilde må man gjøre to vurderinger når det gjelder størrelsen, og begge vurderingene har en medisinskfaglig basis slik at det er oppgaveskriveren som må gjøre de.

Hvor stort må bildet være for at man skal se nok detaljer til å kunne svare på spørsmålet?
Reduser bildet til denne størrelsen f.eks. i Photoshop. Det er da også viktig at kompresjonsfaktoren ikke reduseres i forhold til utgangsverdien. Det kan medføre at ytterligere detaljer går tapt. Det er nytteløst å forsøke å gjøre bildene større enn de er i utgangspunktet - det tilfører ikke noen ny informasjon.
I vurderingen av bildestørrelsen bør man også ta noe hensyn til nettverkskapasiteten et stort bilde trenger - når det lastes ned av mange studenter samtidig. Bilder i størrelsesorden 1 MB er uproblematiske.
Hvor stort skal bildet være på skjermen i utgangspunktet?
Det bør være lite nok til at spørsmålet er oversiktlig på skjermen og blir greit å arbeide med. Oppgi enten hvor bredt eller høyt du vil at bildet skal være, så setter vi dette som en utgangsstørrelse. Dersom studenten vil se detaljer, kan man zoome inn i bildet ved hjelp av tastekombinasjonen CTRL + og få mer og mer detaljer inntil alle pixlene i bildet vises (dvs størrelsen du valgte under punktet ovenfor).

Foreløpig kan vi ikke ha filmer i oppgavene. Det krever etablering av en streamer-løsning som er sikret for eksamensformål, og det vil nok ta noe tid.

Poeng og vekting

De eneste poengsummene oppgaveskriveren skal bry seg om, er poengene knyttet til sensurveiledningen på essay-spørsmål.
Det har vært ønsker om å kunne sette ulike poengsummer og vekter på alle typer spørsmål, men vi har så langt ikke villet gå inn på det. En viktig årsak er at vi etterhvert vil lage databaser av eksamensspørsmål for gjenbruk, og vi måtte da ha en stringent og reproduserbar måte å vekte og score spørsmål på som vi neppe klarer å oppnå med mange oppgaveskrivere. En annen grunn er at eksamensresultatet blir mer ugjennomsiktig for alle dersom vi innfører detaljert scoring og vekting.
Alle spørsmål skaleres derfor internt i systemet til samme maksimale poengsum. Det betyr at alle spørsmål i en oppgave eller fagkategori teller likt.
Oppgaver eller fagkategorier kan imidlertid vektes når de skal slås sammen til høyerenivås karakterer, men dette er en operasjon som er knyttet til sensureringen av en bestemt eksamen og som ikke følger oppgavene ved senere gjenbruk.

	CT thorax
	Ta ny blodgass som kontroll
	Ultralyd thorax
	Innleggelse av thoraxdren
	MR
	Intubere og kople til respirator
	Gi oksygen