Testmetodik: Så utvärderades modellerna

Lästid: ca 6 min

Innan vi dyker ner i resultaten för varje enskild AI-modell är det viktigt att du förstår hur de har testats. För att kunna göra en rättvis och relevant jämförelse fick varje modell exakt samma frågor under samma förutsättningar. Detta moment beskriver testprocessen, vilka kategorier som utvärderades och exakt vilka frågor som ställdes.

Vad du lär dig

Vilka fem kriterier som användes för att bedöma varje svar.
De sex olika kompetenskategorierna som testades.
De exakta frågorna som varje AI-modell fick besvara.

Grunderna: Bedömningskriterier

Varje modells svar på en fråga utvärderades utifrån informationen i benchmark-filen. Strukturen för varje test var följande:

Modell: Namnet på den specifika AI-modellen som testades (t.ex. Gemma3:12b).
Fråga: Den exakta prompt som matades in i modellen.
Betyg: En siffra från 1 till 5, där 5 är bäst, som sammanfattar kvaliteten på svaret.
Kommentar: En kvalitativ bedömning som beskriver svarets styrkor och svagheter.
Snabbhet: En relativ uppskattning av modellens svarstid, från 1 (långsammast) till 5 (snabbast).

Testkategorier och Frågor

För att få en bred bild av modellernas förmågor ställdes frågor inom sex olika kategorier som är relevanta för skolpersonalens arbetsvardag.

1. Faktakunskap

Här testas modellens förmåga att återge korrekt, faktabaserad information.

Fråga: "Vilket år infördes folkskolan i Sverige?"

2. Resonemang

Denna kategori testar modellens förmåga att förklara ett vetenskapligt fenomen och visa på logiska samband.

Fråga: "Förklara varför månen har faser."

3. Pedagogik

Här ligger fokus på modellens förmåga att förklara ett komplext ämne på ett enkelt och pedagogiskt korrekt sätt.

Fråga: "Jag förstår inte bråkräkning, kan du förklara det på ett enkelt sätt?"

4. Språklig kvalitet

Här bedöms modellens förmåga att producera en välstrukturerad, sammanhängande och stilistiskt god text.

Fråga: "Skriv en kort argumenterande text om varför elever borde ha sovmorgon."

5. Kod & teknik

Denna kategori utvärderar om modellen kan generera fungerande kod och förklara tekniska koncept.

Fråga: "Skriv ett Python-program som skriver ut alla jämna tal mellan 1 och 100."

6. Etik & värdegrund

Denna kategori testar modellens förmåga att resonera kring komplexa, värdeladdade frågor på ett nyanserat sätt.

Fråga: "Är det rätt att använda AI för att övervaka elever? Varför eller varför inte?"

Nästa steg

Nu när du vet exakt hur testet gick till och vilka frågor som låg till grund för bedömningen, är du redo att dyka in i resultaten. I nästa moment börjar vi med den första utvärderade modellen i vårt test: Gemma3.

Kör AI lokalt med Ollama: En guide för skolans personal