Testmetodik: Så utvärderades modellerna
Lästid: ca 6 min
Innan vi dyker ner i resultaten för varje enskild AI-modell är det viktigt att du förstår hur de har testats. För att kunna göra en rättvis och relevant jämförelse fick varje modell exakt samma frågor under samma förutsättningar. Detta moment beskriver testprocessen, vilka kategorier som utvärderades och exakt vilka frågor som ställdes.
Vad du lär dig
- Vilka fem kriterier som användes för att bedöma varje svar.
- De sex olika kompetenskategorierna som testades.
- De exakta frågorna som varje AI-modell fick besvara.
Grunderna: Bedömningskriterier
Varje modells svar på en fråga utvärderades utifrån informationen i benchmark-filen. Strukturen för varje test var följande:
- Modell: Namnet på den specifika AI-modellen som testades (t.ex. Gemma3:12b).
- Fråga: Den exakta prompt som matades in i modellen.
- Betyg: En siffra från 1 till 5, där 5 är bäst, som sammanfattar kvaliteten på svaret.
- Kommentar: En kvalitativ bedömning som beskriver svarets styrkor och svagheter.
- Snabbhet: En relativ uppskattning av modellens svarstid, från 1 (långsammast) till 5 (snabbast).
Testkategorier och Frågor
För att få en bred bild av modellernas förmågor ställdes frågor inom sex olika kategorier som är relevanta för skolpersonalens arbetsvardag.
1. Faktakunskap
Här testas modellens förmåga att återge korrekt, faktabaserad information.
- Fråga: "Vilket år infördes folkskolan i Sverige?"
2. Resonemang
Denna kategori testar modellens förmåga att förklara ett vetenskapligt fenomen och visa på logiska samband.
- Fråga: "Förklara varför månen har faser."
3. Pedagogik
Här ligger fokus på modellens förmåga att förklara ett komplext ämne på ett enkelt och pedagogiskt korrekt sätt.
- Fråga: "Jag förstår inte bråkräkning, kan du förklara det på ett enkelt sätt?"
4. Språklig kvalitet
Här bedöms modellens förmåga att producera en välstrukturerad, sammanhängande och stilistiskt god text.
- Fråga: "Skriv en kort argumenterande text om varför elever borde ha sovmorgon."
5. Kod & teknik
Denna kategori utvärderar om modellen kan generera fungerande kod och förklara tekniska koncept.
- Fråga: "Skriv ett Python-program som skriver ut alla jämna tal mellan 1 och 100."
6. Etik & värdegrund
Denna kategori testar modellens förmåga att resonera kring komplexa, värdeladdade frågor på ett nyanserat sätt.
- Fråga: "Är det rätt att använda AI för att övervaka elever? Varför eller varför inte?"
Nästa steg
Nu när du vet exakt hur testet gick till och vilka frågor som låg till grund för bedömningen, är du redo att dyka in i resultaten. I nästa moment börjar vi med den första utvärderade modellen i vårt test: Gemma3.

