Modellfokus: DeepSeek - En ojämn profil med allvarliga brister
Lästid: ca 5 min
Vi fortsätter vår genomgång med att titta på modeller i den lägre prestandaskalan. DeepSeek-R1:8b är ett exempel på en modell med en mycket ojämn profil. Även om den överraskande nog presterar väl inom ett specifikt område (kodning), gör de allvarliga bristerna inom språk, fakta och resonemang den till ett opålitligt och riskabelt val för de flesta arbetsuppgifter i skolan.
Vad du lär dig
- De specifika problemen med DeepSeek, särskilt gällande hallucinationer.
- Varför en ojämn prestanda gör en modell opålitlig.
Grunderna: DeepSeek i korthet
- Modell: DeepSeek-R1:8b
- Utvecklare: DeepSeek AI (ett kinesiskt AI-företag som fokuserar på öppen källkod)
- Svagheter: Stora problem med fakta, resonemang och språklig kvalitet. Tenderar att hallucinera.
- Ollama-kommando:
ollama run deepseek-r1:8b
Resultat från benchmark
DeepSeeks resultat visar på en extremt ojämn förmåga.
- Ljuspunkt (Kod & Teknik): Fick toppbetyg (5/5) för att ha skrivit korrekt Python-kod med en tydlig förklaring.
- Faktakunskap: Gav ett helt felaktigt svar om folkskolans införande och blandade ihop flera olika skolreformer (2/5).
- Resonemang: Hallucinerade vilt och hittade på obegripliga begrepp som "månmord" och "tredje himlens fjäril" (2/5).
- Språklig kvalitet: Språket var oförutsägbart med påhittade ord och dåligt flyt (2/5).
- Pedagogik: Försöket att förklara bråkräkning innehöll det felaktiga och förvirrande ordet "bunthärd" (3/5).
Praktisk tillämpning: En varningssignal
Erfarenheten från DeepSeek är en viktig läxa: stirra dig inte blind på en enskild styrka. En modells verkliga värde ligger i dess pålitlighet över ett brett spektrum av uppgifter. DeepSeeks oförmåga att hantera grundläggande språk och fakta gör den olämplig som en allmän assistent. Risken att den introducerar felaktigheter i ditt material är alldeles för stor.
Slutsats
Undvik DeepSeek för allmänt bruk. Om du har ett mycket specifikt behov av en lokal modell för att generera kod kan den vara värd att testa, men för allt annat textbaserat arbete är den en riskfaktor.
Nästa steg
Från en modell som är ojämn går vi till en annan populär modell som tyvärr visade sig ha ännu mer fundamentala brister i vår testning. Nästa moment handlar om Mistral:7b.

