
Lär dig de viktigaste AI-modellerna
DeepSeek: Öppen källkod och styrka i kodning
Lästid: ca 8 min
Efter att ha navigerat genom de stora kommersiella AI-modellerna som ChatGPT, Claude, Gemini och Grok, är det dags att titta på en annan viktig kategori av AI-modeller: de öppna källkodsmodellerna. Bland de här har DeepSeek framträtt som en intressant och kraftfull aktör, särskilt känd för sin imponerande prestanda inom kodning, matematik och allmänt resonemang. DeepSeek-familjen omfattar allt från Coder-V2 (128 K kontext, topprestanda i kodning) till den nya DeepSeek-V3 (671 B MoE, 14,8 T tokens, 128 K kontext). Bildgenerering hanteras i systermodellen DeepSeek-Janus-Pro-7B.
Vad du lär dig
- Vad en öppen källkodsmodell är och fördelarna.
- Vilka DeepSeek-modeller som är relevanta och deras unika styrkor.
- Hur DeepSeek kan användas för kodning, problemlösning och kreativa uppgifter i undervisningen.
- DeepSeeks språkhantering på svenska och begränsningar.
- Viktiga överväganden kring ursprungsland, dataskydd och etiska risker vid användning av öppna källkodsmodeller i skolan.
Grunderna: Vad är DeepSeek?
DeepSeek är en familj av stora språkmodeller som utvecklats av DeepSeek-AI. Till skillnad från modeller som ChatGPT eller Gemini, som främst är tillgängliga via molntjänster med stängd källkod, finns DeepSeeks modeller ofta tillgängliga som öppen källkod under MIT- och modelllicenser. Det här innebär att forskare, utvecklare och även tekniskt kunniga skolor kan ladda ner och köra modellerna på sin egen hårdvara, eller anpassa dem för specifika ändamål.
Fördelar med öppen källkod
Att en modell är öppen källkod innebär flera fördelar:
- Transparens: Koden är offentlig, vilket möjliggör granskning och förståelse för hur modellen fungerar.
- Anpassningsbarhet: Användare kan finjustera modellen med egen data, vilket kan vara relevant för specifika pedagogiska behov.
- Potentiell för lokal körning: Möjligheten att köra modellen på egen infrastruktur kan erbjuda större kontroll över dataskyddet, då informationen inte behöver skickas till en extern molntjänst. Det bör dock noteras att även 16B-Lite-varianter ofta kräver minst 1x80 GB GPU, medan de större 236B/671B-modellerna kräver flera kraftfulla A100/H100-kort, vilket ofta innebär att man ändå får förlita sig på molnbaserade tjänster för att köra dem.
Relevanta DeepSeek-modeller
DeepSeek-familjen består av flera modeller, ofta optimerade för olika uppgifter:
- DeepSeek-Coder-V2: Den här modellen är specialiserad på kodning och baserad på en "Mixture-of-Experts" (MoE) arkitektur. Den har tränats på en stor datamängd där ytterligare 6 biljoner tokens lades till ovanpå V2-checkpointen, vilket ger en total träningsvolym på runt 7-7.5 biljoner tokens. Den stöder över 300 programmeringsspråk och har ett långt kontextfönster på 128K tokens. En nyare 236B/21B-aktiv variant av Coder-V2 toppar GPT-4o i HumanEval-benchmarks, vilket visar på den exceptionella förmågan.
- DeepSeek-MoE: En mer generell basmodell baserad på MoE-arkitektur, som utmärker sig i allmänt resonemang och matematisk problemlösning, utöver kodning.
- DeepSeek-V3: Den senaste och mest avancerade versionen, en 671B MoE-modell med 37 miljarder aktiverade parametrar per token. Den har en stark förmåga att utföra funktioner som att skapa programkod, skriva romaner och artiklar, samt arbeta med finansiell analys. Den har även ett kontextfönster på 128K tokens. Dock är V3 i första hand en textmodell; multimodaliteten är planerad men inte fullt utrullad med en egen pixel-decoder, utan snarare via extern inlining för bildförståelse.
- DeepSeek-R1: Den här serien (lanserad januari 2025) är särskilt optimerad för resonemang.
- DeepSeek-Prover: En uppgradering från april 2025 som ytterligare stärker DeepSeeks matematiska förmågor.
- DeepSeek-Janus-Pro-7B: Det här är DeepSeeks dedikerade modell för bildgenerering (lanserad januari 2025), som är en systermodell snarare än en del av V3-kärnan. DeepSeek-Janus-Pro-7B har visat sig slå DALL·E 3 i vissa testbenchmarks för bildgenerering.
Styrkor: Vad är DeepSeek bra på?
- Enastående kodningsförmåga: Särskilt DeepSeek-Coder-V2 rankas mycket högt inom kodningsbenchmarks och överträffar många andra modeller i att generera, felsöka och förklara kod.
- Praktiskt exempel: "Skriv en Python-funktion som beräknar Fibonacci-sekvensen iterativt" eller "Hitta och förklara buggen i den här JavaScript-koden."
- Matematik och resonemang: DeepSeek-MoE, R1-serien och Prover visar starka resultat inom matematiska problem och komplexa resonemangsuppgifter, vilket gör dem användbara för STEM-ämnen.
- Praktiskt exempel: "Förklara begreppet derivata för en elev i gymnasiet och ge ett praktiskt exempel."
- Långa kontextfönster: Med kontextfönster upp till 128K tokens kan DeepSeek hantera och resonera kring mycket stora texter eller kodfiler.
- Högkvalitativ bildgenerering (via Janus-Pro): DeepSeek-Janus-Pro-7B erbjuder imponerande bildgenereringsförmåga.
Svensk språkhantering och bildgenerering
- Svenska: DeepSeek-modeller är främst tränade på engelska och kod. Även om de kan förstå och generera text på svenska, har community-tester visat bristande kohesion på mindre språk som svenska och tyska. Vissa användare har rapporterat problem med "språkpanik" där modellen kan blanda in andra språk eller få svårt med språkigenkänningen.
- Tips: För att förbättra svensk prestanda, särskilt i DeepSeek-Coder-V2 (Instruct) och R1, rekommenderas att använda en systemprompt som "You are a Swedish assistant" och att ställa in temperaturen till ≤ 0.7. Resultaten kan dock fortfarande vara instabila. För kritiska uppgifter är det ofta bäst att prompta på engelska och sedan översätta outputen.
- Bildgenerering: DeepSeek-Janus-Pro-7B är modellen för bildgenerering inom DeepSeek-familjen.
Ursprungsland och säkerhetsrisker
DeepSeek utvecklas av det kinesiska företaget Hangzhou DeepSeek AI (杭州深度求索), grundat 2023 i Hangzhou, Zhejiang. Bolaget finansieras delvis av den kinesiska hedgefonden High-Flyer. Nvidia-vd:n Jensen Huang har nyligen lyft fram DeepSeek som en "världsklass-modell" under ett event i Peking.
Flera europeiska och nordamerikanska myndigheter har dock varnat för att använda kinesiska AI-modeller i känsliga miljöer, inklusive offentlig sektor och utbildning, på grund av potentiella säkerhets- och integritetsrisker:
- Risk för datadelning enligt kinesisk lag: Kinesiska underrättelse- och cybersäkerhetslagar (t ex § 7, § 10, § 35) kan tvinga kinesiska företag att lämna ut data till staten, även om data lagras utanför Kina. Tjeckiens cybersäkerhetsmyndighet (NÚKIB) har exempelvis förbjudit användningen av DeepSeek i den offentliga sektorn på grund av den här risken.
- Nationell säkerhet: US House Select Committee on the CCP (Kommunistpartiet i Kina) har beskrivit DeepSeek som ett "allvarligt hot" mot nationell säkerhet. Den brittiska regeringen följer samma spår och "övervakar potentiella hot" från kinesiska AI-aktörer.
- Integritetsluckor och svaga skyddsfilter: Oberoende granskningar och tekniska rapporter pekar på färre inbyggda skyddsfilter och potentiellt svagare integritets- och säkerhetsrutiner jämfört med västerländska motsvarigheter. Modeller kan logga prompts och svar under längre tid. CSIS (Center for Strategic and International Studies) har även analyserat att bristande skyddsfilter gör det lätt att generera skadlig kod, såsom ransomware.
- Missbrukspotential: Den öppna viktdesignen (open-weight) i kombination med svagare "guardrails" kan potentiellt leda till att modellen missbrukas för att skapa ransomware, deepfakes eller styrd propaganda.
- Geopolitisk osäkerhet: Flera länder har redan infört (eller överväger) blockering eller strikta regleringar. Plötsliga policyändringar eller exportkontroller kan göra det svårt att få uppdateringar eller support i framtiden.
Vad betyder det för skolan? Om skolan använder DeepSeek via deras egna molntjänster (om sådana erbjuds publikt) riskerar elev- eller personaldata att hamna på servrar i Kina och bli föremål för kinesisk lagstiftning. Körs modellen helt lokalt på skolans egna servrar kan man mitigera risken för dataöverföring, men då måste skolan själva stå för hela ansvaret för säkerhetsfilter, moderering, patchning och infrastruktur. Innan pilotdrift med DeepSeek bör en noggrann DPIA (Data Protection Impact Assessment) genomföras.
Praktiska exempel i klassrummet
- Programmeringsundervisning: Använd DeepSeek-Coder-V2 för att hjälpa elever att förstå komplexa kodsnuttar, felsöka sina program eller generera exempelkod för specifika uppgifter. Det kan vara en "programmeringshandledare" för både lärare och elever.
- Matematisk problemlösning: För gymnasieelever kan DeepSeek-MoE, R1-serien och Prover användas för att utforska olika sätt att lösa matematiska problem eller förklara komplexa koncept steg för steg.
- Innehållsgenerering för lärare: Använd DeepSeek för att snabbt generera utkast till textbaserade läromedel, uppgifter eller provfrågor som kräver starkt logiskt resonemang eller kodning.
- Visuella projekt (via Janus-Pro): För kreativa projekt där bildgenerering behövs kan DeepSeek-Janus-Pro-7B erbjuda högkvalitativa bilder.
Nästa steg
Nu när vi har täckt en representant för öppna källkodsmodeller och unika utmaningar, kommer vi i nästa moment att titta närmare på Meta Llama, en annan betydelsefull aktör inom öppen källkods-AI-landskapet. Meta har tagit en ledande roll i att göra kraftfulla AI-modeller tillgängliga för forskare och utvecklare globalt, vilket driver innovation och transparens i branschen.
