Förbered din AI-miljö
Lästid: ca 9 min
Vad du lär dig
För att köra komplexa AI-modeller som KB-Whisper behöver vi en specifik uppsättning av programvarubibliotek. För att undvika konflikter med andra program på din dator skapar vi en "virtuell miljö". Det här momentet guidar dig genom att skapa en mapp för projektet, sätta upp en isolerad Python-miljö och installera alla nödvändiga paket.
Grunderna: Virtuella miljöer (venv)
En virtuell miljö är som en separat, ren arbetsyta för ett specifikt Python-projekt. Ingenting du installerar här kommer att påverka resten av ditt system, och vice versa. Det är en standardmetod för att hålla projekt organiserade och reproducerbara.
Så här gör vi: Steg-för-steg-guide
1. Skapa en projektmapp
Vi börjar med att skapa och navigera till en mapp för vårt transkriberingsprojekt.
mkdir ~/sv-transkriptor
cd ~/sv-transkriptor
2. Skapa och aktivera den virtuella miljön
Inuti din projektmapp, kör följande kommandon.
Skapa miljön (du gör det här bara en gång):
python3 -m venv .venv
Det här skapar en ny mapp .venv som innehåller en egen kopia av Python.
Aktivera miljön (du gör det här varje gång du ska arbeta med projektet):
source .venv/bin/activate
Du kommer att se (.venv) i början av din terminalprompt, vilket indikerar att miljön är aktiv.
3. Installera Python-beroenden
Medan din venv är aktiv, installera följande bibliotek. Det här är kärnan i vår AI-process.
Installera PyTorch (grunden för de flesta AI-modeller):
pip install torch --index-url https://download.pytorch.org/whl/cu121
Notera: cu121 är för NVIDIA-grafikkort. Om du inte har ett, kan du behöva en annan version anpassad för CPU.
Installera Transformers (för att ladda ner och använda modeller som Whisper):
pip install transformers safetensors
Installera verktyg för ljudhantering:
pip install ffmpeg-python pydub
Installera verktyg för interpunktion (punkt, komma, etc.):
pip install sentencepiece
4. Förbered ljudfilen för AI-modellen
AI-modeller kan inte hantera hur långa ljudfiler som helst. Vi måste dela upp vår MP3-fil i mindre, hanterbara bitar.
Skapa en Python-fil preprocess.py: Använd en textredigerare för att skapa filen preprocess.py och klistra in följande kod:
import os, math, ffmpeg
# Lägg din MP3-fil i samma mapp och döp den till input.mp3
INPUT_FILE = "input.mp3"
OUTPUT_DIR = "chunks"
CHUNK_SEC = 30 # Dela upp i 30-sekundersbitar
os.makedirs(OUTPUT_DIR, exist_ok=True)
probe = ffmpeg.probe(INPUT_FILE)
duration = float(probe["format"]["duration"])
num_chunks = math.ceil(duration / CHUNK_SEC)
print(f"Delar upp {INPUT_FILE} i {num_chunks} delar...")
for i in range(num_chunks):
start = i * CHUNK_SEC
out = f"{OUTPUT_DIR}/chunk_{i:03d}.wav"
(
ffmpeg
.input(INPUT_FILE, ss=start, t=CHUNK_SEC)
.output(out, ac=1, ar=16000, format="wav", loglevel="error")
.overwrite_output()
.run()
)
print(f"Skapade: {out}")
print("Klar med förbehandling!")
Så här kör du förbehandlingen
- Se till att du har en MP3-fil med namnet
input.mp3i dinsv-transkriptor-mapp. - Se till att din virtuella miljö är aktiv (
source .venv/bin/activate). - Kör skriptet:
python preprocess.py
Du kommer nu att ha en ny mapp som heter chunks fylld med små WAV-filer.
Nästa steg
Miljön är redo och ljudet är förberett. I nästa moment är det dags för magin: att skicka våra ljudfiler till KB-Whisper och få tillbaka text.

