Förbered din AI-miljö

Lästid: ca 9 min

Vad du lär dig

För att köra komplexa AI-modeller som KB-Whisper behöver vi en specifik uppsättning av programvarubibliotek. För att undvika konflikter med andra program på din dator skapar vi en "virtuell miljö". Det här momentet guidar dig genom att skapa en mapp för projektet, sätta upp en isolerad Python-miljö och installera alla nödvändiga paket.

Grunderna: Virtuella miljöer (`venv`)

En virtuell miljö är som en separat, ren arbetsyta för ett specifikt Python-projekt. Ingenting du installerar här kommer att påverka resten av ditt system, och vice versa. Det är en standardmetod för att hålla projekt organiserade och reproducerbara.

Så här gör vi: Steg-för-steg-guide

1. Skapa en projektmapp

Vi börjar med att skapa och navigera till en mapp för vårt transkriberingsprojekt.

mkdir ~/sv-transkriptor
cd ~/sv-transkriptor

2. Skapa och aktivera den virtuella miljön

Inuti din projektmapp, kör följande kommandon.

Skapa miljön (du gör det här bara en gång):

python3 -m venv .venv

Det här skapar en ny mapp .venv som innehåller en egen kopia av Python.

Aktivera miljön (du gör det här varje gång du ska arbeta med projektet):

source .venv/bin/activate

Du kommer att se (.venv) i början av din terminalprompt, vilket indikerar att miljön är aktiv.

3. Installera Python-beroenden

Medan din venv är aktiv, installera följande bibliotek. Det här är kärnan i vår AI-process.

Installera PyTorch (grunden för de flesta AI-modeller):

pip install torch --index-url https://download.pytorch.org/whl/cu121

Notera: cu121 är för NVIDIA-grafikkort. Om du inte har ett, kan du behöva en annan version anpassad för CPU.

Installera Transformers (för att ladda ner och använda modeller som Whisper):

pip install transformers safetensors

Installera verktyg för ljudhantering:

pip install ffmpeg-python pydub

Installera verktyg för interpunktion (punkt, komma, etc.):

pip install sentencepiece

4. Förbered ljudfilen för AI-modellen

AI-modeller kan inte hantera hur långa ljudfiler som helst. Vi måste dela upp vår MP3-fil i mindre, hanterbara bitar.

Skapa en Python-fil preprocess.py: Använd en textredigerare för att skapa filen preprocess.py och klistra in följande kod:

import os, math, ffmpeg

# Lägg din MP3-fil i samma mapp och döp den till input.mp3
INPUT_FILE   = "input.mp3"
OUTPUT_DIR   = "chunks"
CHUNK_SEC    = 30 # Dela upp i 30-sekundersbitar

os.makedirs(OUTPUT_DIR, exist_ok=True)
probe = ffmpeg.probe(INPUT_FILE)
duration = float(probe["format"]["duration"])
num_chunks = math.ceil(duration / CHUNK_SEC)

print(f"Delar upp {INPUT_FILE} i {num_chunks} delar...")

for i in range(num_chunks):
    start = i * CHUNK_SEC
    out = f"{OUTPUT_DIR}/chunk_{i:03d}.wav"
    (
        ffmpeg
        .input(INPUT_FILE, ss=start, t=CHUNK_SEC)
        .output(out, ac=1, ar=16000, format="wav", loglevel="error")
        .overwrite_output()
        .run()
    )
    print(f"Skapade: {out}")

print("Klar med förbehandling!")

Så här kör du förbehandlingen

Se till att du har en MP3-fil med namnet input.mp3 i din sv-transkriptor-mapp.
Se till att din virtuella miljö är aktiv (source .venv/bin/activate).
Kör skriptet:
```
python preprocess.py
```

Du kommer nu att ha en ny mapp som heter chunks fylld med små WAV-filer.

Nästa steg

Miljön är redo och ljudet är förberett. I nästa moment är det dags för magin: att skicka våra ljudfiler till KB-Whisper och få tillbaka text.

Lokal AI i praktiken: Transkribera YouTube med KB-Whisper

Förbered din AI-miljö

Vad du lär dig

Grunderna: Virtuella miljöer (`venv`)

Så här gör vi: Steg-för-steg-guide

1. Skapa en projektmapp

2. Skapa och aktivera den virtuella miljön

3. Installera Python-beroenden

4. Förbered ljudfilen för AI-modellen

Så här kör du förbehandlingen

Nästa steg

Lokal AI i praktiken: Transkribera YouTube med KB-Whisper

Lokal AI i praktiken: Transkribera YouTube med KB-Whisper

Förbered din AI-miljö

Vad du lär dig

Grunderna: Virtuella miljöer (venv)

Så här gör vi: Steg-för-steg-guide

1. Skapa en projektmapp

2. Skapa och aktivera den virtuella miljön

3. Installera Python-beroenden

4. Förbered ljudfilen för AI-modellen

Så här kör du förbehandlingen

Nästa steg

Lokal AI i praktiken: Transkribera YouTube med KB-Whisper

Grunderna: Virtuella miljöer (`venv`)