AI Speech-to-Text Webbapp: Installera Utvecklingsmiljön

I denna guide kommer vi att konfigurera utvecklingsmiljön för vår AI-drivna tal-till-text-webbapplikation. Vi skapar en virtuell Python-miljö, installerar alla nödvändiga paket och förbereder mappstrukturen.

Skapa en projektkatalog

# Skapa en ny projektkatalog
mkdir speech-to-text-app
cd speech-to-text-app

Skapa en virtuell Python-miljö

Virtuella miljöer låter dig isolera beroenden mellan olika projekt:

python -m venv venv

# Aktivera miljön
# Windows:
venv\Scripts\activate
# macOS/Linux:
source venv/bin/activate

När miljön är aktiv visas dess namn inom parentes i terminalen.

Installera nödvändiga paket

pip install --upgrade pip
pip install flask openai-whisper pyaudio numpy
pip install flask-bootstrap

Flask - webbramverk, openai-whisper - taligenkänning, PyAudio - mikrofoninspelning, NumPy - numerik, Flask-Bootstrap - Bootstrap-integration.

Felsökning av PyAudio

Om installationen misslyckas, prova:

Windows

pip install pipwin
pipwin install pyaudio

macOS

brew install portaudio
pip install pyaudio

Linux (Ubuntu/Debian)

sudo apt-get install python3-pyaudio

Skapa requirements.txt

pip freeze > requirements.txt

Strukturera projektet

mkdir -p static/js static/css templates
touch app.py templates/index.html static/js/main.js static/css/style.css

Testa miljön

Skapa en enkel Flask-app och HTML-mall enligt originalexemplet och kör python app.py. Besök http://127.0.0.1:5000/ för att verifiera installationen.

Installera Whisper-modellen

import whisper
model = whisper.load_model("base")

Slutsats

Miljön är nu klar, och vi är redo att bygga själva applikationen.