Speech to text

Transcreve arquivos de áudio em português brasileiro para texto, suportando vários formatos e incluindo timestamps.

Install

openclaw skills install stt

Speech-to-Text (STT) Skill

Transcreve arquivos de áudio para texto usando OpenAI Whisper, otimizado para português (Brasil).

When to use

Converter mensagens de voz ou áudios para texto
Transcrever áudios do WhatsApp, Telegram, etc.
Processar formatos: OGG, WAV, MP3, M4A, FLAC, AAC, OPUS
Obter transcrições com timestamps
Processar conteúdo em português brasileiro

Tools

stt_transcribe: Transcreve um arquivo de áudio específico
stt_watch: Inicia monitoramento contínuo da pasta inbound
stt_batch: Processa todos os áudios pendentes de uma vez

Setup

Instalar dependências:

pip install -r requirements.txt

Instalar FFmpeg (necessário pelo Whisper):

Windows: execute install_ffmpeg.cmd ou winget install "Gyan.FFmpeg"
macOS: brew install ffmpeg
Linux: sudo apt install ffmpeg

Criar pasta de entrada:

  mkdir -p ../../../media/inbound

Usage

Transcrever arquivo específico

python stt_processor.py --file /caminho/para/audio.ogg

Transcrever todos os áudios pendentes

python stt_processor.py