{"skill":{"slug":"local-stt","displayName":"Local STT (Nvidia Parakeet + Whisper Support)","summary":"Local STT with selectable backends - Parakeet (best accuracy) or Whisper (fastest, multilingual).","description":"---\nname: local-stt\ndescription: Local STT with selectable backends - Parakeet (best accuracy) or Whisper (fastest, multilingual).\nmetadata: {\"openclaw\":{\"emoji\":\"🎙️\",\"requires\":{\"bins\":[\"ffmpeg\"]}}}\n---\n\n# Local STT (Parakeet / Whisper)\n\nUnified local speech-to-text using ONNX Runtime with int8 quantization. Choose your backend:\n\n- **Parakeet** (default): Best accuracy for English, correctly captures names and filler words\n- **Whisper**: Fastest inference, supports 99 languages\n\n## Usage\n\n```bash\n# Default: Parakeet v2 (best English accuracy)\n~/.openclaw/skills/local-stt/scripts/local-stt.py audio.ogg\n\n# Explicit backend selection\n~/.openclaw/skills/local-stt/scripts/local-stt.py audio.ogg -b whisper\n~/.openclaw/skills/local-stt/scripts/local-stt.py audio.ogg -b parakeet -m v3\n\n# Quiet mode (suppress progress)\n~/.openclaw/skills/local-stt/scripts/local-stt.py audio.ogg --quiet\n```\n\n## Options\n\n- `-b/--backend`: `parakeet` (default), `whisper`\n- `-m/--model`: Model variant (see below)\n- `--no-int8`: Disable int8 quantization\n- `-q/--quiet`: Suppress progress\n- `--room-id`: Matrix room ID for direct message\n\n## Models\n\n### Parakeet (default backend)\n| Model | Description |\n|-------|-------------|\n| **v2** (default) | English only, best accuracy |\n| v3 | Multilingual |\n\n### Whisper\n| Model | Description |\n|-------|-------------|\n| tiny | Fastest, lower accuracy |\n| **base** (default) | Good balance |\n| small | Better accuracy |\n| large-v3-turbo | Best quality, slower |\n\n## Benchmark (24s audio)\n\n| Backend/Model | Time | RTF | Notes |\n|---------------|------|-----|-------|\n| Whisper Base int8 | 0.43s | 0.018x | Fastest |\n| **Parakeet v2 int8** | 0.60s | 0.025x | Best accuracy |\n| Parakeet v3 int8 | 0.63s | 0.026x | Multilingual |\n\n## openclaw.json\n\n```json\n{\n  \"tools\": {\n    \"media\": {\n      \"audio\": {\n        \"enabled\": true,\n        \"models\": [\n          {\n            \"type\": \"cli\",\n            \"command\": \"~/.openclaw/skills/local-stt/scripts/local-stt.py\",\n            \"args\": [\"--quiet\", \"{{MediaPath}}\"],\n            \"timeoutSeconds\": 30\n          }\n        ]\n      }\n    }\n  }\n}\n```\n","tags":{"latest":"1.0.0"},"stats":{"comments":0,"downloads":3196,"installsAllTime":121,"installsCurrent":20,"stars":1,"versions":1},"createdAt":1770042670809,"updatedAt":1778485994101},"latestVersion":{"version":"1.0.0","createdAt":1770042670809,"changelog":"- Initial release of unified local speech-to-text with ONNX Runtime and int8 quantization.\n- Supports selectable backends: Parakeet (default, best English accuracy) and Whisper (fastest, multilingual).\n- Easily switch backends and models via command-line options.\n- Includes benchmarking data for model speed and accuracy.\n- Requires ffmpeg for operation.","license":null},"metadata":{"setup":[],"os":null,"systems":null},"owner":{"handle":"araa47","userId":"s17ba5f8fxv5hp99aaj44pk04h885zwf","displayName":"araa47","image":"https://avatars.githubusercontent.com/u/22760261?v=4"},"moderation":null}