Valtec Vietnamese TTS

Local Vietnamese text-to-speech via VITS2 (offline, no cloud). Supports 5 built-in speaker voices and zero-shot voice cloning from reference audio.

Audits

Pending

Install

openclaw skills install valtec-tts

Valtec Vietnamese TTS

Local Vietnamese text-to-speech with zero-shot voice cloning, powered by VITS2. Runs offline — no cloud API needed.

Features

  • 🇻🇳 High-quality Vietnamese speech synthesis
  • 🎙️ Zero-shot voice cloning from ~5s reference audio
  • 👥 5 built-in speaker voices (Northern/Southern, Male/Female)
  • 🔒 Fully offline — no cloud API needed
  • ⚡ GPU-accelerated (CUDA) or CPU inference

Tính năng

  • 🇻🇳 Tổng hợp giọng nói tiếng Việt chất lượng cao
  • 🎙️ Nhân bản giọng nói zero-shot chỉ từ ~5s audio mẫu
  • 👥 5 giọng nói có sẵn (Bắc/Nam, Nam/Nữ)
  • 🔒 Hoạt động hoàn toàn offline — không cần cloud API
  • ⚡ Tăng tốc bằng GPU (CUDA) hoặc chạy trên CPU

Install / Cài đặt

1. Clone and install / Clone và cài đặt

git clone https://github.com/tronghieuit/valtec-tts.git ~/.openclaw/tools/valtec-tts
cd ~/.openclaw/tools/valtec-tts
pip install -e .

Các model sẽ tự động tải từ HuggingFace khi chạy lần đầu.

2. Configure OpenClaw / Cấu hình OpenClaw

Update ~/.openclaw/openclaw.json:

{
  skills: {
    entries: {
      "valtec-tts": {
        env: {
          VALTEC_TTS_DIR: "~/.openclaw/tools/valtec-tts",
        },
      },
    },
  },
}

Usage / Cách sử dụng

Multi-speaker TTS (giọng nói có sẵn)

{baseDir}/bin/valtec-tts.js --speaker NF -o output.wav "Xin chào, tôi là trợ lý AI của bạn."

Các giọng nói có sẵn:

  • NF — Nữ miền Bắc (Northern Female)
  • SF — Nữ miền Nam (Southern Female)
  • NM1 — Nam miền Bắc 1 (Northern Male 1)
  • SM — Nam miền Nam (Southern Male)
  • NM2 — Nam miền Bắc 2 (Northern Male 2)

Zero-shot voice cloning (Nhân bản giọng nói)

Chỉ cần cung cấp một đoạn audio mẫu (~5 giây), hệ thống sẽ tổng hợp giọng nói mới với giọng đó:

{baseDir}/bin/valtec-tts.js --zeroshot --reference voice_sample.wav -o output.wav "Xin chào, tôi là trợ lý AI."

Options / Tuỳ chọn

FlagMặc địnhMô tả
--speakerNFTên giọng: NF, SF, NM1, SM, NM2
--zeroshotBật chế độ nhân bản giọng nói
--referenceĐường dẫn file audio mẫu (3-10 giây)
-o, --outputtts.wavĐường dẫn file WAV đầu ra
--speed1.0Tốc độ nói (0.5–2.0)

Notes / Ghi chú

  • Lần chạy đầu tiên sẽ tải ~300MB model weights (lưu cache cục bộ).
  • Khuyến nghị dùng GPU (CUDA) để tổng hợp giọng nói realtime. CPU vẫn hoạt động nhưng chậm hơn (~3–5x RTF).
  • Audio mẫu cho nhân bản giọng nên dài 3–10 giây, giọng rõ ràng, ít tạp âm.
  • Model hỗ trợ tiếng Việt có dấu, tự động chuyển đổi phoneme.