Voicebox offers a free plan. Paid plans are available for advanced features.

Voicebox

⭐ 3.0

Voicebox는 텍스트로부터 자연스러운 음성을 완전히 오프라인으로 생성하는 오픈소스 음성 클로닝 데스크톱 앱입니다.

큐레이션 HyperClaw · 업데이트됨 2026-04-10

프리미엄 ✍️ 텍스트 및 글쓰기 🎬 비디오 및 오디오 🎙️ 음성 및 발화

방문 Voicebox

Voicebox 한눈에 보기

요금: 프리미엄
평점: ⭐ 3.0/5 · 2 개의 리뷰
주요 강점: 완전한 로컬 처리—클라우드 의존성이나 구독료 없음 · Mac, Windows, Linux에서 빠른 추론을 위한 하드웨어 가속 · 다중 음성 내러티브 제작을 위한 내장 타임라인 에디터

스크린샷

Voicebox 소개

Voicebox는 클라우드 서비스나 구독 없이 사용자의 기기에서 로컬로 실행되는 프라이버시 중심의 음성 합성 플랫폼입니다. Qwen3-TTS 기술 기반으로 구동되며, 모든 데이터를 사용자가 직접 관리할 수 있도록 하면서 전문가 수준의 음성 클로닝 및 텍스트 음성 변환 기능을 제공합니다. 이 애플리케이션은 복수의 음성 샘플을 지원하여 클로닝 품질과 자연스러움을 높여주며, 오디오 프로젝트의 진정성을 유지해 줍니다. 크로스플랫폼 호환성을 위해 설계된 Voicebox는 macOS, Windows, Linux 시스템에서 원활하게 작동합니다. Mac의 Metal과 Windows 및 Linux의 CUDA를 통한 하드웨어 가속을 활용하여 성능을 저하시키지 않고 빠른 로컬 추론이 가능합니다. 로컬 GPU에서 추론을 실행하든 원격 머신에 연결하든, 이 애플리케이션은 사용자의 워크플로우에 맞춰 적응합니다. 기본적인 음성 합성을 넘어 Voicebox는 종합적인 크리에이티브 스위트를 포함합니다. 통합된 스토리 에디터를 사용하면 타임라인 기반 인터페이스에서 트랙을 배치하고, 클립을 다듬고, 대화를 믹싱하여 다중 음성 내러티브를 구성할 수 있습니다. Whisper 기반의 내장 오디오 전사 시스템과 결합하면 음성 샘플에서 참조 텍스트를 자동으로 추출할 수 있어, 음성 클로닝과 콘텐츠 제작 전체 프로세스를 효율적으로 진행할 수 있습니다.

장점

👍 완전한 로컬 처리—클라우드 의존성이나 구독료 없음 👍 Mac, Windows, Linux에서 빠른 추론을 위한 하드웨어 가속 👍 다중 음성 내러티브 제작을 위한 내장 타임라인 에디터 👍 자동 참조 텍스트 추출을 위한 Whisper 기반 전사 기능 👍 향상된 자연스러움과 품질을 위한 다중 샘플 음성 클로닝