Moteur de doublage utilisant Bun et TypeScript

Ce projet est un moteur d’adaptation audiovisuelle (dubbing) entièrement automatisé, développé avec Bun et TypeScript , qui permet de traduire des fichiers audio et vidéo. Il inclut plusieurs fonctionnalités avancées comme le clonage de voix , la génération de sous-titres , la séparation audio , la synchronisation labiale , ainsi que la traduction contextuelle intelligente . Ce moteur est à la base du service VoiceCheap.ai .

Fonctionnalités Principales

Le moteur propose une panoplie de fonctionnalités innovantes :

Clonage et génération de voix : Reproduit les voix des personnes parlant dans la vidéo originale.
Détection automatique de la langue : Identifie la langue source sans intervention manuelle.
Adaptation vocale naturelle (SmartSync) : Ajuste la vitesse et la structure des phrases pour correspondre au timing original.
Séparation audio de fond : Isole les voix principales du bruit de fond ou de la musique.
Génération de sous-titres : Crée automatiquement des sous-titres synchronisés.
Synchronisation des lèvres : Fait bouger les lèvres des personnages en phase avec les nouvelles voix.
Support de 35 langues : Permet la traduction vers et depuis un large éventail de langues.

Méthodologie de Fonctionnement

Le processus de dubbing suit un flux bien structuré en plusieurs étapes :

1. Configuration

L’utilisateur sélectionne la langue cible et active/désactive certaines options (ex. : sous-titres, lip-sync, etc.).

2. Transcription & Analyse

Détection de la langue source.
Transcription précise de l’audio.
Résumé du contexte global.
Diarisation des locuteurs (identification des différentes voix).

3. Traduction

Segmentation du texte transcrit.
Traduction assistée par un modèle de langage (LLM), tenant compte du contexte.
Adaptation intelligente du texte pour respecter le timing original (SmartSync).

4. Traitement Audio

Séparation des voix et de l’audio de fond.
Mesure des niveaux sonores.
Création d’une chronologie précise pour chaque locuteur.

5. Génération de Voix

Clonage de chaque voix détectée.
Application de SmartSync pour adapter la prononciation et le rythme.
Ajustement de la vitesse si nécessaire.

6. Assemblage Final

Concaténation des segments traduits.
Équilibrage des volumes sonores.
Fusion des nouvelles voix avec l’audio de fond.
Ajout des sous-titres.
Synchronisation des mouvements des lèvres.

SmartSync – L’Adaptation Intelligente

SmartSync est une technologie brevetée qui ajuste dynamiquement le contenu vocal généré pour qu’il corresponde au timing et au rythme du discours original . Quand la traduction littérale serait trop longue, SmartSync reformule intelligemment les phrases pour conserver un rendu naturel et synchronisé.

Comment Commencer ?

Prérequis Techniques

Avant de lancer le projet, vous devez installer :

Node.js : Environnement d’exécution JavaScript.
Bun : Runtime JS et outil de build ultra-rapide.
FFmpeg : Outil de traitement multimédia.
Clés API pour plusieurs services externes.

Liens sources

Kevin Rousseau, 2025, Dubbing Engine with Bun and Typescript

Vocabulaire

Dubbing Engine → Moteur de doublage (ou système de doublage si l'accent est sur l'aspect logiciel).