Le programme Tacotron 2 de google est capable de générer un discours audio avec une voix artificielle si naturel qu’il ne peut être distingué d’un enregistrement humain.

Dans le film Her de Spike Jonze, la voix artificielle de Samantha est si convaincante que le personnage principal finit par tomber amoureux d’elle. Une perspective peut-être pas si folle : Google vient de soumettre à la communauté scientifique un article faisant état de ses avancées en matière de synthèse vocale. Grâce à son système Tacotron 2, il aurait réussi à générer un flux audio au résultat si naturel qu’il ne pourrait être distingué de celui produit par une voix humaine.

Rendez vous ici pour comparer les deux voies.

Vous n’avez pas trouvé ? C’est normal. D’ailleurs, lors des calculs de note d’option moyenne qui juge la qualité de la restitution sonore d’un codec audio, Tacotron 2 a obtenu un score excellent de 4,53, presque identique à celui de la version humaine qui a atteint 4,58.

Deux réseaux neuronaux à l’oeuvre

Tacotron 2 repose sur deux réseaux neuronaux. Le premier divise le texte en séquences, et transforme chacune d’elle en spectrogramme. C’est-à-dire un diagramme représentant visuellement l’intensité des fréquences audio. Le second, nommé WaveNet, génère automatiquement les fichiers audio. Sa particularité est d’avoir été développé à l’origine par DeepMind, la fameuse société d’intelligence artificielle appartenant à Alphabet. WaveNet fait déjà fonctionner les voix anglaise et japonaise de Google Assistant en s’appuyant sur une méthode d’apprentissage non supervisée : il ne repose pas sur une grosse base de données alimentée par des enregistrements de comédiens. C’est une version à l’architecture légèrement modifiée qui a ici été utilisée. WaveNet agit comme un vocodeur pour synthétiser les formes d’ondes temporelles des spectogrammes.

Lire la suite de l’article

KeyKeeper

KeyKeeper

Ingénieur en mécanique adorant la technologie. Née avec un Comodor64. Ma première ligne de commande :10 PRINT"HELLO!"RUN