DeepZen : la solution pour une fabrication de livres audio plus rapide et moins chère ?

Vous n’êtes pas sans savoir que le livre audio est en pleine croissance et est voué à un très bel avenir. D’ailleurs les éditeurs proposent de plus en plus à leur lectorat ce format de lecture. Néanmoins, un obstacle se pose sur le chemin de ces derniers : le coût. En effet, la fabrication des livres audio est relativement onéreuse. C’est dans cette perspective que DeepZen a développé une intelligence artificielle assez poussée qui se propose de lire des livres pour un coût mineur.

« AI voice solutions – donner vie au texte »

Voici les premiers mots que l’on peut trouver sur le site internet de DeepZen qui propose de transformer numériquement votre texte en un contenu audio riche en émotions, avec de l’intonation et du rythme, comme pourrait le proposer une voix naturelle.

L’originalité de DeepZen, c’est que leurs services s’effectuent en une fraction du temps qu’il faut pour créer une narration traditionnelle, et ce, sans avoir besoin de studios d’enregistrement. Sur ce site internet, DeepZen affirme que « vous ne sauriez jamais que c’est numérique » et suggère des extraits afin de vous le prouver. Le résultat est plus que convaincant !

Comment procèdent-ils ?

DeepZen s’appuie sur des voix humaines de comédiens ou de narrateurs. Les voix clonées de narrateurs professionnels et d’artistes VO offrent une diction réaliste et tout le spectre des émotions humaines. Effectivement, la voix humaine est illustrée par une diversité d’émotions et les voix d’IA de cette société peuvent donc faire de même.

En effet, la société a développé cinq voix auxquelles elle appose un prénom (Alice, William, Todd, etc.) et capables de refléter la gamme émotionnelle que nous évoquons. Chaque voix est déclinée en plusieurs modes de lecture : fiction, non-fiction, voix off, etc.

Concrètement, la société capture tous les éléments de la voix humaine, tels que le rythme et l’intonation, ainsi qu’un large éventail d’émotions qui produisent des schémas de parole réalistes. Ensuite, les voix sont retravaillées pour s’adapter à différents besoins de lecture. En d’autres mots, les répliques vocales des narrateurs et acteurs qualifiés sont traitées par la plate-forme qui y ajoute du rythme, du stress et de l’intonation.

Finalement, les éditeurs audio expérimentés contrôlent l’ensemble du spectre émotionnel de la sortie vocale, créant un produit final qui est pratiquement impossible à distinguer de la narration traditionnelle.

Qui sont les clients de DeepZen ?

Si nous nous attardons sur les éditeurs et les auteurs, ces derniers ne sont pas l’unique public cible de la société. Effectivement, cette dernière produit des solutions vocales numériques pour les livres audio, mais aussi la publicité, le marketing, les voix de marque et d’autres types de contenu vocal, y compris le podcasting, les jeux et les assistants virtuels.

« Notre technologie révolutionnaire transforme la production de contenu audio pour les éditeurs, les agences, les sociétés de production et les créateurs de contenu. C’est aussi mettre la puissance de l’audio à la disposition des nouveaux publics. »

Ainsi, DeepZen liste à qui s’adressent leurs services :

  • « Éditeurs : mettez vos livres audio sur le marché beaucoup plus rapidement.
  • Auteurs : donnez vie à votre travail avec notre bibliothèque en constante expansion de voix de narrateurs.
  • Agences : créez du contenu audio sur mesure pour vos clients sans avoir besoin d’une production en studio sur mesure.
  • Marketeurs : donnez vie à votre marque avec un contenu audio facile à produire.
  • Société de production : produisez une sortie audio réaliste à partir du texte à l’aide de la technologie NLP révolutionnaire.
  • Créateurs de contenu : prenez une longueur d’avance sur la concurrence avec un son numérique réaliste rapide et économique.
  • Artistes voix : faites travailler votre voix plus fort pour vous.
  • Développeurs de jeux : clonez des voix d’acteurs et créez des dialogues supplémentaires en quelques minutes.
  • Éducateurs : donnez vie à votre contenu éducatif grâce à des expériences d’apprentissage multisensorielles. »

Pour en revenir aux éditeurs et auteurs de façon plus approfondie, DeepZen vise à s’implanter dans le monde de l’édition bien qu’il ne propose pour le moment que des voix en anglais. En effet, la compagnie vient de signer un partenariat avec Ingram, puissant dans le monde du livre et disposant d’une filiale dédiée à l’autoédition, Lightning Source.

Les éditeurs et les auteurs voulant tester la mise en voix de leurs livres, doivent suivre un processus assez simple :

  • créer un compte ;
  • signaler le nombre de mots du livre ;
  • sélectionner une voix dans la bibliothèque ;
  • contrôler si la restitution de la lecture est conforme aux attentes.

« La solution la plus innovante »

Lors d’Oracle Open World Europe en février 2020, une convention annuelle réunissant des innovateurs mondiaux, des partenaires et des start-up, DeepZen a remporté le prix de la « Solution la plus innovante ».

« L’accent mis par DeepZen sur les solutions audio/vocales s’est avéré opportun à une époque où les podcasts et les livres audio prolifèrent. Le directeur technique de DeepZen, Kerem Sozugecer, a décrit un problème croissant où l’enregistrement de livres audio n’était plus évolutif à l’aide d’une voix humaine. La société a tarifé son offre de manière similaire à ce qu’un narrateur dirigé par l’homme facturerait et DeepZen a pu créer un livre audio de 10 heures en quelques heures – une tâche qui peut prendre plusieurs semaines aux humains. Ce produit pourrait modifier considérablement l’évolutivité du contenu audio de longue durée à un moment où les marchés des livres audio et des podcasts se développent plus rapidement que l’ensemble du marché des médias et du divertissement. »

Rapport coût-efficacité

Reste à aborder la question du prix. Certes, est mise en avant une mise sur le marché plus rapide, avec des processus de production moins complexes et sans dépendance à l’emplacement physique. Et si DeepZen annonce des coûts réduits sans limitation de capacité de production sur leur site, aucun prix véritable n’est pourtant donné. Une zone d’ombre reste donc au tableau.

Néanmoins, leur technologie transforme la façon dont des secteurs tels que l’édition, le marketing, l’éducation, la santé, les services, l’accessibilité et les jeux transforment le texte en parole.

Ailleurs sur Lettres Numériques :

Retrouvez Lettres Numériques sur TwitterFacebook et LinkedIn.

— Aline Jamme

Share Button