Aghilas Sini*, Lily Wadoux*, Antoine Perquin*, Gaëlle Vidal*, David Guennec*, Damien Lolive*, Pierre Alain*, Nelly Barbot*, Jonathan Chevelu* et Arnaud Delhay*
*Université de Rennes, CNRS, IRISA, France
Résumé
Dans cet article,nous nous intéressons à la capacité des systèmes de synthèse vocale neuronale à tirer parti des données non dédiées en langue française. En effet, ces dernières sont abondantes mais leurs conditions d’enregistrement sont hétérogènes, alors que les données dédiées à la synthèse de parole (de meilleure qualité) sont en quantité limitée et difficiles à collecter. Leur impact est mesuré sur trois systèmes : synthèse de parole monolocuteur, clonage de voix et conversion de voix. Des évaluations objectives et subjectives sur la reproduction de la voix du locuteur et sur la qualité des échantillons synthétisés ont été menées. Elles montrent qu’il est difficile de produire une synthèse vocale de qualité comparable avec l’état de l’art dans certaines conditions d’enregistrement ou pour des voix atypiques.
Résumé (en anglais)
In this article, we consider how neural speech synthesis systems perform with non-dedicated data in French. Indeed, these are plentiful, unlike dedicated data of better quality which are limited in their availability and difficult to collect, but are recorded in heterogeneous conditions. Their impact is measured on three systems: single-speaker speech synthesis, voice cloning and voice conversion. Speaker similarity and overall quality were measured through objective and subjective evaluations. Our results outline the difficulty of producing high-quality speech synthesis under some recording conditions, or for atypical voices.
Document
Rank
2