COMPRISE

COMPRISE - Services vocaux rentables, multilingues et respectueux de la vie privée

Coordinateur : Emmanuel Vincent senior research scientist INRIA Nancy
Partenaire : Marc Tommasi de l’Université de Lille CRIStAL

Equipe : MAGNET du Groupe Thématique : DatInG

Dates : 12/18 - 11/21

Résumé :

Outre les aspects visuels et tactiles, l’internet de la prochaine génération reposera de plus en plus sur l’interaction vocale. Cette technologie nécessite d’énormes quantités de données vocales et linguistiques dans toutes les langues pour atteindre des performances de pointe. Aujourd’hui, la norme consiste à stocker les voix des utilisateurs finaux dans le nuage et à les étiqueter manuellement. Cette approche soulève d’importantes questions en matière de respect de la vie privée, limite le nombre de langues déployées et a conduit à une concentration du marché et des données entre les mains de grandes entreprises non européennes.

COMPRISE définit une méthodologie et des outils entièrement privés par conception qui réduiront le coût et augmenteront l’inclusivité de la technologie d’interaction vocale grâce aux progrès de la recherche sur les transformations de données axées sur la protection de la vie privée, l’apprentissage personnalisé, l’étiquetage automatique et la traduction intégrée. Cela conduit à un kit de développement logiciel holistique et facile à utiliser, interopérant avec une plateforme de ressources basée sur l’informatique en nuage. La durabilité de ce nouvel écosystème sera démontrée dans trois secteurs à fort impact commercial : les applications intelligentes pour les consommateurs, le commerce électronique et la santé en ligne.

COMPRISE permettra une collecte pratiquement illimitée de données vocales et linguistiques réelles de qualité non privée ; permettra aux entreprises du marché unique numérique de développer rapidement des services multilingues à commande vocale dans de nombreuses langues ; permettra à tous les citoyens d’accéder de manière transparente à des contenus et services disponibles dans d’autres langues par une interaction vocale dans leur propre langue ; entraînera des économies de coûts tant pour les fournisseurs de technologie que pour les utilisateurs. Il trouvera des applications dans de nombreux secteurs au-delà de ceux qui ont été démontrés, par exemple l’administration en ligne, la justice en ligne, l’apprentissage en ligne, le tourisme, la culture, les médias, etc.

Abstract

Besides visual and tactile, the Next Generation Internet will rely more and more on voice interaction. This technology requires huge amounts of speech and language data in every language to reach state-of-the-art performance. The standard today is to store the voices of end users in the cloud and label them manually. This approach raises critical privacy concerns, it limits the number of deployed languages, and it has led to market and data concentration in the hands of big non-European companies.

COMPRISE defines a fully private-by-design methodology and tools that will reduce the cost and increase the inclusiveness of voice interaction technology through research advances on privacy-driven data transformations, personalised learning, automatic labelling, and integrated translation. This leads to a holistic easy-to-use software development kit interoperating with a cloud-based resource platform. The sustainability of this new ecosystem will be demonstrated for three sectors with high commercial impact : smart consumer apps, e-commerce, and e-health.

COMPRISE will allow virtually unlimited collection of real-life non-private quality speech and language data ; enable businesses in the Digital Single Market to quickly develop multilingual voice-enabled services in many languages ; allow all citizens to transparently access contents and services available in other languages by voice interaction in their own language ; result in cost savings for both technology providers and users. It will find application in many sectors beyond those demonstrated, e.g., e-government, e-justice, e-learning, tourism, culture, media, etc.