La Swisscom TV Box apprend à comprendre les dialectes suisses allemands

Le groupe Speech and audio processing de l’Idiap, en collaboration avec Swisscom, améliore la reconnaissance vocale suisse-allemande pour l’assistant vocal de la Swisscom TV Box grâce à une approche multi-dialectes.

En Suisse, l'allemand standard, parlé en Allemagne, est dans une relation dite diglossique avec les dialectes suisses allemands, parlés dans les cantons suisses germanophones. L’allemand est ainsi utilisé dans un contexte social et politique particulier. L'allemand standard suisse, appelé « Suisse allemand » ou Schweizer Schriftdeutsch, est un mélange d'allemand standard et de la forme écrite de l'allemand officiellement employé en Suisse. Il est utilisé dans les livres, les journaux et toutes les publications administratives. Cependant, cet allemand standard suisse n'est pas parlé. Le fait d’écrire en suisse allemand n'est apparu que récemment (notamment via les logiciels de messagerie et les chats de discussions). Par conséquent, il n'y a pas de conventions orthographiques pour les variétés suisses allemandes.

La forme officielle du suisse allemand est différente de l'allemand standard à tous les niveaux d'analyse linguistique. C’est ce qu’on appelle des helvétismes. Le vocabulaire, la prononciation, l'orthographe et même la syntaxe changent. Les différents dialectes suisse allemands ont également leurs propres caractéristiques. Heureusement, le suisse allemand est la zone dialectale la mieux étudiée d'Europe centrale. Un système de transcription phonétique, appelé Dieth, est utilisé dans la plupart des récits scientifiques pour l'écriture des dialectes suisses allemands. Il utilise l'orthographe allemande standard comme point de départ, mais s'écarte là où elle est incohérente ou s’il manque des précisions concernant la description des différents dialectes suisses. En effet, la variation du dialecte fait que les mots sont prononcés, et donc écrits, différemment selon les régions. Pour établir l'identité d’un terme et de toutes ses variantes d'écriture, elles doivent être normalisées sous une forme unique.

La reconnaissance automatique de la parole (Automatic Speech Recognition) du suisse allemand est un défi considérable en raison du manque d'ensembles de données disponibles et de la variation régionale considérable décrite ci-dessus. À l’Idiap, en collaboration avec le groupe Swisscom AI, les chercheurs ont conçu une approche multi-dialectale de la génération de mots pour le suisse allemand afin d’étudier les variations existantes. Si le modèle mis en place rencontre un terme qu’il ne reconnaît pas, il ne sait pas s’il s’agît d’une variation d’un dialecte ou si c’est un mot qu’il ne connaît pas encore. Mais grâce à la base de données dont il dispose et qui contient les différents variants, le modèle apprend automatiquement à faire la distinction entre un terme tiré d’un dialecte ou un nouveau mot. De plus ce modèle arrive ensuite à le retranscrire en suisse allemand standard. Ces expériences réalisées à l’Idiap sur les données multi-dialectes suisses allemandes extraites de l'assistant vocal Swisscom TV box, indiquent une amélioration significative des performances de la reconnaissance automatique de la parole, en particulier pour les dialectes avec peu ou pas d'informations linguistiques.


Plus d’informations

•    Groupe Speech & Audio Processing