Une IA légère pour des performances accrues

Alors que l’intelligence artificielle (IA) s’invite de plus en plus dans nos technologies du quotidien – des smartphones aux dispositifs médicaux – la nécessité de concevoir des modèles à la fois puissants, rapides et économes en ressources devient un enjeu central. Dans un monde où la puissance de calcul n’est pas toujours illimitée, cette efficacité devient cruciale. C’est dans ce contexte que les chercheurs Mutian He et Philip Garner, de l’Idiap, ont mis au point une méthode innovante et agile.

Alors que l’IA est de plus en plus utilisée dans divers outils et technologies, elle soulève des questions importantes quant à la puissance de calcul nécessaire. Pour y répondre, Mutian He et Philip Garner ont mis au point une méthode qui transforme des modèles d’IA volumineux et gourmands en ressources en versions plus rapides, compactes et avec une structure précise, sans avoir à les ré entraîner depuis le début.

Les systèmes d’IA chargés de tâches telles que la reconnaissance vocale ou la compréhension du langage — comme les assistants vocaux ou les chatbots — reposent généralement sur des transformeurs. Ces modèles offrent d’excellents résultats, mais peuvent considérablement ralentir lorsqu’ils doivent traiter de grandes quantités de données, comme des conversations longues ou des enregistrements audio.

La technique mise au point par He et Garner, appelée CALD (pour Cross-Architecture Layerwise Distillation), propose une solution ingénieuse. Plutôt que de repartir de zéro, CALD prend un modèle existant et le transforme en une version plus légère et plus efficace durant l’entraînement. Cette approche permet aux développeurs de réutiliser des modèles pré-entraînés, ce qui économise du temps, de l’argent et de l’énergie.

La méthode a été testée sur diverses tâches, comme la compréhension de texte, la reconnaissance vocale et l’identification de locuteurs, en utilisant des modèles populaires comme RoBERTa et Wav2Vec2. En remplaçant les composants plus lents basés sur les transformeurs par des composants optimisés pour la vitesse, comme Mamba, tout en conservant les connaissances essentielles du modèle, ils ont obtenu des résultats impressionnants avec une perte de performance minimale.

CALD s’avère particulièrement efficace en traitement du langage naturel (TALN), où la structure et le « raisonnement » du modèle original restent pertinents même après conversion.

En résumé, cette technique facilite l’intégration de l’IA dans des domaines d'application concrets, même lorsque la puissance de calcul est limitée, rendant l’interaction homme-machine plus efficace.

De plus, les chercheurs ont mis leur code à disposition sur GitHub, invitant la communauté à s’appuyer sur leurs travaux.

Cette étude sera présentée lors de la 13ᵉ Conférence internationale sur la représentation des apprentissages (ICLR) à la fin du mois d’avril.

Source :
He, M., & Garner, P. N. (2023). Joint fine-tuning and conversion of pretrained speech and language models towards linear complexity. 13th International Conference on Learning Representations (ICLR).