Whisper, de la reconnaissance vocale dans 99 langues ?

DeChoses à Savoir TECH

Commencer à écouter Voir l'émission du podcast

Whisper, de la reconnaissance vocale dans 99 langues ?

DeChoses à Savoir TECH

évaluations:

Longueur:

3 minutes

Sortie:

10 oct. 2022

Format:

Épisode de podcast

Description

Vous commencez à connaître Open AI, cette entreprise spécialisée dans l'intelligence artificielle a qui l'on doit notamment le programme DALL-E, qui génère des œuvres arts grâce à du texte. Et bien la dernière innovation d'Open AI n'a rien à voir avec l'art cette fois, puisqu'il s'agit d'un système de reconnaissance vocale en accès libre, destiné aux chercheurs et aux développeurs.
Open AI lance aujourd'hui un programme open-source baptisé Whisper, permettant de transformer la voix en texte pour l’anglais, mais aussi pour d’autres langues. Autre spécificité le distinguant de la concurrence, le fait de ne pas tenir compte de bruits de fond, par exemple de la musique, quand la personne ne parle pas. D'après l'entreprise, le Whisper est aussi capable de détecter automatiquement la langue parlée. Dans le détail, l’audio entrant est découpé en blocs de 30 secondes, lesquels sont ensuite convertis en spectrogrammes. L’architecture de Whisper fonctionne sur un principe simple d’encodage/décodage pour chaque bloc. Pour cela, OpenAI a entraîné son IA avec 680 000 heures de données, dont les deux tiers correspondant à des contenus en anglais avec une transcription en anglais, le reste correspondant à 98 autres langues apprises par le système.
À noter qu'il existe déjà de nombreux systèmes de reconnaissance vocale automatique. Mais à en croire OpenAI, les modèles utilisés dans Whisper seraient plus robustes pour le traitement des accents, des bruits de fond et des jargons techniques. Une étude de l’Université de Stanford datant de 2019 suggère que les systèmes d’Amazon, Apple, Google, IBM et Microsoft afficheraient un taux d’erreur quasiment deux fois plus élevé pour les utilisateurs noirs que pour les utilisateurs blancs, soit 41 erreurs en moyenne tous les cent mots, contre 21 erreurs pour les autres. Chez les femmes, le nombre d’erreurs est en moyenne de 30 contre 17. OpenAI insiste aussi sur des écarts de performances selon les différents accents et dialectes. Si Whisper vous intéresse, son code est disponible en libre accès sur Github et peut être intégré dans n'importe quel autre programme avec quelques réglages selon l'usage imaginé par la suite.
Étude de Stanford : https://fairspeech.stanford.edu/
Github : https://github.com/openai/whisper

Faits Divers sur Apple Podcast / Spotify / Deezer / Google Podcast / Castbox
Learn more about your ad choices. Visit megaphone.fm/adchoices

Sortie:

10 oct. 2022

Format:

Épisode de podcast

Titres dans cette série (100)

Tout ce qu'il faut savoir dans le domaine de la Tech et d'Internet.

Ignorer le carrousel

Plus d'épisodes de Choses à Savoir TECH

Ignorer le carrousel

Épisodes de podcast liés

Ignorer le carrousel

Découvrez ce podcast, et bien plus encore

Whisper, de la reconnaissance vocale dans 99 langues ?

Whisper, de la reconnaissance vocale dans 99 langues ?

Description

Titres dans cette série (100)

Plus d'épisodes de Choses à Savoir TECH

Épisodes de podcast liés