Bouton sommaire

IA en classe | Text to…

C'est l'essence même de l'IA. Partir d'une requête textuelle (un prompt) et générer quelque chose…

Un grand classique de l'IA, popularisé notamment par Siri (2011) ou Alexa (2014) pour les instructions par reconnaissance vocale.

Le traitement du langage naturel est une avancée récente dans le domaine de la reconnaissance vocale, et permet à l'IA de s'appuyer sur les règles grammaticales pour analyser des discours en direct.

Exemple : GoSpeech

L'application GoSpeech permet de générer le texte d'un fichier audio enregistré (limité à 3 fichiers de 10 minutes chacun en version gratuite).

goSpeech

source : Paul Éluard (1895-1952). L'Amour la poésie

app.gospeech.comapp.gospeech.com

Amazon Transcribe Medical est un outil permettant aux professionnels de la santé d'enregistrer rapidement et efficacement des conversations cliniques dans des systèmes de dossiers de santé électroniques à des fins d'analyse. Par exemple, dans le secteur bancaire, la synthèse vocale est utilisée via un service client activé par la voix. Dans le secteur de la santé, la synthèse vocale contribue à améliorer l'efficacité en fournissant un accès immédiat aux informations et en saisissant des données.

aws.amazon.com/fr/aws-amazon-com

Processus inverse, il s'agit de faire parler la machine en lui soumettant un texte. Rire et voix d'enfants sont les plus difficile à reproduire.

Les résultats sont de plus en plus convaiquents.

Voici le texte qui est proposé, ensuite enregistré via un téléphone.

Que la force...

Naturalreaders

naturalreaders

La meilleure interface testée. Efficace.

Google

murfAI

300 $ de crédits gratuits, le plus connu.

Murf

murfAI

Interface sobre, quota gratuit de 10 minutes.

Elevenlabs

murfAI

333 caractères gratuits.

Dans la série des outils d'openai, Whisper est un système de reconnaissance vocale automatique passé en opensource (ASR) formé sur 680 000 heures de données supervisées multilingues et multitâches collectées sur le Web.

Whisper est le nom du réseau de neurones utilisé. Il est proposé sur github pour les codeurs.

Whisper

Dans le même esprit, assemblyAI propose une API très simple aux codeurs. Avec quelques lignes de code, par exemple en Python avec vos élèves, un fichier son peut lui être fournit en entrée pour disposer de sa transcription en sortie.

Voir également elevenlabs.io/

Ecouter un exemple

Tales audio

Dans l'exemple ci-dessous, les voix ont été entrainées à partir d'échantillons divers notamment en chinois. Le plus difficile, reproduire les voix des enfants ou les rires. Un comédien peu donc produire tout seul toutes les voix.

Entrainer les modèles de voix à partir des échantillons nécessite de grosse puissances de calculs (confiées aux cartes graphiques) ou via la location d'une instance de machine virtuelle en ligne. L'écriture du scénario est assistée par un moteur de développement de jeux vidéos

Whisper va générer automatiquement les sous-titres.

Les voix, notamment, mais aussi les illustations sont générés par l'IA et/ou des "Modificateur de voix".

Le résultat peut être "écouté" en cliquant sur l'image ci-dessous. Tales Audio propose des fictions audio Immersives sur le thème du fantastique, de l'horreur et de la SF.

talesaudio

Podcast automatique

Perplexity propose désormais un podcast sur les derniers développements en matière de technologie, de science et de culture. Discover Daily vous tient informé des tendances et des idées qui façonnent notre avenir en s'appuyant sur la recherche de Perplexity et la voix IA d'ElevenLabs.

lienwww.perplexity.ai/podcast

Le site voicemod permet de générer une musique à partir de n'importe quel texte en sélectionnant une voix, un style etc.

tuna.voicemod.net/text-to-song/tuna.voicemod.net/text-to-song/

Voir également

Soundraw
Mubert
Aiva

Une IA qui extraie les instruments, voix et sons d'un fichier sonore.

www.lalal.ai/https://www.lalal.ai/

Outre Midjourney, une application payante (après 25 images gratuites à la date de rédaction, 9€) devenue célèbre pour ses faux notamment d'un ex président américain, il existe de nombreux sites qui permettent de transformer une commande textuelle, le fameux prompt, en image.

Text to Image avec dall-e-2
Dall-e-2

Outre le très connu ChatGPT, openai.com/ propose également une application plus ancienne et non moins performant, Dall-e-2.

Text to Image avec nightcafe
nightcafe

Le site nightcafe propose des crédits gratuits pour réaliser des images à partir de différents modèles Stable Diffusion, SDXL.

Text to Image avec stablecog
stablecog

Le site stablecog permet de générer de générer des images à partir de nombreux filtres.

Text to Image avec Canva
Canva

Le site canva propose d'intégrer une appli qui génère des images.

Text to Image avec craiyon
Craiyon

Craiyon, anciennement DALLE mini, plutôt à destination des plus jeunes.

Text to Image avec dream.ai
dream.ai

L’approche guidée par CLIP avec dream.ai est un réseau de neurones open source créé par l’équipe de recherche d’OpenAI.

Text to Image avec dream.ai
clipdrop

Un sérieux concurrent de Midjourney, 100 images gratuites par jour au moment de la rédaction.

Text to Image avec dream.ai
deepai

Style d'images, cyberpunk, abstraites, anciennes…

Text to Image avec lensgo
Lensgo

Vidéos animées, transfert de style

Text to Image avec lensgo
Civitai

Open source, prompting négatif, galerie d'images…

Tracer des graphiques

La bibliothèque très connue higcharts.com propose de réaliser, avec le code, des graphiques à partir de données aussi simples que "line 12 47 23 35", ou alors bien plus complexes.

 highcharts

www.jasper.ai/www.highcharts.com/chat/gpt/

prompt

Camembert des 5 piments les plus forts et les plus vendus

 highcharts

Evidement Adobe ne pouvait pas rester les bras croisés et propose de nombreuses fonctions, souvent en version bêta pour l'instant, mais prometteuses.

Adobe Firefly
Adobe Firefly

firefly.adobe.comfirefly.adobe.com/

Essayez également Magicstudio, 40 images gratuites/

Adobe Firefly

firefly.adobe.commagicstudio.com/fr/

lienSite officiel stablediffusion

Stable diffusion sur son disque dur

Easy Diffusion est une distribution à installer pour utiliser Stable Diffusion, le principal logiciel d'IA de synthèse texte-image open source. Easy Diffusion installe gratuitement tous les composants logiciels requis pour exécuter Stable Diffusion sur sa propre machine (compatible Win/Mac/Linux).

lieneasydiffusion.github.io/
Certains sites proposent d'ajouter et de mixer des images ou des photos.
hugginface
huggingface

Le site permet de mixer jusqu'à 5 images ou photos.

lensa
Lensa

Une application qui fusionne des selfies.

Que peut-on faire avec les générateurs d'images ?

Outre les images d'illustration, les IA peuvent aussi générer :

  • Jeux d'icônes, de pictos
  • Logos
  • Avatars
  • Visuels de sites

Dans le chapitre consacré aux faux (personnes, paysages, maison etc.) nous avons vu qu'il est très facile de reproduire des images de personnes qui n'existent pas.

On peut aussi dorénavant leur faire dire ce qu'elles ne disent pas.

Face2Face. Real-time Face Capture and Reenactment of RGB Vidéeos

Cette vidéo montre les possibilités (en 2016) de la reconstitution faciale en temps réel.

source : Matthias Niessner

Cette technologie (datée, 2016), mise en oeuvre dans la réalisation de deepfakes, peut avoir recours à n'importe quelle voix, la vôtre ou un autre, pour peu de disposer d'un échantillon.

Nous avions évoqué dans le module techno / mytho le travail de la société candyvoice et l'imitation de plusieurs voix, dont celle par exemple d'E. Macron à partir de 10 mn d'échantillon récupérés.

Dans le domaine de l’apprentissage automatique, les programmes de DeepMind font parler. A quoi est dû ce succès : est-il médiatique, technique ou théorique ?

source : La Science, CQFD par Natacha Triou
Plus d'infosLien vers le podcast

Citons également descript.com/ qui reproduit n'importe quelle voix à partir d'un échantillon ou les applications de montage automatique, par exemple filmora, GoPro Quik ou Mimo.

Mais là, il s'agit de réaliser des vidéos sans tourner une seule minute de film.

Par exemple sur le site https://app.heygen.com/ vous propose de faire cela de manière très simple.

  • Création d'un compte d'essai gratuit
  • Création d'un avatar parlant à partir de votre propre photo ou image ou une autre
  • Génération d'un avatar IA aléatoire et unique
  • Création d'un modèle de vidéo deepfake à partir de votre propre vidéo
  • Création d'un modèle de vidéo deepfake à partir de votre photo à l'aide de la fonction d'échange de visage

app.heygen.comapp.heygen.com/

Sora

Sora peut générer des vidéos d'une durée maximale d'une minute tout en conservant la qualité visuelle et le respect de l'invite de l'utilisateur.

https://openai.com/soraopenai.com/sora

Tome

Tome permet de faire une présentation assistée par ordinateur. Après avoir sélectionné un "template", une série de "slides" préremplies sont proposées. Vous pouvez y adjoindre des vidéos, du texte à l'instar de toute autre présentation assistée (genially, Google slide, Power point, Prezi ou Beautiful.ai par exemple).

500 crédits gratuits.

https://tome.app/tome.app/

Prompt testé : "femme, intérieur années 30, style art déco, tableaux de miro au mur".
Text to Art avec dreamlike-art
Dreamlike
Text to Art avec Picsart
Picsart
Text to Art avec
stablediffusion
Text to Art avec Starryai
Starryai
Starryai est un générateur d'art (5 oeuvres gratuites par jour).

www.unite.ai/www.unite.ai/

source : Copie d'écran de www.youtube.com/

Ou comment créer une image à partir d'un simple dessin au crayon, ci-dessous avec un hamac (désolé pour la piètre qualité du dessin original, mais après tout il s'agit d'un test).

A partir d'un simple dessin au crayon, il est possible de générer des intérieurs complets, par exemple une cuisine, un salon, ou alors des paysages et de les faire varier à l'infini.

Pour tous ces sites un compte est obigatoire, à part pour canva, aucune propositon éducation, ce sont donc les tests gratuits qui ont été utlisés.

Maintenant si le hamac n'est pas le sujet, vous pouvez également le générer dans n'importe quel contexte.

◄ Précédent Suivant ►