Éléments pour l'IA en classe | Plus loin dans le prompt ingeniering

Plus loin dans le prompt ingeniering…

L'évolution des modèles tend de plus en plus souvent vers une forme multimodale. La même IA peut générer texte, image, et son et tout cela grâce à la voix via une interface ultra simplifiée.

Il n'en reste pas moins vrai que l'utilisation conjointe de plusieures IA spécialisée reste (encore) souvent requise.

Speach to Text

Un grand classique de l'IA, popularisé notamment par Siri (2011) ou Alexa (2014) pour les instructions par reconnaissance vocale.

Le traitement du langage naturel est une avancée récente dans le domaine de la reconnaissance vocale, et permet à l'IA de s'appuyer sur les règles grammaticales pour analyser des discours en direct.

GoSpeech

L'application GoSpeech permet de générer le texte d'un fichier audio enregistré (limité à 3 fichiers de 10 minutes chacun en version gratuite).

goSpeech

source : Paul Éluard (1895-1952). L'Amour la poésie

app.gospeech.comapp.gospeech.com

Amazon Transcribe Medical

Amazon Transcribe Medical est un outil permettant aux professionnels de la santé d'enregistrer rapidement et efficacement des conversations cliniques dans des systèmes de dossiers de santé électroniques à des fins d'analyse. Par exemple, dans le secteur bancaire, la synthèse vocale est utilisée via un service client activé par la voix. Dans le secteur de la santé, la synthèse vocale contribue à améliorer l'efficacité en fournissant un accès immédiat aux informations et en saisissant des données.

aws-amazon-com

Taille des fichiers

Il est possible de procéder à la reconnaissance de texte d'un fichier audio directement dans une IA.

La taille des fichiers est souvent limitée, moins de 25 Mo et le nom ne doit pas comprendre d'espace.

Si le fichier fait plus de 25 Mo, vous pouvez le reduire via audacity en l'enregistrant avec les paramètres de qualité minimaux et/ou en le découpant en morceaux (même chose mais sur les sélections).

Turboscribe

Le site turboscribe.ai permet la transcription de 3 fichiers de 30 minutes maximum par jour.

prompt Procède à la reconnaissance de texte de ce fichier audio.

Un exemple de fichier transcrit sur le droit des robots.

Au format PDF

Ce fichier peut ensuite être analysé, résumé, etc.

Text to Speach

elevenlabs
Murf

Processus inverse, il s'agit de faire parler la machine en lui soumettant un texte. Rire et voix d'enfants sont les plus difficile à reproduire.

Les résultats sont de plus en plus convaincants.

Voici le texte qui est proposé, ensuite enregistré via un téléphone.

Que la force...

Naturalreaders
La meilleure interface testée. Efficace.
Google
300 $ de crédits gratuits, le plus connu.
Murf
Interface sobre, quota gratuit de 10 minutes.
Elevenlabs
333 caractères gratuits.

Dans la série des outils d'openAI, Whisper est un système de reconnaissance vocale automatique passé en opensource (ASR) formé sur 680 000 heures de données supervisées multilingues et multitâches collectées sur le Web.

Whisper est le nom du réseau de neurones utilisé. Il est proposé surgithubpour les codeurs.

Dans le même esprit,assemblyAIpropose une API très simple aux codeurs. Avec quelques lignes de code, par exemple en Python avec vos élèves, un fichier son peut lui être fournit en entrée pour disposer de sa transcription en sortie.

Voir également elevenlabs.io/

Ecouter un exemple

Exemple d'utilisation

Tales audio

Dans l'exemple ci-dessous, les voix ont été entrainées à partir d'échantillons divers notamment en chinois. Le plus difficile, reproduire les voix des enfants ou les rires. Un comédien peu donc produire tout seul toutes les voix.

Entrainer les modèles de voix à partir des échantillons nécessite de grosses puissances de calculs (confiées aux cartes graphiques) ou via la location d'une instance de machine virtuelle en ligne. L'écriture du scénario est assistée par un moteur de développement de jeux vidéos.

Whisperva générer automatiquement les sous-titres.

Les voix, notamment, mais aussi les illustrations sont générées par l'IA et/ou des "Modificateur de voix".

Le résultat peut être "écouté" en cliquant sur l'image ci-dessous. Tales Audio propose des fictions audios immersives sur le thème du fantastique, de l'horreur et de la SF.

Podcast automatique

Perplexity propose désormais un podcast sur les derniers développements en matière de technologie, de science et de culture. Discover Daily vous tient informé des tendances et des idées qui façonnent notre avenir en s'appuyant sur la recherche de Perplexity et la voix IAd'ElevenLabs.

lienwww.perplexity.ai/podcast

Text to Music

Voicemod
Soundraw
Mubert
Aiva

Le site voicemod permet de générer une musique à partir de n'importe quel texte en sélectionnant une voix, un style etc.

tuna.voicemod.net/text-to-song/

Nous sommes les patates ducoup on a créé une musique sur les patates ! :) ( ps : on n'est pas des pros )

Voir également

Soundraw
Mubert
Aiva

Extraire l'audio

Une IA qui extraie les instruments, voix et sons d'un fichier sonore.

https://www.lalal.ai/

Text to Image

La génération d'images à partir d'un texte est bien plus rigoureuse que celle d'un texte et les prompts doivent donc être préférentiellement être rédigés en anglais.

La technique évolue, les déceptions restent. Deux exemples.

L'on précisera donc pour un prompt image :

  • Le type d'image : paysage, rue, macro, mode, art, portrait, illustration etc.
  • Le sujet : Ville, fleur, montagne, enfant etc.
  • Le type : Elegant, abstrait, futuriste, joyeux etc.
  • Le décor : Forêt tropicale, désert, jungle, banquise etc.
  • L'ambiance' : Eclairage doux venant de droite, nuit, plein soleil etc.
  • Technique : 4/3, 8K, ISO 100, objectif NIKON AF-S DX, etc.
Dall-e-2

En plus de ChatGPT,openai.com/propose également une application plus ancienne et non moins performant, Dall-e-2.

nightcafe

Le sitenightcafepropose des crédits gratuits pour réaliser des images à partir de différents modèles Stable Diffusion, SDXL.

Text to Image avec stablecog
stablecog

Le sitestablecogpermet de générer de générer des images à partir de nombreux filtres.

Text to Image avec Canva
Canva

Le sitecanvapropose d'intégrer une appli qui génère des images.

Text to Image avec craiyon
Craiyon

Craiyon, anciennement DALLE mini, plutôt à destination des plus jeunes.

Text to Image avec dream.ai
dream.ai

L’approche guidée par CLIP avecdream.aiest un réseau de neurones open source créé par l’équipe de recherche d’OpenAI.

Text to Image avec dream.ai
clipdrop

Un sérieux concurrent de Midjourney, 100 images gratuites par jour au moment de la rédaction.

Text to Image avec dream.ai
deepai

Style d'images, cyberpunk, abstraites, anciennes…

Text to Image avec lensgo
Lensgo

Vidéos animées, transfert de style

Text to Image avec lensgo
Civitai

Open source, prompting négatif, galerie d'images…

Les images peuvent également être retouchées, et cela même uniquement par la voix pour certaines IA.

Note. Le cours de bourse était faux à la date de génération.

Adobe

Evidement Adobe ne pouvait pas rester les bras croisés et propose de nombreuses fonctions, souvent en version bêta pour l'instant, mais prometteuses.

Adobe Firefly
Adobe Firefly

www.adobe.com/fr/products/firefly.html

Voir également Magicstudio, 40 images gratuites/

Adobe Firefly

firefly.adobe.commagicstudio.com/fr/

De plus en plus souvent il est possible d'ajouter et de mixer des images ou des photos.
hugginface
huggingface

Le site permet de mixer jusqu'à 5 images ou photos.

Lensa

Une application qui fusionne des selfies.

Spam et Slop

Le slop est un média de mauvaise qualité, comprenant des textes , des sons et des images, réalisé à l'aide d'une technologie d'intelligence artificielle générative. Inventé dans les années 2020, le terme a une connotation péjorative proche de celle de « spam ».

“Contrairement à un robot conversationnel”, affirme The Guardian, le slop n’est pas interactif et il est rarement destiné à répondre aux questions des internautes ou à leurs besoins.
“Au lieu de cela, précise le quotidien, il existe principalement pour donner l’apparence d’un contenu créé par l’humain, générer des revenus publicitaires et orienter l’attention des moteurs de recherche vers d’autres sites.”

Wikipedia

Text to vidéo

Tome

Tome permet de faire une présentation assistée par ordinateur. Après avoir sélectionné un "template", une série de "slides" préremplies sont proposées. Vous pouvez y adjoindre des vidéos, du texte à l'instar de toute autre présentation assistée (genially, Google slide, Power point, Prezi ou Beautiful.ai par exemple).

500 crédits gratuits.

tome.app/

Vidéo automatique

Les vidéos ci-dessous sont générées à partir du script suivant :

"Ile de La Réunion. Une Mercedes SLK des années 70 blanche roule à toute allure sur la route du littoral. Une femme brune conduit. Elle porte des lunettes de soleil et un grand chapeau. A côté d'elle un homme se protège du soleil et tient une ombrelle. Sur le siège arrière un chien type bulldog anglais. La route du littoral a la forme d'un chemin de terre escarpé entouré de pins sur une pente montagneuse abrupte qui donne sur la mer. La poussière s'élève des pneus, la lumière du soleil éclaire la voiture d'une lumière douce de fin de journée. Le chemin de terre s'incurve doucement vers le lointain, sans qu'aucune autre voiture ou véhicule ne soit en vue. Les arbres de chaque côté de la route sont des séquoias, des cocotiers, avec des taches de verdure éparpillées et de petites rivières qui vont jusqu'à la mer. Au loin, un volcan en éruption. La voiture est vue de l'arrière et suit la courbe avec facilité, ce qui donne l'impression qu'elle roule sur un terrain accidenté. Le chemin de terre lui-même est entouré de collines et de montagnes escarpées, avec un ciel bleu clair au-dessus duquel s'agitent des nuages. Un vieil avion biplan semble rouler à la même allure et suivre la voiture. Dans le biplan un lama observe la situation avec des jumelles."

Vidnoz

Pictori

Bon ! Tel que cela a surtout le mérite d'être drôle.

Dans la réalité, comme pour un vrai film, il faut découper une histoire en plans, prévoir un storybord, donner des indications de lumières etc. Si l'IA peut aider, l'on n'en est pas encore -pour l'instant- à placer une caméra à l'endroit que l'on souhaite, avec l'angle que l'on choisit etc.

Ce premier scenario est enrichi.

Autres exemples

Résumé de départ

Génère 4 à 5 plans d'un vieux biplan de loin qui vole tout droit vers nous jusqu'à ce qu'à voir en gros plan la femme pilote (modèle ci-joint). Au loin, on aperçoit une île avec un volcan et des palmiers. Nous sommes en zone tropicale, soleil couchant quelques rayons doux se réflètent sur l'avion et le personnage. La mer est calme, légèrement mousseuse. Plan de fin fin : zoom très lent sur la pilote.

Transformation en 5 plans

Scène : Vol au Crépuscule Tropical
Décor : Un ciel de coucher de soleil flamboyant avec des teintes d'orange, de rose et de violet. En arrière-plan, une île montagneuse avec un volcan et une dense végétation de palmiers. La mer est calme, avec de légères traînées de mousse sur l'eau.

Plan 1 Type de plan : Très large / Établissement
Description visuelle : Un vaste panorama sur l'océan calme et les reflets du soleil couchant. L'île avec son volcan imposant et ses palmiers est visible au loin. Un minuscule point noir, le biplan, apparaît à l'horizon, volant droit vers la caméra. Les rayons doux du soleil se reflètent sur l'eau. Mouvement de caméra : Très lent travelling avant, presque imperceptible.
Son : Bruit lointain et feutré d'un moteur d'avion à hélice. Le son doux des vagues. Bruits subtils d'oiseaux tropicaux.

Plan 2 Type de plan : Plan d'ensemble / Moyen Description visuelle : Le biplan est maintenant plus grand, son fuselage et ses ailes en bois et toile sont visibles, les rayons du soleil couchant le frôlent, créant des éclats dorés sur sa surface. On devine la silhouette de la pilote à l'intérieur du cockpit.
Mouvement de caméra : Lent travelling avant, suivant la progression de l'avion.
Son : Le son du moteur de l'avion devient plus distinct, un vrombissement régulier. Un léger souffle de vent.

Plan 3 Type de plan : Rapproché du biplan
Description visuelle : L'avion remplit une grande partie du cadre. Les détails du biplan, comme les haubans, les rivets et l'hélice en rotation lente, sont plus nets. On aperçoit maintenant clairement la femme pilote dans le cockpit, son casque et ses lunettes d'aviateur. Le soleil couchant projette des reflets doux sur son visage.
Mouvement de caméra : Maintien du plan, très léger zoom avant.
Son : Le moteur est plus présent, mais pas assourdissant. On entend le sifflement du vent sur la carlingue de l'avion.

Plan 4 Type de plan : Très gros plan / Portrait
Description visuelle : Le visage de la femme pilote (le modèle que vous aviez en tête). Ses yeux sont fixés au loin, une expression de concentration mêlée de sérénité. Les rayons du soleil caressent son visage, soulignant ses traits et ses cheveux flottant légèrement. On peut voir la texture de son casque en cuir ou de ses lunettes.
Mouvement de caméra : Plan fixe sur son visage.
Son : Le son du moteur s'estompe légèrement pour mettre l'accent sur une musique douce et mélancolique, ou le son du vent.

Plan 5 (Fin) Type de plan : Très gros plan avec zoom très lent
Description visuelle : Le même plan serré sur le visage de la pilote, mais avec un zoom avant extrêmement lent, presque imperceptible, sur ses yeux ou une expression subtile. La lumière du soleil continue de baigner son visage, créant une atmosphère onirique.
Mouvement de caméra : Zoom avant ultra-lent sur le visage de la pilote.
Son : La musique s'intensifie doucement, puis s'estompe. Le son du vent devient très léger, avant un silence progressif. Le plan se fige quelques secondes avant le noir.

VideoGen

VideoGen génère 7 plans avec un avion qui n'a rien d'un biplan et plein de faux raccorts…

Canva

Canva est assez généreux en vidéos grauites (50) et génère 1 plan de biplan…

KlingAI

KlingAI génère un joli plan de 10 secondes en intégrant l'avatar de IaGo et un biplan…

Effets spéciaux

higgsfield.ai permet d'ajouter des effets spéciaux…

Sketch to image

source : Copie d'écran dewww.youtube.com/

Ou comment créer une image à partir d'un simple dessin au crayon, ci-dessous avec un hamac (désolé pour la piètre qualité du dessin original, mais après tout il s'agit d'un test).

A partir d'un simple dessin au crayon, il est possible de générer des intérieurs complets, par exemple une cuisine, un salon, ou alors des paysages et de les faire varier à l'infini.

Pour tous ces sites un compte est obligatoire, à part pour canva, ils ne font aucune propositon "éducation", ce sont donc les tests gratuits qui ont été utilisés.

Maintenant si le hamac n'est pas le sujet, vous pouvez également le générer dans n'importe quel contexte.

Générateurs d'Art

Prompt testé : "femme, intérieur années 30, style art déco, tableaux de miro au mur".
Text to Art avec dreamlike-art
Dreamlike
Text to Art avec Picsart
Picsart
Text to Art avec
stablediffusion
Starryai
Starryaiest un générateur d'art (5 œuvres gratuites par jour).

Utiliser une IA en local

Mistral avec LmStudio

LmStudio est un logiciel que vous pouvez installer sur Mac, PC ou Linux. Il vous permet d'utiliser quantité de modèles de langages en local une fois téléchargés.

Mistral est une entreprise fançaise qui a obtenu un financement record de 105 millions sur la simple base d'unde présentation de sept pageset sur le pedigree de ses trois fondateurs : Arthur Mensch (ex-Google), Timothée Lacroix et Guillaume Lample (ex-Meta). Elle propose un modèle de langage open source qui défie GPT-4 (OpenAI) et Llama (Facebook).

Pinokio

Pinokio est un navigateur qui permet d'installer, exécuter et automatiser toute application ou modèle d'IA en un clic. Plus besoin d’ouvrir un terminal, de taper des commandes du type "git clone", "conda install" ou "pip install". Plus besoin d'environnements d’exécution puisque tout est automatisé, et aussi simple à utiliser qu’un navigateur web.

Comment installer des outils d'IA générative sans prise de tête avec PINOKIO ?

PINOKIO qui est capable d'installer facilement sur votre ordinateur des outils de génération d'images comme Stable Diffusion UI, de LLM, de voix...etc.

source : Korben

Jan

Jan est un programme qui s'intalle sous WIN/MAC/Linux et permet d'exécuter des modèles d'intelligence artificielle (IA) localement sur votre propre machine.

Avantages. Confidentialité des données, pas besoin de Cloud ni de connexion Internet, personnalisation possible. L'expérimentation est facilitée, la sécurité renforcée.

Comment installer des outils d'IA générative sans prise de tête avec PINOKIO ?

PINOKIO qui est capable d'installer facilement sur votre ordinateur des outils de génération d'images comme Stable Diffusion UI, de LLM, de voix...etc.

source : Korben

Stable diffusion

lienSite officiel stablediffusion

Stable diffusion sur son disque dur

Easy Diffusion est une distribution à installer pour utiliser Stable Diffusion, le principal logiciel d'IA de synthèse texte-image open source. Easy Diffusion installe gratuitement tous les composants logiciels requis pour exécuter Stable Diffusion sur sa propre machine (compatible Win/Mac/Linux).

lieneasydiffusion.github.io/

Le guide Stable Diffusion

Les agents autonomes

Les agents autonomes ou intelligents sont des systèmes fonctionnels qui savent effectuer des tâches non prévues à l'avance en s'adaptant à la situation.

Plus prosaïquement, ce sont des programmes alimentés par l'IA à qui l'on confie un objectif et pour cela peuvent créer des tâches pour eux-mêmes, les exécuter, en créer de nouvelles.

Le principe de fonctionnement d'un agent autonome est assez simple.

  1. Initialiser : éfinir l'objectif à atteindre pour l'IA
  2. Tâches : L'IA génère une liste de tâches à accomplir en fonction de l'objectif donné
  3. Exécution : LIA exécute les tâches de manière autonome.
  4. Mémorisation : Les résultats des tâches exécutées sont stockés dans une base de données
  5. Commentaires : L'IA évalue les résultats des tâches et ajuste ses actions en conséquence
  6. Nouvelles tâches : L'IA génère de nouvelles tâches basées sur les commentaires recueillis
  7. Priorisation : L'IA priorise les tâches en fonction de leur pertinence pour atteindre l'objectif global
  8. Sélection : L'IA sélectionne la tâche la plus prioritaire et travaille dessus
  9. Itération : L'IA répète les étapes 4 à 8 en boucle, s'adaptant et évoluant à mesure que de nouvelles informations et commentaires sont reçus
source : pandia.pro

Exemple avec autoGPT

Auto-GPT vont bien au-delà. En effet, cet outil open source piloté par GPT et connecté à internet, peut effectuer des tâches en utilisant son propre processus de raisonnement

Model Context Protocol (MDP)

Comment fonctionne le protocole de contexte de modèle (MCP) ?

Explication du protocole de contexte de modèle (MCP). Pourquoi il révolutionne l’intégration des assistants IA avec les outils et services externes. Vous découvrirez comment le MCP simplifie les connexions entre modèles d’IA et applications, évitant les développements complexes et répétitifs. Que vous soyez débutant ou intermédiaire, cette vidéo vous donnera toutes les infos pour comprendre le protocole MCP Server.

source : IA Digital Web

MCP dans Windows

Annonce de Microsoft en mai 2025.

Microsoft intègre le protocole de contexte de modèle (MCP) dans Windows 11 pour en faire un OS agentique dans un monde d'agents IA et fournir une « informatique agentique sécurisée et interopérable »

Les assistants IA sont les clients MCP et les différentes sources de données sont les serveurs MCP. Ces serveurs peuvent être différents types de données, notamment des courriels, des calendriers, un stockage cloud, des référentiels de code ou des bases de données. Le MCP normalise la façon dont le client et le serveur communiquent, ce qui permet aux modèles d'IA d'obtenir des informations en temps réel de manière standard.
Microsoft a déclaré que le MCP ouvre de nombreuses possibilités, mais qu'il existe des problèmes de sécurité potentiels, de sorte qu'il a élaboré l'architecture de sécurité du MCP dans les protocoles de Windows 11 pour garantir la sécurité.

intelligence-artificielle.developpez.com

6963 skills and extensions (à date)

modelcontextprotocol.io

BabyAGI : BabyAGI est un système de gestion de tâches basé sur l'IA qui utilise les API OpenAI et Pinecone pour créer, hiérarchiser et exécuter des tâches.

Auto-GPT : Cette option open-source populaire a été créée par Toran Richards. Il inclut des options pour se connecter à Internet, utiliser des applications, avoir une mémoire à long terme et à court terme, et bien plus encore.

Jarvis. Microsoft a créé une sorte de nouvelle approche collaborative qui permet d’employer différents modèles d’IA pour accomplir une tâche particulière. Dans cette approche, c’est ChatGPT qui contrôle la tâche principale.

AutoGPT, AgentGPT, MultiGPT… Le guide COMPLET (+ démos !)

Les agents autonomes débarquent en force et leur potentiel est ÉNORME 🔥⚡️

C'est quoi ? Pourquoi c'est important ? Comment les utiliser facilement et pour quoi faire concrètement ?

source : Ludo Salenne