Il n'en reste pas moins vrai que l'utilisation conjointe de plusieures IA spécialisée reste (encore) souvent requise.
Un grand classique de l'IA, popularisé notamment par Siri (2011) ou Alexa (2014) pour les instructions par reconnaissance vocale.
Le traitement du langage naturel est une avancée récente dans le domaine de la reconnaissance vocale, et permet à l'IA de s'appuyer sur les règles grammaticales pour analyser des discours en direct.
L'application GoSpeech permet de générer le texte d'un fichier audio enregistré (limité à 3 fichiers de 10 minutes chacun en version gratuite).
Amazon Transcribe Medical est un outil permettant aux professionnels de la santé d'enregistrer rapidement et efficacement des conversations cliniques dans des systèmes de dossiers de santé électroniques à des fins d'analyse. Par exemple, dans le secteur bancaire, la synthèse vocale est utilisée via un service client activé par la voix. Dans le secteur de la santé, la synthèse vocale contribue à améliorer l'efficacité en fournissant un accès immédiat aux informations et en saisissant des données.
Il est possible de procéder à la reconnaissance de texte d'un fichier audio directement dans une IA.
La taille des fichiers est souvent limitée, moins de 25 Mo et le nom ne doit pas comprendre d'espace.
Si le fichier fait plus de 25 Mo, vous pouvez le reduire via audacity en l'enregistrant avec les paramètres de qualité minimaux et/ou en le découpant en morceaux (même chose mais sur les sélections).
Le site turboscribe.ai permet la transcription de 3 fichiers de 30 minutes maximum par jour.
Un exemple de fichier transcrit sur le droit des robots.
Ce fichier peut ensuite être analysé, résumé, etc.
Processus inverse, il s'agit de faire parler la machine en lui soumettant un texte. Rire et voix d'enfants sont les plus difficile à reproduire.
Les résultats sont de plus en plus convaincants.
Voici le texte qui est proposé, ensuite enregistré via un téléphone.
Dans la série des outils d'openAI, Whisper est un système de reconnaissance vocale automatique passé en opensource (ASR) formé sur 680 000 heures de données supervisées multilingues et multitâches collectées sur le Web.
Whisper est le nom du réseau de neurones utilisé. Il est proposé surgithubpour les codeurs.
Dans le même esprit,assemblyAIpropose une API très simple aux codeurs. Avec quelques lignes de code, par exemple en Python avec vos élèves, un fichier son peut lui être fournit en entrée pour disposer de sa transcription en sortie.
Voir également elevenlabs.io/
Dans l'exemple ci-dessous, les voix ont été entrainées à partir d'échantillons divers notamment en chinois. Le plus difficile, reproduire les voix des enfants ou les rires. Un comédien peu donc produire tout seul toutes les voix.
Entrainer les modèles de voix à partir des échantillons nécessite de grosses puissances de calculs (confiées aux cartes graphiques) ou via la location d'une instance de machine virtuelle en ligne. L'écriture du scénario est assistée par un moteur de développement de jeux vidéos.
Whisperva générer automatiquement les sous-titres.
Les voix, notamment, mais aussi les illustrations sont générées par l'IA et/ou des "Modificateur de voix".
Le résultat peut être "écouté" en cliquant sur l'image ci-dessous. Tales Audio propose des fictions audios immersives sur le thème du fantastique, de l'horreur et de la SF.
Perplexity propose désormais un podcast sur les derniers développements en matière de technologie, de science et de culture. Discover Daily vous tient informé des tendances et des idées qui façonnent notre avenir en s'appuyant sur la recherche de Perplexity et la voix IAd'ElevenLabs.
Le site voicemod permet de générer une musique à partir de n'importe quel texte en sélectionnant une voix, un style etc.
Voir également
Une IA qui extraie les instruments, voix et sons d'un fichier sonore.
La génération d'images à partir d'un texte est bien plus rigoureuse que celle d'un texte et les prompts doivent donc être préférentiellement être rédigés en anglais.
La technique évolue, les déceptions restent. Deux exemples.
L'on précisera donc pour un prompt image :
En plus de ChatGPT,openai.com/propose également une application plus ancienne et non moins performant, Dall-e-2.
Le sitenightcafepropose des crédits gratuits pour réaliser des images à partir de différents modèles Stable Diffusion, SDXL.
L’approche guidée par CLIP avecdream.aiest un réseau de neurones open source créé par l’équipe de recherche d’OpenAI.
Un sérieux concurrent de Midjourney, 100 images gratuites par jour au moment de la rédaction.
Les images peuvent également être retouchées, et cela même uniquement par la voix pour certaines IA.
Note. Le cours de bourse était faux à la date de génération.
Evidement Adobe ne pouvait pas rester les bras croisés et propose de nombreuses fonctions, souvent en version bêta pour l'instant, mais prometteuses.
www.adobe.com/fr/products/firefly.html
Voir également Magicstudio, 40 images gratuites/
Le slop
est un média de mauvaise qualité, comprenant des textes , des sons et des images, réalisé à
l'aide d'une technologie d'intelligence artificielle générative. Inventé dans les années 2020,
le terme a une connotation péjorative proche de celle de « spam ».
“Contrairement à un robot conversationnel”, affirme The Guardian, le slop n’est pas interactif et
il est rarement destiné à répondre aux questions des internautes ou à leurs besoins.
“Au lieu
de cela, précise le quotidien, il existe principalement pour donner l’apparence d’un contenu
créé par l’humain, générer des revenus publicitaires et orienter l’attention des moteurs de
recherche vers d’autres sites.”
Tome permet de faire une présentation assistée par ordinateur. Après avoir sélectionné un "template", une série de "slides" préremplies sont proposées. Vous pouvez y adjoindre des vidéos, du texte à l'instar de toute autre présentation assistée (genially, Google slide, Power point, Prezi ou Beautiful.ai par exemple).
500 crédits gratuits.
Les vidéos ci-dessous sont générées à partir du script suivant :
Vidnoz
Pictori
Bon ! Tel que cela a surtout le mérite d'être drôle.
Dans la réalité, comme pour un vrai film, il faut découper une histoire en plans, prévoir un storybord, donner des indications de lumières etc. Si l'IA peut aider, l'on n'en est pas encore -pour l'instant- à placer une caméra à l'endroit que l'on souhaite, avec l'angle que l'on choisit etc.
Ce premier scenario est enrichi.
Génère 4 à 5 plans d'un vieux biplan de loin qui vole tout droit vers nous jusqu'à ce qu'à voir en gros plan la femme pilote (modèle ci-joint). Au loin, on aperçoit une île avec un volcan et des palmiers. Nous sommes en zone tropicale, soleil couchant quelques rayons doux se réflètent sur l'avion et le personnage. La mer est calme, légèrement mousseuse. Plan de fin fin : zoom très lent sur la pilote.
Scène : Vol au Crépuscule Tropical
Décor : Un ciel de coucher de soleil flamboyant avec des teintes d'orange, de rose et de
violet. En
arrière-plan, une île montagneuse avec un volcan et une dense végétation de palmiers. La
mer
est calme,
avec de légères traînées de mousse sur l'eau.
Plan 1
Type de plan : Très large / Établissement
Description visuelle : Un vaste panorama sur l'océan calme et les reflets du soleil
couchant.
L'île avec
son volcan imposant et ses palmiers est visible au loin. Un minuscule point noir, le
biplan,
apparaît à
l'horizon, volant droit vers la caméra. Les rayons doux du soleil se reflètent sur
l'eau.
Mouvement de caméra : Très lent travelling avant, presque imperceptible.
Son : Bruit lointain et feutré d'un moteur d'avion à hélice. Le son doux des vagues.
Bruits
subtils
d'oiseaux tropicaux.
Plan 2
Type de plan : Plan d'ensemble / Moyen
Description visuelle : Le biplan est maintenant plus grand, son fuselage et ses ailes en
bois et
toile
sont visibles, les rayons du soleil couchant le frôlent, créant des éclats dorés sur sa
surface.
On
devine la silhouette de la pilote à l'intérieur du cockpit.
Mouvement de caméra : Lent travelling avant, suivant la progression de l'avion.
Son : Le son du moteur de l'avion devient plus distinct, un vrombissement régulier. Un
léger
souffle de
vent.
Plan 3
Type de plan : Rapproché du biplan
Description visuelle : L'avion remplit une grande partie du cadre. Les détails du
biplan,
comme
les
haubans, les rivets et l'hélice en rotation lente, sont plus nets. On aperçoit
maintenant
clairement la
femme pilote dans le cockpit, son casque et ses lunettes d'aviateur. Le soleil couchant
projette
des
reflets doux sur son visage.
Mouvement de caméra : Maintien du plan, très léger zoom avant.
Son : Le moteur est plus présent, mais pas assourdissant. On entend le sifflement du
vent
sur la
carlingue de l'avion.
Plan 4
Type de plan : Très gros plan / Portrait
Description visuelle : Le visage de la femme pilote (le modèle que vous aviez en tête).
Ses
yeux
sont
fixés au loin, une expression de concentration mêlée de sérénité. Les rayons du soleil
caressent
son
visage, soulignant ses traits et ses cheveux flottant légèrement. On peut voir la
texture de
son
casque
en cuir ou de ses lunettes.
Mouvement de caméra : Plan fixe sur son visage.
Son : Le son du moteur s'estompe légèrement pour mettre l'accent sur une musique douce
et
mélancolique,
ou le son du vent.
Plan 5 (Fin)
Type de plan : Très gros plan avec zoom très lent
Description visuelle : Le même plan serré sur le visage de la pilote, mais avec un zoom
avant
extrêmement lent, presque imperceptible, sur ses yeux ou une expression subtile. La
lumière
du
soleil
continue de baigner son visage, créant une atmosphère onirique.
Mouvement de caméra : Zoom avant ultra-lent sur le visage de la pilote.
Son : La musique s'intensifie doucement, puis s'estompe. Le son du vent devient très
léger,
avant un
silence progressif. Le plan se fige quelques secondes avant le noir.
VideoGen génère 7 plans avec un avion qui n'a rien d'un biplan et plein de faux raccorts…
Canva est assez généreux en vidéos grauites (50) et génère 1 plan de biplan…
KlingAI génère un joli plan de 10 secondes en intégrant l'avatar de IaGo et un biplan…
higgsfield.ai permet d'ajouter des effets spéciaux…
Ou comment créer une image à partir d'un simple dessin au crayon, ci-dessous avec un hamac (désolé pour la piètre qualité du dessin original, mais après tout il s'agit d'un test).
A
partir d'un simple dessin au crayon,
il est possible de générer des intérieurs complets, par exemple une cuisine, un salon, ou alors des
paysages et de les faire varier à l'infini.
Pour tous ces sites un compte est obligatoire, à part pour canva, ils ne font aucune propositon "éducation", ce sont donc les tests gratuits qui ont été utilisés.
Maintenant si le hamac n'est pas le sujet, vous pouvez également le générer dans n'importe quel contexte.
LmStudio est un logiciel que vous pouvez installer sur Mac, PC ou Linux. Il vous permet d'utiliser quantité de modèles de langages en local une fois téléchargés.
Mistral est une entreprise fançaise qui a obtenu un financement record de 105 millions sur la simple base d'unde présentation de sept pageset sur le pedigree de ses trois fondateurs : Arthur Mensch (ex-Google), Timothée Lacroix et Guillaume Lample (ex-Meta). Elle propose un modèle de langage open source qui défie GPT-4 (OpenAI) et Llama (Facebook).
Pinokio est un navigateur qui permet d'installer, exécuter et automatiser toute application ou modèle d'IA en un clic. Plus besoin d’ouvrir un terminal, de taper des commandes du type "git clone", "conda install" ou "pip install". Plus besoin d'environnements d’exécution puisque tout est automatisé, et aussi simple à utiliser qu’un navigateur web.
PINOKIO qui est capable d'installer facilement sur votre ordinateur des outils de génération d'images comme Stable Diffusion UI, de LLM, de voix...etc.
Jan est un programme qui s'intalle sous WIN/MAC/Linux et permet d'exécuter des modèles d'intelligence artificielle (IA) localement sur votre propre machine.
Avantages. Confidentialité des données, pas besoin de Cloud ni de connexion Internet, personnalisation possible. L'expérimentation est facilitée, la sécurité renforcée.
PINOKIO qui est capable d'installer facilement sur votre ordinateur des outils de génération d'images comme Stable Diffusion UI, de LLM, de voix...etc.
Easy Diffusion est une distribution à installer pour utiliser Stable Diffusion, le principal logiciel d'IA de synthèse texte-image open source. Easy Diffusion installe gratuitement tous les composants logiciels requis pour exécuter Stable Diffusion sur sa propre machine (compatible Win/Mac/Linux).
Les agents autonomes ou intelligents sont des systèmes fonctionnels qui savent effectuer des tâches non prévues à l'avance en s'adaptant à la situation.
Plus prosaïquement, ce sont des programmes alimentés par l'IA à qui l'on confie un objectif et pour cela peuvent créer des tâches pour eux-mêmes, les exécuter, en créer de nouvelles.
Le principe de fonctionnement d'un agent autonome est assez simple.
Auto-GPT vont bien au-delà. En effet, cet outil open source piloté par GPT et connecté à internet, peut effectuer des tâches en utilisant son propre processus de raisonnement
Explication du protocole de contexte de modèle (MCP). Pourquoi il révolutionne l’intégration des assistants IA avec les outils et services externes. Vous découvrirez comment le MCP simplifie les connexions entre modèles d’IA et applications, évitant les développements complexes et répétitifs. Que vous soyez débutant ou intermédiaire, cette vidéo vous donnera toutes les infos pour comprendre le protocole MCP Server.
Annonce de Microsoft en mai 2025.
Les assistants IA sont les clients MCP et les différentes sources de données sont les
serveurs MCP.
Ces serveurs peuvent être différents types de données, notamment des courriels, des
calendriers, un
stockage cloud, des référentiels de code ou des bases de données. Le MCP normalise la façon
dont le
client et le serveur communiquent, ce qui permet aux modèles d'IA d'obtenir des informations
en
temps réel de manière standard.
Microsoft a déclaré que le MCP ouvre de nombreuses possibilités, mais qu'il existe des
problèmes de
sécurité potentiels, de sorte qu'il a élaboré l'architecture de sécurité du MCP dans les
protocoles
de Windows 11 pour garantir la sécurité.
intelligence-artificielle.developpez.com
BabyAGI : BabyAGI est un système de gestion de tâches basé sur l'IA qui utilise les API OpenAI et Pinecone pour créer, hiérarchiser et exécuter des tâches.
Auto-GPT : Cette option open-source populaire a été créée par Toran Richards. Il inclut des options pour se connecter à Internet, utiliser des applications, avoir une mémoire à long terme et à court terme, et bien plus encore.
Jarvis. Microsoft a créé une sorte de nouvelle approche collaborative qui permet d’employer différents modèles d’IA pour accomplir une tâche particulière. Dans cette approche, c’est ChatGPT qui contrôle la tâche principale.
Les agents autonomes débarquent en force et leur potentiel est ÉNORME 🔥⚡️
C'est quoi ? Pourquoi c'est important ? Comment les utiliser facilement et pour quoi faire concrètement ?