La collecte des données, sources : Web public (Wikipédia, forums, blogs, docs), livres du domaine public + sous licences, la Presse (articles sous contrat), le code (GitHub, dépôts open-source), les données synthétiques générées par d’autres IA, les bases éducatives (manuels, exercices), les données humaines (questions/réponses écrites)
Il existe ainsi des sites qui proposent de télécharger par exemple :
On retire (spam, pubs, HTML cassé, doublons, données personnelles, contenus toxiques, textes trop courts, encodages bizarres,fichiers vides etc.)
On retire les "grumeaux" (données en double ou erreurs de frappe), on classe par type (textes, images, audio, vidéo, code, tableaux etc.
On étiquette (on dit à l'IA : "Ceci est une tomate", "Ceci est un oignon", “Cette réponse est correcte).
On s'assure de la diversité pour éviter les biais (si vous ne cuisinez que des carottes, votre IA ne connaîtra jamais le goût du sel).
Dans l’Union européenne, l’IA est encadrée par trois grands piliers :
L'encadrement des usages des systèmes d’IA Les entreprises devraient donc filtrer les données personnelles, anonymiser quand c'est possible, documenter les sources, justifier l’usage, permettre des mécanismes de retrait => mais est-ce simplement possible ?
Idem pour le droit d'auteur.
Le Text and Data Mining (TDM). L’UE autorise une exception pour
l’analyse automatisée d’œuvres pour extraire des informations sauf
opposition explicite des ayants droit.
Enfin l’AI Act (règlement européen sur l’IA) oblige les modèles génératifs (ChatGPT, etc.) d'indiquer que le contenu est généré par IA, de documenter les données d’entraînement (grandes lignes), de respecter le droit d’auteur, de prévenir les usages illégaux.
Voir le dossier de la Commission nationale de l'informatique et des libertés (CNIL).
C’est la structure qui va tout mélanger. Elle permet au modèle de comprendre le contexte (le lien entre le sel et le poivre).
Elle mesure l'écart entre le résultat obtenu et la perfection. Si c'est trop cuit, elle corrige le tir.
Il ajuste délicatement les réglages pour atteindre la cuisson parfaite sans tout brûler.
On utilise des GPU (processeurs graphiques) qui agissent comme des brûleurs ultra-puissants. A titre de comparaison un CPU d'ordinateur fait 4 lignes à la main, très bien mais lentement quand un GPU (carte vidéo) en fait 1000 en même temps. Mais pour un établissement scolaire, un serveur peut suffire.
Le modèle va goûter la préparation des millions de fois, s'ajuster, et recommencer jusqu'à ce qu'il ne se trompe plus.
Que se passe t’il si un modèle d’intelligence artificielle (IA) générative s’entraine sur une proportion de plus en plus importante d’images auto-générées ? C'est à cette question que Quentin Bertrand, chargé de recherche au centre Inria de Lyon (Institut national de recherche en sciences et technologies du numérique) et membre de l’équipe-projet Malice a tenté de répondre.
Gouffre de consommation pour les uns, pas pire que celle d'un Hamburger pour les autres, ce qui est certain c'est que l'IA consomme beaucoup, beaucoup d'energie et que les prévisions à 2035 représentent une fourchette très importante : En 2035, la consommation électrique totale des datacenters est estimée entre 670 TWh, si l’adoption de l’IA est freinée, et plus de 1 700 TWh si elle est généralisée et que la production d’énergie suit la demande. Le scénario de base équivaudrait à 1 200 TWh.
Entre l'obection de consience anti-IA des uns, et les
affirmations des autres, par exemple Sam Altman
pour qui un hamburger équivaut à 200 000+ requêtes d'IA la
question n'est-elle pas plutôt de savoir
comment mesurer l’empreinte environnementale de l’IA et
que mesurer ?.