Image interactive

🌍 Aspirer le Web : Les dataset

La collecte des données, sources : Web public (Wikipédia, forums, blogs, docs), livres du domaine public + sous licences, la Presse (articles sous contrat), le code (GitHub, dépôts open-source), les données synthétiques générées par d’autres IA, les bases éducatives (manuels, exercices), les données humaines (questions/réponses écrites)

Il existe ainsi des sites qui proposent de télécharger par exemple :

Tout le Web. Common Crawl est une organisation à but non lucratif qui ajoute de 3 à 5 milliards de nouvelles pages chaque mois.
29 843 images couleur de chats, résolution 64x64 pixels, licence MIT
ou 16 700 visages avec annotations
Common Voice est une plateforme libre et open source pour la création de données vocales
Open Images Dataset (Google), des millions d’images annotées pour classification/détection