Plage horaire | Atelier |
---|---|
08:00 | 🤔 Partie Théorique |
08:30 | |
09:00 | |
09:30 | |
10:00 | ☕️Pause |
10:30 | 😅 Atelier pratique |
11:00 | |
11:30 |
Des méthodes d'IA différentes au cours du temps:
if → then → else
)Source: State-of-the-Art Mobile Intelligence (research paper)
Le savoir est renseigné par des experts.
Le savoir est extrait des données.
C'est auss le mariage de l'expérimentation et des statistiques:
c'est de la cuisine avec des algorithmes
Source: xkcd
Modèle | fait la prédiction régression linéaire, réseau de neurones, ... |
Optimiseur | modifie le modèle pour réduire son erreur descente de gradient, algorithmes génétiques |
Source: From Linear Regression to Deep Learning in 5 Minutes
Apprentissage = optimisation de fonctions différentiables
Une fonction différentiable permet de calculer le gradient de l'erreur.
A chaque itération, le gradient dit comment modifier les paramètres pour réduire l'erreur.
Source: Linear Regression by using Gradient Descent Algorithm: Your first step towards Machine Learning (medium)
La composition de modèles simples (neurones)
crée un modèle complexe.
Source: News Feature: What are the limits of deep learning? (PNAAS)
👍 Plus besoin de créer des variables
👎 Nécessite beaucoup de données 💾 et de calculs 🥵
Source: Blue Hexagon
La mesure de la performance est différente en fonction de l'utilisation de la prédiction.
☝️🧐 Se méfier des annonces impressionnantes. Toujours se poser 3 questions:
Une IA arrive détecte l'orientation sexuelle
à partir de la forme du visage !
Vraiment ? 🤔
Source: Do algorithms reveal sexual orientation or just expose our stereotypes?
L'IA utilise: barbe 🧔, lunettes 👓, maquillage 💄
L'IA reproduit les stéréotypes qu'elle trouve dans les données 🤦
Source: Do algorithms reveal sexual orientation or just expose our stereotypes?
Train-test split:
Séparer les données d'apprentissage
& les données d'évaluation
⚠️ la performance mesurée sur le train est toujours surestimée !
Source: Elite data science
Modèle qui "colle" aux données d'entraînement
sans retenir le savoir sous-jacent (bachottage)
Cela fait croire qu'un modèle est performant (en laboratoire),
alors qu'il est médiocre (en conditions réelles).
Source: Quora
Créons une IA qui fait un diagnostic automatisé ?! 💪😏
Source: Lyme disease in France: a primary care-based prospective study
N = 100 000 personnes, prévalence = 9 / 100 000
Malades | 9 | |
Faux négatifs | 1% * malades | 0 |
Vrais positifs | 99% * malades | 9 |
Pas malades | 99 991 | |
Faux positifs | 1% * pas malades | 999 |
Vrais négatifs | 99% * pas malades | 98 992 |
Précision | vrais prédictions / N | 99 % |
Chances d'être malade si testé positif |
vrais positifs / faux + vrais positifs |
N = 100 000 personnes, prévalence = 9 / 100 000
Malades | 9 | |
Faux négatifs | 9 | |
Vrais positifs | 0 | |
Pas malades | 99 991 | |
Faux positifs | 0 | |
Vrais négatifs | 99 991 | |
Précision | vrais prédictions / N | 99.991 % 🤔 |
Chances d'être malade si testé positif |
vrais positifs / faux + vrais positifs |
❌ |
Test PCR du frottis nasopharyngé
Faux positifs | 1 % |
Faux négatifs | entre 15 et 45 % 😱 |
Prévalence | entre 1 et 5 % en Ile-de-France |
N = 100 000 personnes, prévalence = 3 %
Malades | 3 000 | |
Faux négatifs | 30% * malades | 900 |
Vrais positifs | 70% * malades | 2 100 |
Pas malades | 97 000 | |
Faux positifs | 1% * pas malades | 970 |
Vrais négatifs | 99% * pas malades | 96 030 |
Précision | vrais prédictions / N | 98.13 % |
Chances d'être malade si testé positif |
vrais positifs / faux + vrais positifs |
68.4 % 🤔 |
Mauvaise performance ☹️
Composition des neurones en rajoutant une couche:
Prédictions plus évoluées,
mais mauvaise performance ☹️
Rajouter des neurones:
Bonne performance 😊
Un réseau simple ne fonctionne pas:
Mauvaise performance ☹️
Création manuelle de variables adaptées ✋,
en exploitant un savoir métier:
Prédictions suffisament précises 😊
L'ancienne méthode, efficace
mais coûteuse en temps de conception
Composition de nombreuses couches:
Prédictions suffisament précises 😊
sans faire de feature engineering manuel 😏
👉 Résolution de problèmes
à l'aide des données brutes,
sans savoir métier.
📊 Information + ✋ Décision = 💰 Valeur
Données | Produit | Décision | Valeur |
---|---|---|---|
Senseurs météo | Prévision Météo | Un citadin prend un parapluie avant de sortir | ~ 0€ |
Senseurs météo | Prévision Météo | Un producteur de vin protège ses vignes avant la grèle | 100€/an 💰 |
Images satellites | Estimation des réserves de pétrole | Un trader achète ou vend du pétrole sur le marché | 10M€/an 💰💰💰 |
Expérimentation: il faut payer pour voir 🃏
Source: CRISP-DM (Wikipedia)
Se renseigner sur l'état de l'art:
Demander son avis à un expert:
Source: xkcd
L'IA, c'est des vieux algorithmes
appliqués à des données récentes.
C'est la collecte de donnée qui permet les percées en IA.
Source: Datasets Over Algorithms (kdnuggets)
Les meilleures solutions émergent
de la confrontation des idées.
Dans tous les cas, exiger d'avoir le code & les données.
Un mix entre business, statistiques et informatique
Beaucoup de data scientists ne pensent qu'aux algorithmes
et pas au problème qu'ils cherchent à résoudre.
Un bon data scientist doit être full-stack developer,
ou être intégré à une équipe plus large.
Faire du machine learning en laboratoire c'est facile,
mais savoir livrer une solution fonctionnelle est difficile.
Source Machine Learning: The High-Interest Credit Card of Technical Debt
Secteur | Choisir un secteur, choisir une entreprise emblématique |
Brainstorming | En explorant les 3 values disciplines: brainstormer sur les idées de transformation IA qu'on peut proposer |
Valeur | Evaluer la valeur en analysant les décisions améliorée par cette IA |
Faisabilité | Evaluer la faisabilité en trouvant des exemples analogues |
Données | Imaginer quand et comment on pourrait obtenir des données |
Pitch | Pitcher |