IA & managers

  • Comment gérer un projet IA ? Quelles spécificités ?
  • Comment intégrer l'IA dans mon processus ?
Plage horaire Atelier
08:00 🤔 Partie Théorique
08:30
09:00
09:30
10:00 ☕️Pause
10:30 😅 Atelier pratique
11:00
11:30

C'est quoi l'IA

Les 3 étapes de l'IA

Des méthodes d'IA différentes au cours du temps:

  1. code classique (if → then → else)
  2. système expert utilisant des règles créées à la main
  3. algorithmes statistiques apprenant les règles (machine learning)

Source: State-of-the-Art Mobile Intelligence (research paper)

Les systèmes experts

Le savoir est renseigné par des experts.

Sources: various ITGS courses: here and here.

L'IA, c'est du Machine learning

Le savoir est extrait des données.

C'est auss le mariage de l'expérimentation et des statistiques:
c'est de la cuisine avec des algorithmes

Source: xkcd

Principes du machine learning

Modèle fait la prédiction
régression linéaire, réseau de neurones, ...
Optimiseur modifie le modèle pour réduire son erreur
descente de gradient, algorithmes génétiques

Source: From Linear Regression to Deep Learning in 5 Minutes

La programmation différentielle

Apprentissage = optimisation de fonctions différentiables

Une fonction différentiable permet de calculer le gradient de l'erreur.
A chaque itération, le gradient dit comment modifier les paramètres pour réduire l'erreur.

Source: Linear Regression by using Gradient Descent Algorithm: Your first step towards Machine Learning (medium)

La révolution du deep learning

La composition de modèles simples (neurones)
crée un modèle complexe.

Source: News Feature: What are the limits of deep learning? (PNAAS)

Le deep learning facilite la conception de modèle

👍 Plus besoin de créer des variables
👎 Nécessite beaucoup de données 💾 et de calculs 🥵

Source: Blue Hexagon

Performance de l'IA

De multiples mesures de performance

La mesure de la performance est différente en fonction de l'utilisation de la prédiction.

☝️🧐 Se méfier des annonces impressionnantes. Toujours se poser 3 questions:

  • quelles données pour faire l'apprentissage ?
  • quelles données pour mesurer la performance ?
  • quelle mesure de performance ?

Quelles données pour évaluer ?

Une IA arrive détecte l'orientation sexuelle
à partir de la forme du visage !

Vraiment ? 🤔

Source: Do algorithms reveal sexual orientation or just expose our stereotypes?

Quelles données pour évaluer ?

L'IA utilise: barbe 🧔, lunettes 👓, maquillage 💄

L'IA reproduit les stéréotypes qu'elle trouve dans les données 🤦‍
Source: Do algorithms reveal sexual orientation or just expose our stereotypes?

Quelles données pour évaluer ?

Train-test split:
Séparer les données d'apprentissage
& les données d'évaluation

⚠️ la performance mesurée sur le train est toujours surestimée !
Source: Elite data science

L'Overfitting: l'erreur de débutant

Modèle qui "colle" aux données d'entraînement
sans retenir le savoir sous-jacent (bachottage)

Cela fait croire qu'un modèle est performant (en laboratoire),
alors qu'il est médiocre (en conditions réelles).

Source: Quora

Exemples

Diagnostic de la maladie de lyme

  • Difficile à diagnostiquer
  • ⚠️ Maladie rare: 9 cas / 100 000 en France

Créons une IA qui fait un diagnostic automatisé ?! 💪😏

Source: Lyme disease in France: a primary care-based prospective study

Modèle 1: faux positifs & faux négatifs de 1 %

N = 100 000 personnes, prévalence = 9 / 100 000

Malades 9
 Faux négatifs 1% * malades 0
 Vrais positifs 99% * malades 9
Pas malades 99 991
 Faux positifs 1% * pas malades 999
 Vrais négatifs 99% * pas malades 98 992
Précision vrais prédictions / N 99 %
Chances d'être malade
si testé positif
vrais positifs /
faux + vrais positifs
99 %   0.89 % 🤔

Modèle 2: toujours négatif ⚠️

N = 100 000 personnes, prévalence = 9 / 100 000

Malades 9
 Faux négatifs 9
 Vrais positifs 0
Pas malades 99 991
 Faux positifs 0
 Vrais négatifs 99 991
Précision vrais prédictions / N 99.991 % 🤔
Chances d'être malade
si testé positif
vrais positifs /
faux + vrais positifs

Diagnostic du Covid-19

Test PCR du frottis nasopharyngé

Faux positifs 1 %
Faux négatifs entre 15 et 45 % 😱
Prévalence entre 1 et 5 % en Ile-de-France

Source: Performance du frottis nasopharyngé-PCR pour le diagnostic du Covid-19. Recommandations pratiques sur la base des premières données scientifiques

PCR: faux positifs 1% & faux négatifs 30%

N = 100 000 personnes, prévalence = 3 %

Malades 3 000
 Faux négatifs 30% * malades 900
 Vrais positifs 70% * malades 2 100
Pas malades 97 000
 Faux positifs 1% * pas malades 970
 Vrais négatifs 99% * pas malades 96 030
Précision vrais prédictions / N 98.13 %
Chances d'être malade
si testé positif
vrais positifs /
faux + vrais positifs
68.4 % 🤔

Demo time ! 🥳

Echauffement: un neurone

Cas simple: un neurone

Mauvaise performance ☹️

Cas simple: couche intermédiaire

Composition des neurones en rajoutant une couche:
Prédictions plus évoluées,
mais mauvaise performance ☹️

Cas simple: couche + large

Rajouter des neurones:
Bonne performance 😊

cas complexe

Un réseau simple ne fonctionne pas:
Mauvaise performance ☹️

cas complexe: Feature engineering

Création manuelle de variables adaptées ✋,
en exploitant un savoir métier:
Prédictions suffisament précises 😊

L'ancienne méthode, efficace
mais coûteuse en temps de conception

cas complexe: Deep learning

Composition de nombreuses couches:
Prédictions suffisament précises 😊
sans faire de feature engineering manuel 😏

👉 Résolution de problèmes
à l'aide des données brutes,
sans savoir métier.

cadrer et mener un projet IA

Analyser les décisions pour évaluer la valeur

📊 Information + ✋ Décision = 💰 Valeur

Données Produit Décision Valeur
Senseurs météo Prévision Météo Un citadin prend un parapluie avant de sortir ~ 0€
Senseurs météo Prévision Météo Un producteur de vin protège ses vignes avant la grèle 100€/an 💰
Images satellites Estimation des réserves de pétrole Un trader achète ou vend du pétrole sur le marché 10M€/an 💰💰💰

Agile: fail fast, learn quick

Expérimentation: il faut payer pour voir 🃏

Source: CRISP-DM (Wikipedia)

Qualifier une idée de projet

Se renseigner sur l'état de l'art:

Qualifier une idée de projet

Demander son avis à un expert:

Source: xkcd

Les clés du succès d'un projet IA

Les données avant les algorithmes

L'IA, c'est des vieux algorithmes
appliqués à des données récentes.

C'est la collecte de donnée qui permet les percées en IA.
Source: Datasets Over Algorithms (kdnuggets)

Open source et open data

Les meilleures solutions émergent
de la confrontation des idées.

  • Tirer parti des modèles et publications open source (model hubs, papers with code, etc.)
  • Faire des compétitions ouvertes en partageant vos données (hackathon).

Dans tous les cas, exiger d'avoir le code & les données.

Des ressources multi-facettes

Un mix entre business, statistiques et informatique

ChargeAppétenceChargeBesoinDonnéesModèleDéploiementActivitéAppétences du data scientist et besoins projet

Beaucoup de data scientists ne pensent qu'aux algorithmes
et pas au problème qu'ils cherchent à résoudre.

La connaissance des algorithmes ne se suffit pas à elle-même

Un bon data scientist doit être full-stack developer,
ou être intégré à une équipe plus large.

ML system infrastructure.png

Faire du machine learning en laboratoire c'est facile,
mais savoir livrer une solution fonctionnelle est difficile.

Source Machine Learning: The High-Interest Credit Card of Technical Debt

Exercice

Secteur Choisir un secteur, choisir une entreprise emblématique
Brainstorming En explorant les 3 values disciplines: brainstormer sur les idées de transformation IA qu'on peut proposer
Valeur Evaluer la valeur en analysant les décisions améliorée par cette IA
Faisabilité Evaluer la faisabilité en trouvant des exemples analogues
Données Imaginer quand et comment on pourrait obtenir des données
Pitch Pitcher