IA & managers

Comment gérer un projet IA ? Quelles spécificités ?
Comment intégrer l'IA dans mon processus ?

Plage horaire	Atelier
08:00	🤔 Partie Théorique
08:30
09:00
09:30
10:00	☕️Pause
10:30	😅 Atelier pratique
11:00
11:30

C'est quoi l'IA

Les 3 étapes de l'IA

Des méthodes d'IA différentes au cours du temps:

code classique (if → then → else)
système expert utilisant des règles créées à la main
algorithmes statistiques apprenant les règles (machine learning)

Source: State-of-the-Art Mobile Intelligence (research paper)

Les systèmes experts

Le savoir est renseigné par des experts.

Sources: various ITGS courses: here and here.

L'IA, c'est du Machine learning

Le savoir est extrait des données.

C'est auss le mariage de l'expérimentation et des statistiques:
c'est de la cuisine avec des algorithmes

Source: xkcd

Principes du machine learning


Modèle	fait la prédiction régression linéaire, réseau de neurones, ...
Optimiseur	modifie le modèle pour réduire son erreur descente de gradient, algorithmes génétiques

Source: From Linear Regression to Deep Learning in 5 Minutes

La programmation différentielle

Apprentissage = optimisation de fonctions différentiables

Une fonction différentiable permet de calculer le gradient de l'erreur.
A chaque itération, le gradient dit comment modifier les paramètres pour réduire l'erreur.

Source: Linear Regression by using Gradient Descent Algorithm: Your first step towards Machine Learning (medium)

La révolution du deep learning

La composition de modèles simples (neurones)
crée un modèle complexe.

Source: News Feature: What are the limits of deep learning? (PNAAS)

Le deep learning facilite la conception de modèle

👍 Plus besoin de créer des variables
👎 Nécessite beaucoup de données 💾 et de calculs 🥵

Source: Blue Hexagon

Performance de l'IA

De multiples mesures de performance

La mesure de la performance est différente en fonction de l'utilisation de la prédiction.

☝️🧐 Se méfier des annonces impressionnantes. Toujours se poser 3 questions:

quelles données pour faire l'apprentissage ?
quelles données pour mesurer la performance ?
quelle mesure de performance ?

Quelles données pour évaluer ?

Une IA arrive détecte l'orientation sexuelle
à partir de la forme du visage !

Vraiment ? 🤔

Source: Do algorithms reveal sexual orientation or just expose our stereotypes?

Quelles données pour évaluer ?

L'IA utilise: barbe 🧔, lunettes 👓, maquillage 💄

L'IA reproduit les stéréotypes qu'elle trouve dans les données 🤦‍
Source: Do algorithms reveal sexual orientation or just expose our stereotypes?

Quelles données pour évaluer ?

Train-test split:
Séparer les données d'apprentissage
& les données d'évaluation

⚠️ la performance mesurée sur le train est toujours surestimée !
Source: Elite data science

L'Overfitting: l'erreur de débutant

Modèle qui "colle" aux données d'entraînement
sans retenir le savoir sous-jacent (bachottage)

Cela fait croire qu'un modèle est performant (en laboratoire),
alors qu'il est médiocre (en conditions réelles).

Source: Quora

Exemples

Diagnostic de la maladie de lyme

Difficile à diagnostiquer
⚠️ Maladie rare: 9 cas / 100 000 en France

Créons une IA qui fait un diagnostic automatisé ?! 💪😏

Source: Lyme disease in France: a primary care-based prospective study

Modèle 1: faux positifs & faux négatifs de 1 %

N = 100 000 personnes, prévalence = 9 / 100 000

Malades		9
Faux négatifs	1% * malades	0
Vrais positifs	99% * malades	9
Pas malades		99 991
Faux positifs	1% * pas malades	999
Vrais négatifs	99% * pas malades	98 992
Précision	vrais prédictions / N	99 %
Chances d'être malade si testé positif	vrais positifs / faux + vrais positifs	~~99 %~~ 0.89 % 🤔

Modèle 2: toujours négatif ⚠️

N = 100 000 personnes, prévalence = 9 / 100 000

Malades		9
Faux négatifs		9
Vrais positifs		0
Pas malades		99 991
Faux positifs		0
Vrais négatifs		99 991
Précision	vrais prédictions / N	99.991 % 🤔
Chances d'être malade si testé positif	vrais positifs / faux + vrais positifs	❌

Diagnostic du Covid-19

Test PCR du frottis nasopharyngé


Faux positifs	1 %
Faux négatifs	entre 15 et 45 % 😱
Prévalence	entre 1 et 5 % en Ile-de-France

Source: Performance du frottis nasopharyngé-PCR pour le diagnostic du Covid-19. Recommandations pratiques sur la base des premières données scientifiques

PCR: faux positifs 1% & faux négatifs 30%

N = 100 000 personnes, prévalence = 3 %

Malades		3 000
Faux négatifs	30% * malades	900
Vrais positifs	70% * malades	2 100
Pas malades		97 000
Faux positifs	1% * pas malades	970
Vrais négatifs	99% * pas malades	96 030
Précision	vrais prédictions / N	98.13 %
Chances d'être malade si testé positif	vrais positifs / faux + vrais positifs	68.4 % 🤔

Demo time ! 🥳

Echauffement: un neurone

Cas simple: un neurone

Mauvaise performance ☹️

Cas simple: couche intermédiaire

Composition des neurones en rajoutant une couche:
Prédictions plus évoluées,
mais mauvaise performance ☹️

Cas simple: couche + large

Rajouter des neurones:
Bonne performance 😊

cas complexe

Un réseau simple ne fonctionne pas:
Mauvaise performance ☹️

cas complexe: Feature engineering

Création manuelle de variables adaptées ✋,
en exploitant un savoir métier:
Prédictions suffisament précises 😊

L'ancienne méthode, efficace
mais coûteuse en temps de conception

cas complexe: Deep learning

Composition de nombreuses couches:
Prédictions suffisament précises 😊
sans faire de feature engineering manuel 😏

👉 Résolution de problèmes
à l'aide des données brutes,
sans savoir métier.

cadrer et mener un projet IA

Analyser les décisions pour évaluer la valeur

📊 Information + ✋ Décision = 💰 Valeur

Données	Produit	Décision	Valeur
Senseurs météo	Prévision Météo	Un citadin prend un parapluie avant de sortir	~ 0€
Senseurs météo	Prévision Météo	Un producteur de vin protège ses vignes avant la grèle	100€/an 💰
Images satellites	Estimation des réserves de pétrole	Un trader achète ou vend du pétrole sur le marché	10M€/an 💰💰💰

Agile: fail fast, learn quick

Expérimentation: il faut payer pour voir 🃏

Source: CRISP-DM (Wikipedia)

Qualifier une idée de projet

Se renseigner sur l'état de l'art:

Qualifier une idée de projet

Demander son avis à un expert:

Source: xkcd

Les clés du succès d'un projet IA

Les données avant les algorithmes

L'IA, c'est des vieux algorithmes
appliqués à des données récentes.

C'est la collecte de donnée qui permet les percées en IA.
Source: Datasets Over Algorithms (kdnuggets)

Open source et open data

Les meilleures solutions émergent
de la confrontation des idées.

Tirer parti des modèles et publications open source (model hubs, papers with code, etc.)
Faire des compétitions ouvertes en partageant vos données (hackathon).

Dans tous les cas, exiger d'avoir le code & les données.

Des ressources multi-facettes

Un mix entre business, statistiques et informatique

Beaucoup de data scientists ne pensent qu'aux algorithmes
et pas au problème qu'ils cherchent à résoudre.

La connaissance des algorithmes ne se suffit pas à elle-même

Un bon data scientist doit être full-stack developer,
ou être intégré à une équipe plus large.

ML system infrastructure.png

Faire du machine learning en laboratoire c'est facile,
mais savoir livrer une solution fonctionnelle est difficile.

Source Machine Learning: The High-Interest Credit Card of Technical Debt

Exercice


Secteur	Choisir un secteur, choisir une entreprise emblématique
Brainstorming	En explorant les 3 values disciplines: brainstormer sur les idées de transformation IA qu'on peut proposer
Valeur	Evaluer la valeur en analysant les décisions améliorée par cette IA
Faisabilité	Evaluer la faisabilité en trouvant des exemples analogues
Données	Imaginer quand et comment on pourrait obtenir des données
Pitch	Pitcher