#EURO2020 - Quand les ia se prêtent au jeu des pronostics : découverte d'un cas d'usage dans le football
Découvrir, comprendre et expérimenter ce qui est autour et sous le capot d’un système à base d’intelligence artificielle : le cas d’usage de l’apprentissage machine pour prédire les résultats des rencontres de l’Euro 2020.
un cas d'usage concret
L’Euro 2020 a démarré le 11 juin 2021 ! Pour y prendre part à sa manière, la MIA a souhaité expérimenter la prédiction des matches de la compétition avec de l’apprentissage machine ou machine learning. Elle a donc entraîné 3 IA pour pronostiquer les résultats des phases de groupes : une façon d’illustrer l’utilisation de l’intelligence artificielle dans le monde footballistique.
Dans tout projet à base d’IA, il y a un cas d’usage avec des données brutes qui alimentent la machine et des librairies d’algorithmes informatiques qui font tourner le moteur !
En premier, la data
Deux sources de données ont tout d’abord été utilisées pour identifier des données brutes :
- les résultats de plus de 42 000 rencontres internationales qui se sont tenues après 1872 (et les premiers matches jamais joués !), partagés sur https://www.kaggle.com/ (seuls ceux ultérieurs à 1980 ont été retenus dans la sélection des données),
- les scores FIFA 2018 de chaque équipe.
Cela a permis d’identifier :
- 2 variables explicatives (les paramètres qui vont êtres utliisés) : les scores FIFA 2018 de chaque équipe en lice,
- 1 variable cible (c’est-à-dire ce que l’on souhaite obtenir) : victoire, défaite, égalité.
Ces données sont appelées « données d’apprentissage ». Cette phase de gestion des données a nécessité 80% du temps total de l’expérimentation.
En second, les algorithmes
Après quoi, il s’agissait de découvrir les différences entre trois algorithmes réputés en python qui génèrent des modèles à base de machine learning (ML). (Ces algorithmes sont disponibles via la librairie Scikit-Learn de l’Inria.) Ces « boites noires ML » impliquent une probabilité statistique de remporter la rencontre pour chacune des 2 équipes.
Dans le but de comprendre comment la machine peut aider l’Humain à prédire les résultats des matches, il a été décidé de convertir l’information de sortie de ces « boites noires » : l’équipe ayant la plus grande probabilité de remporter le match est désignée comme gagnante potentielle de la rencontre.
3 algorithmes ont été utilisés pour cette expérimentation pédagogique et ludique :
- Multi-Layer Perceptron (MLP), qui est un type de réseau de neurones artificiel organisé en plusieurs couches au sein desquelles une information circule de la couche d’entrée vers la couche de sortie uniquement (il s’agit donc d’un réseau à propagation directe).
- K-nearest Neighbors (KNN), qui est une méthode d’apprentissage supervisé : pour prédire un résultat, l’algorithme va déterminer de quelle classe il est le plus proche à partir de ses variables explicatives.
- Random Forest, qui est un algorithme qui effectue un apprentissage automatique sur plusieurs arbres de décision. Un arbre de décision permet d’extraire des règles logiques qui n’apparaissent pas dans des données brutes en trouvant des corrélations dans celles-ci.
IA vs Team MIA : un mini-tournoi où l'on peut apprécier la différence entre les raisonnements artificiels et humains ainsi que leurs biais
L’équipe MIA s’est amusée à formuler des prédictions basées sur sa connaissance personnelle du football. 4 équipes de prédictions ont donc été constituées par la MIA pour étudier ce cas d’usage de manière ludique et pédagogique :
- 3 équipes « artificielles » : PERE-ceptron, K-nearEST et Random Forest ;
- et une équipe « humaine ».
Force est de constater que les prédictions diffèrent entre les équipes ! Les raisonnement artificiels (IA), à l’instar du raisonnement humain sont biaisés… Eh oui, l’IA, ce n’est pas magique et les humains sont quant à eux perfectibles !
En l’occurrence, les biais algorithmiques de cette expérimentation volontairement simpliste sont nombreux. Le modèle pourrait être amélioré en incluant aux données d’entrée des variables diverses et variées, telles que :
- le lieu du match (rencontre à domicile ou à l’extérieur) ;
- les conditions météorologiques historiques et en temps réel ;
- le nombre de joueurs par équipe évoluant dans les clubs internationaux les plus performants ;
- le nombre de cartons distribués par l’arbitre ;
- l’âge des footballeurs ;
- ou encore le palmarès de l’entraîneur.
Néanmoins, une variable pourtant majeure dans la prise de décision des êtres humains telle que le mental est difficile à prendre en compte : impossible aujourd’hui de traduire en données l’état d’esprit des footballeurs ou de le modéliser avec les mathématiques.
On constate donc que le résultat du « raisonnement artificiel » fourni par la machine doit être complété par un raisonnement humain qui peut naturellement inclure une variable « émotive » par exemple et ainsi obtenir un résultat plus pertinent ou moins biaisé.
Pour creuser la réflexion : le rôle des Data Scientists
En creusant la réflexion, on remarque qu’une « boite noire IA statistique » fournit toujours un résultat. La question se pose de la pertinence de ce dernier dans le contexte du cas d’usage pour lequel elle est utilisée !
Ici, les 3 algorithmes utilisés ne fournissent pas les mêmes résultats, ce qui est normal car leur apprentissage machine est différent. Ils sont architecturés pour accorder par exemple plus ou moins d’importance aux variables.
C’est pour cette raison que dans un projet à base d’IA, la première question à se poser est : quel est l’algorithme qui est adapté à mon cas d’usage ?
Les IA ne sont que des outils et, comme tout outil, ces technologies ne sont pas adaptées à la résolution de toutes les problématiques. C’est le rôle des Data Scientists de construire des modèles à partir des données et des algorithmes puis de proposer le plus adapté au contexte.
En outre, un apprentissage fiable ne peut être acquis par la machine que si l’équipe de Data Scientists est complétée par une équipe d’experts du domaine ainsi que d’utilisateurs qui contribuent à la définition des variables d’entrée. En effet, apprendre à partir de données incomplètes conduit à un biais, c’est-à-dire à un résultat qui ne correspond pas à l’objectif initial.
Constituer des équipe mixtes & pluridisciplinaires est une des voies pour bâtir des IA éthiques et utiles.