La prédiction au sens mathématique du terme n’est possible que si l’on dispose de suffisamment de données d’entraînement (*) pour entraîner le modèle. Les données utilisées dans notre prédiction, issues de l’open data via les plateformes gouvernementales et l’Insee, sont à la maille du bureau de vote : ainsi, on peut prédire le résultat de scrutins allant jusqu’à cette échelle.
(*) Données d’entraînement : ce sont des données du passé qui conduisent à un résultat déjà connu, et qu’on exploite dans un modèle. Ex : on peut considérer l’ensemble des données d’avant 2012 comme menant à l’élection de François Hollande : l’objectif du modèle serait alors d’apprendre les signes annonciateurs dans ces données, de simuler de nouveau cette élection, et de comparer avec le résultat réel pour tester sa validité.
C’est certain, notre méthode est expérimentale, comporte des biais et repose sur l’hypothèse que le comportement des électeurs du passé sera similaire à celui des électeurs du futur, même si l’on peut changer le taux de participation (il reste tout de même inconnu jusqu’au jour du vote). On peut toutefois être optimiste sur les résultats à venir de cette démarche puisqu’il y a de nombreux exemples de prédictions justes (voir les travaux de Nate Silver aux USA sur les élections de 2008 à nos jours), et sans passer sous silence les échecs de la méthode (Trump, par exemple), l’enjeu est de comprendre pourquoi l’analyse a échoué et comment corriger le modèle. Les biais rencontrés sont dépendants des données : s’il s’agit de données de réseaux sociaux, alors celles-ci ne représentent qu’une catégorie de la population ; s’il s’agit de données socio-éco-démographiques, la discontinuité des données peut influer sur la marge d’erreur ; au contraire, pour les données de recherche Google il faut s’assurer de les traiter avec un recul suffisant pour ne pas seulement observer des épiphénomènes. En définitive, plus il y aura de données d’origines, d’échelles et de types différents, plus robustes seront les modèles.
Notre choix s’est porté sur des données Open Data des 35 000 communes de France, ainsi que les résultats des élections “récentes”, c’est-à-dire ayant eu lieu entre 2014 et 2021 :
Travailler avec les données de l’Open Data ont été pour nous l’occasion d’éviter trois types d’écueils.
Problématiques d’accès : il n’a pas été nécessaire de crawler ou de recourir aux API de grandes plateformes comme Facebook ou Twitter, qui sont de plus en plus restreintes. Les données utilisées font toutes parties de jeux de données d’organisations publiques.