Comment et pourquoi est né PREDEECT ?

PREDEECT (prononcez Predict) est né d’un constat : sur le marché n’existe aucun outil réunissant données électorales, cartographiques et de prédiction efficace, simple, clair, fiable ou proposant que partiellement l’ensemble de ces services tels que CARATA, QUOMON ou POLIGMA. PREDEECT (prononcez Predict) a été le fruit de 3 années de travail acharné par une équipe dédiée de 6 personnes. L’arrivée de ce nouveau logiciel au sein des services et outils développés par PLEBISCIT permet à l’entreprise spécialisée sur le créneau du conseil et de la stratégie électorale de compléter son offre dans les Data : PREVIOO, le logiciel pour mener une campagne électorale efficace, JEVOTEDIMANCHE qui facilite l’obtention des procurations par les équipes de campagne et JOURDEVOTE, l’appli qui centralise les résultats électoraux en temps réel.


Pensez-vous qu'il soit désormais possible de « prédire » tous les types d'élection en France ?

La prédiction au sens mathématique du terme n’est possible que si l’on dispose de suffisamment de données d’entraînement (*) pour entraîner le modèle. Les données utilisées dans notre prédiction, issues de l’open data via les plateformes gouvernementales et l’Insee, sont à la maille du bureau de vote : ainsi, on peut prédire le résultat de scrutins allant jusqu’à cette échelle.

 

 

(*) Données d’entraînement : ce sont des données du passé qui conduisent à un résultat déjà connu, et qu’on exploite dans un modèle. Ex : on peut considérer l’ensemble des données d’avant 2012 comme menant à l’élection de François Hollande : l’objectif du modèle serait alors d’apprendre les signes annonciateurs dans ces données, de simuler de nouveau cette élection, et de comparer avec le résultat réel pour tester sa validité.


Reconnaissez-vous à PREDEECT
(prononcez Predict) des imperfections, des marges d'erreur ou un angle mort ?

C’est certain, notre méthode est expérimentale, comporte des biais et repose sur l’hypothèse que le comportement des électeurs du passé sera similaire à celui des électeurs du futur, même si l’on peut changer le taux de participation (il reste tout de même inconnu jusqu’au jour du vote). On peut toutefois être optimiste sur les résultats à venir de cette démarche puisqu’il y a de nombreux exemples de prédictions justes (voir les travaux de Nate Silver aux USA sur les élections de 2008 à nos jours), et sans passer sous silence les échecs de la méthode (Trump, par exemple), l’enjeu est de comprendre pourquoi l’analyse a échoué et comment corriger le modèle. Les biais rencontrés sont dépendants des données : s’il s’agit de données de réseaux sociaux, alors celles-ci ne représentent qu’une catégorie de la population ; s’il s’agit de données socio-éco-démographiques, la discontinuité des données peut influer sur la marge d’erreur ; au contraire, pour les données de recherche Google il faut s’assurer de les traiter avec un recul suffisant pour ne pas seulement observer des épiphénomènes. En définitive, plus il y aura de données d’origines, d’échelles et de types différents, plus robustes seront les modèles.


Pourquoi avoir choisi les données publiques ?

Notre choix s’est porté sur des données Open Data des 35 000 communes de France, ainsi que les résultats des élections “récentes”, c’est-à-dire ayant eu lieu entre 2014 et 2021 : 

Travailler avec les données de l’Open Data ont été pour nous l’occasion d’éviter trois types d’écueils.

  • Problématiques éthiques : les données extraites de l’Open Data sont des données publiques. Aucune donnée personnelle, aucun tracking et aucun crawl des réseaux sociaux n’a été réalisé dans le cadre de PREDEECT (prononcez Predict) qui a suivi une méthode non-intrusive.

Problématiques d’accès : il n’a pas été nécessaire de crawler ou de recourir aux API de grandes plateformes comme Facebook ou Twitter, qui sont de plus en plus restreintes. Les données utilisées font toutes parties de jeux de données d’organisations publiques.

Problématiques d’interprétation : les méthodes d’Opinion mining, le plus souvent pratiquées sur une extraction de messages postés sur Twitter, demandent une expertise poussée dans l’interprétation du langage, avec des difficultés à distinguer les messages positifs, négatifs, ironiques, les biais liés à la “désirabilité sociale”, l’influence des bots etc. Les Open Data sont au contraire des données purement quantitatives, qui ne souffrent d’aucun biais d’interprétation.


PREDEECT remplace-t-il les instituts de sondage ?

Non. PREDEECT (prononcez Predict) ne remplace pas les sondages. Mais les sondages sont devenus des instruments imparfaits de mesure de l’opinion. Comme nous avons pu le voir dans des enquêtes récentes, les instituts de sondage ont quelques failles dans leurs approches, les enquêtes téléphoniques sont délaissées pour des enquêtes internet rémunérées sans pouvoir vérifier l’identité de l’administré, tant et si bien que certains mentent pour être sûrs d’être interrogés et percevoir la rémunération. En effet, selon la méthode des quotas il faut atteindre une certaine taille d’effectif dans chaque catégorie interrogée. Et certains profils sont plus rares que d’autres.