« Préparer le pays aux enjeux de la transition numérique de l’économie de demain », telle est l’ambition de la loi pour « Une République Numérique » promulguée en 2016. Son application a accéléré les stratégies d’open data dans les administrations. Désormais, tout le monde peut accéder à des données publiques pour comprendre les grandes caractéristiques d’un territoire : les sujets abordés dans les délibérations, la position d’un élu sur les EnR, les discussions autour de projets concurrents au sein des CdC, etc.
Ces informations sont a priori facilement accessibles aux entreprises qui travaillent avec les pouvoirs publics locaux. A priori, car le volume de documents administratifs à parcourir est gigantesque, sans compter les articles publiés dans la presse locale. Un EPCI comme « Communauté Pays Basque » par exemple publie plusieurs milliers de pdf chaque année, ce à quoi il faut ajouter le stock historique de documents administratifs. Et l’information qui va intéresser les équipes prospection et développement se trouve parfois dans un paragraphe de 5 lignes, au milieu d’un document de 200 pages.
Alors comment tirer profit de la richesse de ces documents pour comprendre les enjeux et les dynamiques d’un territoire en un minimum de temps ?
Prenons l’exemple d’un chargé de prospection dans le secteur éolien, dont le périmètre comprend le village de La Verdière dans le Var. La Verdière – 1622 habitants – fait partie d’une communauté de communes de quinze autres villages. En considérant ces deux niveaux administratifs, on peut estimer que pas moins de 7500 pages de délibérations et autres rapports administratifs ont été produits au cours de ces 5 dernières années.
Voici un exemple de document qu’un développeur peut récupérer au gré de ses recherches. Le document est scanné, ce qui l’oblige à y rechercher manuellement, ligne après ligne, les informations pertinentes pour son activité :
Elaboration du PLU de La Verdière
Ajoutons les articles publiés dans la presse locale. Var-Matin, La Provence ou La Marseillaise regorgent d’interviews d’élus, d’opposants ou de citoyens sur l’éolien et le développement de projets EnR dans le département. Cela représente plusieurs milliers de pages supplémentaires à lire et classer.
Pour dire les choses simplement : c’est une tâche impossible à faire manuellement.
Cela reviendrait à lire plusieurs fois par mois l’intégralité de la saga d’Harry Potter, pour chaque projet. Ce travail colossal mais important représente des heures de travail qu’un chargé de prospection éolien n’a pas. Et pourtant, s’il ne le fait pas, il passera régulièrement à côté d’informations clés liées à ses projets.
Les enquêtes nationales sur la perception de l’énergie éolienne sont nombreuses. Toutefois, elles ne disent rien de cette perception si nous allons à un niveau local, celui auquel les développeurs de projets travaillent.
Une partie du travail des porteurs de projets territoriaux consiste justement à comprendre la situation locale, les prises de position des élus, l’historique de développement de projets d’infrastructure, la situation budgétaire des communes, sur une zone qui peut compter plusieurs milliers de communes.
Cela implique de lire des milliers de pages de documents administratifs et d’essayer de repérer en permanence toute nouvelle publication. Et le panorama ne serait pas complet sans les articles publiés dans la presse locale, ce qui alourdit davantage la liste des lectures nécessaires.
Si ce travail systématique ne peut se faire à la main, il existe une technologie permettant de lire automatiquement de grandes quantités de documents textuels : le Natural Language Processing.
Nous utilisons au quotidien de nombreuses applications s’appuyant sur cette technologie : assistants vocaux, enceintes connectées, chatbots ou encore outils de traduction sont quelques-unes des applications pratiques du NLP. On peut dès maintenant ajouter à cette liste la lecture automatique de documents administratifs et d’articles de presse afin d’y repérer des informations utiles aux porteurs de projets territoriaux.
Quid du NLP
Le NLP (Natural Language Processing) ou Traitement Automatique du Langage Naturel (TALN) en français est un ensemble de techniques qui permettent aux ordinateurs de lire, déchiffrer et comprendre le langage humain. Elles permettent d’effectuer certaines tâches automatiquement, telles qu’identifier les lieux mentionnés dans un texte, détecter le thème du texte ou en générer un résumé. Pour ce faire, elles combinent des dizaines de règles, basées sur la grammaire ou apprises automatiquement sur la base de jeux de données contenant des exemples de la tâche à accomplir (apprentissage supervisé). Les techniques les plus modernes sont même capables d’apprendre de manière automatique (non supervisées), en se basant uniquement sur de très grandes quantités de texte brut.
Explain a mis cette technologie au cœur de Goodwill, logiciel d’intelligence territoriale pour les entreprises qui travaillent avec les pouvoirs publics locaux. Nos équipes de Data Science ont développé une combinaison d’algorithmes de NLP afin de repérer dans les documents mentionnés des informations clés pour faciliter le travail de prospection : personnes et organisations influentes localement, thèmes, localisations, prises de position sont autant d’éléments que notre technologie permet de repérer.
A la clé pour les utilisateurs : rendre accessibles des données impossibles à trouver à la main, et ce, non seulement pour leur permettre de repérer de nouvelles opportunités, d’anticiper les risques qui peuvent impacter leur activité mais aussi pour leur faire gagner du temps, tout simplement. Un temps qu’ils peuvent ensuite utiliser pour aller davantage sur le terrain, à la rencontre des influenceurs qu’ils auront identifiés grâce à Goodwill. Ou pourquoi pas, pour lire la saga d’Harry Potter !