Le graphe : un pan de la « dataviz » exploitable pour cartographier et explorer un secteur d’activité

« Un bon croquis vaut mieux qu’un long discours », Napoléon Bonaparte.

A l’ère du « Big Data » et de « l’Open Data », ces bases de données massives présentées sous forme de tableaux, il est devenu indispensable d’appliquer des dispositifs de requêtes, de traitement et de calcul afin d’extraire des informations pertinentes et des connaissances nouvelles. De fait, sans ces différentes étapes, il est impossible de dégager une quelconque valeur ajoutée de ces tableaux de valeurs, imposants et nébuleux.

C’est alors qu’entre en scène la datavisualisation ou « dataviz », qui permet de traduire une base de données indigeste et inexploitable en une série de graphiques ou d’images interprétables. C’est finalement un passage « de la complexité à la simplicité » qui s’opère lorsque l’on organise des données sous forme graphique. Cette discipline ne date pas d’hier et est utilisée dans plusieurs domaines d’activités : intelligence économique, géographie, marketing, journalisme, veille, communication… On dénombre quatre formes de modèles visuels : les graphes cartésiens, la cartographie, les diagrammes de réseaux et les modèles expérimentaux. Nous souhaitons aborder ici une image spécifique de datavisualisation qui donne à voir au lecteur : le graphe.

L’objet de cet article est de visualiser sous forme de graphes, le réseau que forment les liens hypertextes de sites autour d’une thématique : le secteur de l’hydrogène en France et en Europe. Notre objectif sera ainsi de cartographier le paysage sectoriel de l’hydrogène afin de déterminer quels sont les acteurs le composant. Cette thématique est prise à titre d’exemple et la démarche est réplicable pour d’autres secteurs d’activités.

Un point méthodologique sur la construction d’un graphe

Afin de bien comprendre de quoi nous parlons, il est important de revenir sur ce qu’est un graphe et sur quelques concepts qui permettent de tirer des informations pertinentes de celui-ci. Vous pouvez directement passer à la partie exploitation du graphe si vous connaissez déjà les principes généraux.

Un graphe est un ensemble de nœuds et de liens interconnectés entre eux. Appliqué au web, les nœuds représentent un site internet, un acteur (nous reprenons la sociologie de la traduction – ou théorie de l’acteur réseau – dans la définition que nous avons d’un acteur) à savoir un projet, une entreprise, une association, un organisme d’état, un syndicat… Les arcs entre les nœuds représentent les liens hypertextes présents sur les sites web que nous avons crawlés et qui renvoient vers une autre entité web du corpus (ils mettent en réseau des sites web).

La méthodologie de la cartographie du web est relativement simple. Elle peut se résumer en 5 grandes étapes : extraire, traiter, analyser, produire et présenter.

Voici quelques éléments afin de comprendre la construction de nos graphes.

Le choix du crawler

Il est nécessaire de choisir un crawler lorsque l’on réalise une cartographie du web. Nous avons choisi d’utiliser Hyphe, un outil gratuit développé par le Medialab de Science Po. Ce choix est le plus pertinent selon nous car c’est un outil gratuit qui, contrairement aux autres crawler du même type, donne une très grande marge de manœuvre à l’utilisateur. Qui plus est, l’outil dispose de fonctionnalités intéressantes comme l’ajout de « Tags » aux sites ou encore la conversion en fichier .xls ou .gexf.. Notez cependant qu’il faut quelques heures avant de s’approprier pleinement Hyphe et de comprendre les mécanismes latents.

Les points d’entrée

La thématique aborde deux zones géographiques : la France et l’Europe. Il faut alors partir de deux sites web (points de départ du crawl) : l’Afhypac et le site du FCH JU. Le premier site est une association de référence en France de la filière hydrogène. Elle regroupe des adhérents qui sont les acteurs principaux du secteur de l’hexagone. Le FCH JU est un organisme européen qui finance les projets collaboratifs européens autour de l’hydrogène. L’idée consiste de partir de la page « membres » de l’Afhypac afin d’obtenir l’ensemble des principaux acteurs (leur site web). En ce qui concerne le FCH JU, la page « Project » regroupe l’ensemble des projets qui ont été financé par l’organisme depuis 2008. De plus, les membres des différents consortiums y sont référencés. Ces deux sites sont les points de départ de la cartographie. Le crawler a ainsi été lancé pour aspirer les liens hypertextes de ces sites.

Rappelons que, peu importe le secteur d’activité, il existe des associations, des groupements de professionnels, des syndicats etc. qui ont un espace membre. Ces espaces sont des très bons points de départ pour appréhender un secteur d’activité que l’on ne connaît pas ou très peu (l’utilisation d’une simple requête combinant les opérateurs booléens sur un moteur de recherche permet de trouver ces acteurs). Notez également que pour lancer un crawl, il est nécessaire de définir pour chaque site une page de départ. Il est conseillé de débuter des pages partenaires/membres/adhérent/etc. lorsque c’est possible.

Traitement post crawl

Une fois le premier crawl terminé par l’outil, il faut traiter ce qu’Hyphe nomme « l’output », à savoir les nouveaux sites découverts. Ce traitement passe par l’élimination des sites appartenant à la couche dite “haute” du web (la couche la plus visible). Nous pouvons ainsi écarter du corpus les sites comme Amazon, Twitter, YouTube, Apple, Facebook… En effet, ces entités, via leur popularité, vont concentrer un nombre important de liens et devenir des nœuds centraux de notre cartographie alors qu’elles n’ont rien à voir avec le secteur de l’hydrogène français ou européen. Elles ne viendraient que compliquer la compréhension du graphique. De manière générale, il y a toujours une tendance à l’aspiration vers le haut lorsque l’on crawl un ensemble de sites. Il faudra systématiquement veiller à bien éliminer ceux ne correspondant pas à la thématique observée.

Finalisation du corpus

Après avoir défini les sites à inclure dans le corpus, il faut relancer un nouveau crawl qui, cette fois-ci, ne cible que les entités nouvellement incluses. Ensuite, une phase de traitement est nécessaire  afin d’éliminer le bruit. Au total, ce sont trois crawls qui ont été réalisés afin de constituer le corpus. Le crawl du dernier « output » obtenu via Hyphe a permis de compléter d’éventuels liens manquants. Après quelques dernières retouches des sites à inclure, le corpus final contient 539 nœuds et 2 885 liens.

Catégorisation des sites

L’analyse du graphe passe par une double catégorisation des sites web présents dans le corpus. Cette étape, indispensable, nous permet de comprendre à quoi font référence les entités web. Elle permettra aussi, lors de l’exploitation du graphe, de dégager des informations qui, sans cela, auraient été indisponibles. Ainsi, nous avons choisi de catégoriser les sites web en fonction du type d’acteur (catégorie 1) et en fonction du pays ou de la zone géographique (catégorie 2).

Catégorie 1 : type d’acteur Catégorie 2 : pays ou zone géographique
Le site est un projet. En l’occurrence, majoritairement des projets européens pour nous. Le site est un projet et n’a pas d’application exclusivement française et sera nommé Europe 2.
Le site est un organisme de recherche, un laboratoire, une université, une école, un centre technique ou un institut. Le site est un projet et a une application exclusivement française (France 2 dans le graphe).
Le site est une PME-PMI. Nous catégorisons comme Europe tout site dont l’objet ne fait pas référence à une entité appartenant à un pays. Exemple : l’institut Eifer né de la collaboration entre EDF et l’institut allemand Karlsruher, est identifié comme Europe car il est né de la collaboration de deux pays.
Le site un grand groupe industriel d’une ETI.
Le site représente une institution financière ou un financeur.
Le site représente une association, un pôle de compétitivité ou un groupement divers d’acteurs. Les autres types de sites dont un pays est clairement identifiable seront nommés comme tels. Par exemple, l’université de Poitiers sera nommée comme France. Nous avons ainsi plusieurs pays qui sont représentés et ils possèderont tous une coloration propre lors de la visualisation.
Le site est une collectivité territoriale, un état, un organisme/service national.
Le site représente un utilisateur final des applications hydrogènes.
Le site met en avant un événement spécifique.

De manière générale, il faut penser aux informations que l’on souhaite obtenir lorsque l’on construit sa catégorisation. Opter pour une représentation par type d’acteur et par pays permet d’obtenir une vue générale du secteur. Par ces catégorisations, une vision pertinente du paysage sectoriel se dessine (cf. exploitation du graphe).

Néanmoins, il est également possible de faire le choix de classer par positionnement sur la chaîne de valeur du secteur (fabricant de piles, intégrateur, constructeur de stations, recherche…). Il existe de nombreuses possibilités qui doivent être pensées avec insistance et adaptées aux spécificités de chaque secteur/analyse.

Visualisation du graphe

Pour conclure le graphe, il faut maintenant spatialiser les nœuds et les liens, les colorer, les nommer, leur appliquer une taille… Il est donc nécessaire de créer ce que l’on peut appeler une image interface : c’est l’enrichissement des éléments du graphe qui dépend d’un logiciel de visualisation. Il n’y a pas besoin d’aborder ici la question de l’outil qui définit l’univers des possibles dans la visualisation et qui peut enfermer ou rendre dépendant l’utilisateur. Pour concevoir l’image interface, utiliser Gephi, un logiciel open source, apparaît comme la meilleure solution. Celui-ci n’est cependant pas très intuitif et il reste relativement complexe. Voici des tutoriels qui expliquent très bien son fonctionnement.

Les nœuds du graphe sont colorés en fonction des catégorisations, ce qui donne 2 graphes différents. Vient s’ajouter à cela un troisième graphe, dont la couleur des nœuds dépend des clusters/communautés détectés de manière automatique par l’algorithme de modularité (ou méthode MCL). La théorie sous-jacente ne sera pas développée mais voici  un papier pour en apprendre plus. La taille des nœuds n’est pas uniforme et est liée au poids qui leur est attribué. Il est lié au nombre de liens hypertextes sortants ou entrants pour un nœud donné (plus un site est cité, plus il sera imposant sur le graphe).

Ces modifications appliquées, il faut ajouter une spatialisation pour terminer le graphe. Plusieurs choix sont alors disponibles et dépendent du type de graphe et de ce que l’on désire analyser. Concernant les 3 graphes, la même spatialisation est appliquée et s’est déroulée en 2 étapes :

  1. Utilisation de l’algorithme de Fruchterman Reingold. La sortie du graphe finale est plus intéressante lorsque cet algorithme est utilisé au préalable pour « aérer » le graphe.
  2. Utilisation de Force Atlas 2, un algorithme de « force-directed » qui positionne chaque nœud en fonction des autres. Une réduction de la dispersion des nœuds, une gravité pour rapprocher les nœuds, une influence nulle des liens et un empêchement du recouvrement (plus esthétique et lisible) furent appliqués au graphe.

Nous avons ainsi réalisé les 3 graphes ci-dessous.

           Graphe 1 : catégorisation type d’acteur

 

Légende Graph 1

 

Graph 2 : catégorisation par pays

 

Légende Graph 2

                 Graphe 3 : catégorisation algorithme de modularité

Exploitation du graphe

Un principe de base est latent dans une cartographie de liens hypertextes. C’est le principe d’homophily, théorisé par Lazarsfeld et Merton en 1954. Il évoque la chose suivante : les individus ont tendance à se connecter entre eux en fonction de leurs ressemblances. Deux acteurs seront ainsi plus facilement en relation s’ils partagent les mêmes valeurs, la même culture, la même classe sociale, etc. Or, la cartographie du web est le prolongement de ce raisonnement sociologique. Les liens hypertextes matérialisent des relations sociales et le partage du même secteur d’activité (dans le cas présenté) vient expliquer la connexion entre ces entités web.

Ces relations traduites par les liens hypertextes sont protéiformes. En effet, le lien peut symboliser un partenariat autour d’un projet, une relation commerciale, une relation d’actionnariat, une adhésion à une organisation, une participation à un événement, etc. Finalement, il est la représentation d’une connexion qui a effectivement eu lieu à un moment donné « sur le terrain ». C’est sur la base de ce principe que nous pouvons exploiter les graphes.

En analysant le graphe numéro 1 catégorisant les types de structure, plusieurs informations se découvrent sur l’organisation du secteur et le positionnement des acteurs :

  • Les organismes de recherche sont nombreux et fortement connectés. Ils viennent former un cluster (localisé sur la droite du graphe). Une collaboration européenne semble se manifester autour du secteur de l’hydrogène et l’émergence de la filière (encore en phase de développement) peut justifier l’omniprésence de ces acteurs. Il serait intéressant de réaliser ce travail de cartographie dans quelques années ; le soupçon d’un constat d’une nette diminution peut être de ces organismes au profit de grands groupes ou de PME-PMI.
  • Certaines PME-PMI sont faiblement connectées. Cela peut expliquer l’émergence du secteur et de l’activité des entreprises qui doivent encore trouver leur place (grappe de sites autour de l’Afhypac).
  • Autour des projets européens (localisés autour du FCH) gravitent différentes organisations : PME-PMI, grands groupes, ETI, associations, organismes de recherche… Après une brève recherche, cela s’explique par les modalités de financement de ce type de projet. En effet, lorsque sont présents dans un consortium différentes tailles de structures, les financements peuvent être plus importants ou plus facilement acceptés.
  • Des organismes financeurs sont fortement connectés et sont au cœur des clusters comme l’ADEME ou le FCH JU. Cela semble traduire un besoin exogène de financements pour les acteurs impliqués dans la filière hydrogène. Cette idée vient renforcer une première analyse montrant que ce secteur est en plein développement.

Si l’on prend maintenant la cartographie numéro 2 catégorisant les pays, nous pouvons en déduire certaines tendances :

  • Les acteurs français sont fortement interconnectés mais sont pour une grande partie d’entre eux isolés des acteurs et projets européens. Est-ce là le signe du retard en la matière de la France par rapport à d’autres pays européens ? Notez que le graphe 3 colorant les nœuds selon l’algorithme de modularité a très bien identifié la communauté française.
  • Le milieu du graphe (où la concentration est plus faible) met en avant des acteurs français faisant le pont entre l’Europe et la France (exemple : CEA, Airliquide, Symbio, Areva H2, McPhy, CNRS entre autres). Ces acteurs occupent donc une place importante, stratégique, sur la scène française et européenne pour la filière hydrogène. Ces acteurs ont donc beaucoup de pouvoir. Rappelons que dans une cartographie, les acteurs qui font le lien entre 2 réseaux ou plus doivent être considérés comme stratégiques. Une entreprise a alors tout intérêt à se rapprocher de ces acteurs si elle souhaite être présente dans le paysage français et européen de l’hydrogène.

Une tendance majeure se dégage dans le graphe numéro 3 :

Le cluster européen situé autour du FCH peut être divisé en 2. C’est ce que l’algorithme de modularité a mis en avant. Une partie contient des acteurs plus divers (en vert sur le graphe 3) et l’autre se compose majoritairement de projets (en violet). La partie verte contient ainsi plus de grands groupes et ETI, de pôle de compétitivité, de PME-PMI (par recoupement avec le graphe 1) ce qui peut expliquer la division. À l’inverse, le cluster violet est fortement connecté avec les organismes de recherche. Il reste relativement compliqué d’expliquer cette distinction mais voilà ce que nous pouvons supposer.

Étant en phase de développement, on peut imaginer que 2 types de projets se distinguent :

    • Des projets applicatifs (démonstrateurs) ;
    • Et des projets de recherche plus fondamentaux.

Or, cette division peut nous laisser penser que les projets les plus applicatifs sont plus fortement connectés avec le monde industriel (cluster vert) et qu’à l’inverse, des projets plus « fondamentaux » sont en relation avec le monde de la recherche. Si tel est le cas, localiser les projets applicatifs devient aisé.

L’exploitation du graphe peut également passer par l’utilisation des métriques inhérentes au logiciel de visualisation (score d’autorité, betweenness centrality…). Nous savons que la cartographie matérialise un ensemble de relation sociales. En combinant cela avec les métriques mathématiques, nous pouvons alors obtenir d’autres informations. Nous ne développerons pas l’utilisation des métriques ici et réservons ça pour un prochain article.

En analysant pleinement les graphes et en les recoupant, il est possible de dresser un panorama du secteur, de ses acteurs et de ses tendances permettant à toute organisation d’y voir plus clair, d’en dégager des informations exploitables et d’ouvrir ainsi des pistes stratégiques.

Certaines limites à prendre en considération

Avant de conclure, nous souhaitions avertir le lecteur de certaines limites quant à l’utilisation d’une cartographie du web. En voici quelques-unes :

  • Aucun graphe n’est exhaustif et aucun ne montre une vérité absolue ;
  • Le web évolue rapidement (fermeture de sites, liens morts, ajout de lien…). La cartographie utilisée ici peut ne plus être totalement exacte et toute cartographie est vouée à évoluer ;
  • Le lien social dont nous parlions, transposé par le lien hypertexte, est construit et complexe. La simple visualisation du graphe ne permet pas de comprendre pleinement la profondeur d’un lien. Il est alors important de recouper la cartographie via des recherches d’informations ;
  • Le web est imparfait, certains liens et sites ne fonctionnent pas, des acteurs peuvent donc ne pas apparaître et la cartographie peut être incomplète ;
  • Il ne faut jamais sur-interpréter le graphe et tirer des conclusions précises hâtivement. Voilà pourquoi nous préférons parler de tendances et pourquoi nous prônons l’aspect exploratoire de la cartographie.

Il faut donc, à notre sens, redoubler de prudence lors d’un exercice comme celui que nous venons de présenter.

Nous l’avons montré : la cartographie de liens hypertextes permet d’observer des dynamiques d’acteurs qui appartiennent à un secteur déterminé. Le fer de lance de ce travail, c’est la mise en avant des grandes tendances de l’environnement observé qui peuvent être mobilisées comme point d’ancrage. Cette cartographie ne doit ainsi pas être vue comme une finalité mais comme un point d’amorce d’une phase d’exploration pour enclencher d’autres démarches ; nous pensons notamment à la veille et à des stratégies d’influence.

À titre d’exemple, prenons une entreprise qui souhaite se positionner sur un secteur dont elle ne connaît que très peu le fonctionnement. Une cartographie de ce genre pourrait l’aiguiller dans le choix de partenaires éventuels et des relations qu’elle doit nouer (avec les acteurs autoritaires et influents du secteur). Elle pourrait aussi aisément identifier les organisations qui apparaissent comme importantes et les mettre sous surveillance afin de connaître leurs orientations stratégiques.

En somme, la cartographie est un réel atout pour une organisation. Nous laissons maintenant libre cours à l’imagination de chacun afin de déployer les démarches adaptées aux besoins spécifiques de sa structure en utilisant le graphe comme support.

Mathieu BOYER


Sources :

 

AUCUN COMMENTAIRES

Désolé, les commentaires ne sont plus admis pour le moment.