My web intelligence : un outil pour l’analyse du web et des réseaux

Amar Lakel

doi:10.3917/i2d.211.0096

I2D - Information, données & documents 2021/1 n° 1

Article de revue

My web intelligence : un outil pour l’analyse du web et des réseaux

Par Amar Lakel

Pages 96 à 103

LAKEL, Amar,

2021. My web intelligence : un outil pour l’analyse du web et des réseaux. I2D - Information, données & documents, 2021/1 n° 1, p.96-103. DOI : 10.3917/i2d.211.0096. URL : https://shs.cairn.info/revue-i2d-information-donnees-et-documents-2021-1-page-96?lang=fr.

Lakel, Amar.

« My web intelligence : un outil pour l’analyse du web et des réseaux ». I2D - Information, données & documents, 2021/1 n° 1, 2021. p.96-103. CAIRN.INFO, shs.cairn.info/revue-i2d-information-donnees-et-documents-2021-1-page-96?lang=fr.

Lakel, A.

(2021). My web intelligence : un outil pour l’analyse du web et des réseaux. I2D - Information, données & documents, 1(1), 96-103. https://doi.org/10.3917/i2d.211.0096.

https://doi.org/10.3917/i2d.211.0096

Citer cet article

Lakel, A.

(2021). My web intelligence : un outil pour l’analyse du web et des réseaux. I2D - Information, données & documents, 1(1), 96-103. https://doi.org/10.3917/i2d.211.0096.

Lakel, Amar.

« My web intelligence : un outil pour l’analyse du web et des réseaux ». I2D - Information, données & documents, 2021/1 n° 1, 2021. p.96-103. CAIRN.INFO, shs.cairn.info/revue-i2d-information-donnees-et-documents-2021-1-page-96?lang=fr.

LAKEL, Amar,

2021. My web intelligence : un outil pour l’analyse du web et des réseaux. I2D - Information, données & documents, 2021/1 n° 1, p.96-103. DOI : 10.3917/i2d.211.0096. URL : https://shs.cairn.info/revue-i2d-information-donnees-et-documents-2021-1-page-96?lang=fr.

https://doi.org/10.3917/i2d.211.0096

Notes

[1]
https://mywebintelligence.net/en/my-web-intelligence-mapping-web-controversies/
[2]
Le logiciel est téléchargeable à cette adresse : https://github.com/MyWebIntelligence

Amar LAKEL

Description de l'image par IA : Homme âgé avec des cheveux gris, portant une veste noire et une chemise blanche, assis devant un micro.

Amar LAKEL

1My Web Intelligence est un programme que je dirige au sein de l’équipe E3D du Laboratoire MICA (MICA) de l’Université Bordeaux Montaigne [1]. Le programme vise à développer un outil d’extraction (crawl), d’archivage, de qualification et de visualisation du Web au service des digital methods. L’objectif est de fournir, à tous les experts et chercheurs qui souhaitent développer des études dans le domaine de l’intelligence numérique et des humanités digitales, un dispositif basé sur l’analyse des prises de parole en ligne.

Crawler le web : un échantillonnage de proche en proche

2My Web Intelligence s’appuie sur les moteurs de recherche web pour obtenir un premier corpus de documents pour démarrer la collecte d’informations. En croisant les sources des différents types d’infomédiaires, on multiplie les rationalités algorithmiques qui nous font entrer dans notre espace public numérique. À partir de ce corpus de premier niveau, l’exploration continue des liens sortants qualifiés permet de s’enfoncer dans les couches profondes du web pour obtenir le territoire numérique le plus complet possible au cœur de nos préoccupations. Ainsi, entre crawl profond et évaluation progressive des informations les plus pertinentes au regard de son dictionnaire projet, la plate-forme, travaillant en tâche de fond, finit par constituer un territoire d’informations traitant d’un sujet donné. Le crawler est donc une machine à échantillonner sur une méthode de proche en proche. Mais il faut nécessairement l’associer à des algorithmes d’approbation qui se doivent de rejeter le bruit et de classer les documents dans un ordre de priorité. L’extracteur de corpus en charge de la constitution des archives numériques embarque un navigateur web en charge d’absorber les ressources numériques qui est doté de la capacité d’extraire le contenu éditorial de la page (en mode readable) et d’isoler les documents multimédias de ce contenu (détections des liens hypertextes, détection des médias, etc.). Si le document est jugé pertinent, les liens hypertextes sont explorés pour récupérer les documents cités. De proche en proche, le crawler extrait un échantillon semi-représentatif du web.

Figure 1

Codes sources sur Github en licence open-source MIT

Description de l'image par IA : Page GitHub de My Web Intelligence avec plusieurs dépôts en licence MIT, incluant des projets en Python et JavaScript.

L'image montre la page d'un dépôt GitHub d'une organisation nommée "My Web Intelligence". En haut, le logo de l'organisation est visible, ainsi que des liens vers leur site web et leur profil Twitter. La page est divisée en plusieurs sections. En haut à gauche, il y a une barre de navigation avec des options pour "Dépôts", "Packages", "People" et "Projects". Sous cette barre, il y a une barre de recherche pour trouver un dépôt spécifique. La section principale de la page est intitulée "Dépôts" et affiche trois dépôts différents : 1. "MyWebIntelligencePython" : Ce dépôt est classé comme un "Python App" et utilise la licence MIT. Il a été mis à jour il y a cinq jours. Il contient des icônes pour Python, Jupyter, et d'autres fonctionnalités. 2. "MyWebClient" : Ce dépôt est décrit comme un "Web Client" pour diverses tâches. Il utilise également la licence MIT et a été mis à jour il y a 23 jours. Il contient des icônes pour JavaScript et d'autres fonctionnalités. 3. "MyDocClient" : Ce dépôt utilise la licence MIT et a été mis à jour le 6 décembre 2020. Il contient des icônes pour des fonctionnalités spécifiques. À droite de la liste des dépôts, il y a une section intitulée "Top languages" qui montre que les principaux langages utilisés sont JavaScript et Python. En bas à droite, il y a une section "People" indiquant que l'organisation n'a pas de membres publics et que l'utilisateur doit être membre pour voir qui fait partie de l'organisation. L'image donne une vue d'ensemble des projets et des langages utilisés par l'organisation "My Web Intelligence" sur GitHub.

Codes sources sur Github en licence open-source MIT

Constituer un corpus web : une logique d’assistance au chercheur

3My Web Intelligence est composé de deux briques logicielles [2]. My Web Intelligence Python, une brique logicielle en mode console développée sous python et qui permet d’extraire les données du web : c’est l’agent d’enquête du projet. My Web Client qui permet de naviguer dans son corpus de recherche pour non seulement nettoyer, mais appréhender son corpus par une interface de navigation web. Après l’ouverture d’un projet de recherche, le professionnel doit compléter un dictionnaire de mots clés qui permettra au crawl d’évaluer la pertinence des pages qu’il collecte et auxquels il attribuera une note qui servira, plus tard, aux filtres et exports de corpus. L’entrée et la sortie de données par des fonctions d’import/export, dans le cadre d’un projet, permettent l’export des énoncés en format csv ou gexf (pour l’analyse réseau sous Gephi), des domaines en csv ou gexf (données regroupées à l’échelle du site web), des médias en liste csv (images et vidéo) pour l’analyse visuelle. Les formats csv, gexf et l’utilisation d’une base de données fichier SQLite assurent l’interopérabilité avec tous les logiciels d’analyse du marché (R, iramuteq, etc.). On trouve parmi les variables qui qualifient la page : le titre*, l’URL*, la relevance* (pertinence au regard du dictionnaire projet), depth* (la profondeur d’extraction avec 0 pour les pages ajoutées par l’utilisateur), le domain_id* et le domain_name* (id et nom du domaine d’expression) et son contenu texte*. On ajoute manuellement la date de publication* sur Google et le nombre de partages*, de commentaires*, d’interactions* sur Facebook (obtenus grâce à l’accès à son API). Il faut ajouter les données issues de l’analyse structurale des réseaux que l’on calcule grâce au fichier gexf des pages et le logiciel GEPHI (indegree*, outdegree*, etc.)

4Ce sont en tout pas moins de 23 variables qui viennent identifier le texte et son contexte d’énonciation (inscription dans les réseaux de citation des pairs et réception de son lectorat sur les réseaux sociaux). Un second niveau d’analyse opère par regroupement des expressions au niveau du domaine d’expression que l’on qualifie humainement selon la nature sociale du propriétaire du média (secteurs d’activité, le niveau d’institutionnalisation, type de média numérique, etc.). Aux variables qui visent à inscrire sociologiquement l’équipe éditoriale, on ajoutera les indicateurs MOZ (autorité du site web) et l’Alexa Rank (indicateur d’audience), mais aussi les données des pages engagées dans le débat (somme des partages, des commentaires et réactions totales sur Facebook, nombre de pages engagées dans la controverse, date de la première publication).

Figure 2

Interface de navigation du corpus My Web Client

Description de l'image par IA : Interface de navigation avec divers graphiques et options de filtrage pour un corpus.

L'image représente une interface de navigation pour un corpus intitulé "My Web Client". Cette interface est divisée en plusieurs sections distinctes. En haut à gauche, il y a une barre de navigation avec des options telles que "Home", "Search", "Help", et "Log Out". À côté, il y a une section avec des icônes représentant différentes actions ou fonctionnalités. Au centre, il y a un graphique en barres horizontales avec des étiquettes et des valeurs numériques, probablement pour représenter des données statistiques ou des métriques. À droite, il y a une section avec des boutons et des cases à cocher, permettant à l'utilisateur de sélectionner des options ou de configurer des paramètres. En dessous, il y a une liste de liens ou d'options avec des descriptions courtes, probablement pour naviguer vers différentes parties du corpus ou pour effectuer des actions spécifiques. En bas, il y a une autre section avec des boutons et des cases à cocher, similaire à celle en haut à droite. L'interface semble être conçue pour offrir une navigation intuitive et une gestion facile des données ou des fonctionnalités associées au corpus "My Web Client".

Interface de navigation du corpus My Web Client

Nettoyer les données massives : la gestion collective des corpus

5My Web Intelligence est dotée d’un tableau de bord pour gérer les grands corpus à l’aide d’un certain nombre d’indicateurs. Cette interface de nettoyage et de qualification des données permet, non seulement un contrôle et une suppression du bruit, mais aussi une qualification thématique des pages web. Le nettoyage de données est une étape essentielle dans toute recherche. Pour autant face à la taille des corpus, il ne peut se faire sans l’aide d’une part d’agents algorithmiques et d’autre part par la mobilisation de collectif.

6L’interface My Web Client offre la possibilité à l’utilisateur d’annoter humainement le document. Une gestion des thèmes et des contenus qu’il identifie permet, par la suite, de travailler thème par thème sur l’analyse de contenu soit directement sur l’interface soit en exportant la base de contenu thématisée pour une analyse lexicologique postérieure.

Fig. 3

Interface d’annotation des expressions

Description de l'image par IA : Capture d'écran d'une interface d'annotation avec texte, tags et options de filtrage.

L'image montre une interface d'annotation des expressions pour un livre intitulé "Crépuscule a selon Juan Branco - Alternatives Pyrénées". L'interface est en français et semble faire partie d'un site web ou d'une application de publication de livres. Sur le côté gauche, il y a une barre latérale avec des filtres et des tags pour trier les annotations par thèmes, révisions, classes, auteurs, etc. Le côté droit de l'interface affiche le contenu principal, incluant le texte annoté et des options pour ajouter des annotations. Il y a également une image d'un livre avec le titre "Quel est le sens des mots ?" et une section de contenu tapant. Le texte annoté parle de la captivité et de la gestion des prisons en France, mentionnant des chiffres et des statistiques sur le nombre de personnes incarcérées. L'interface inclut des boutons pour ajouter, modifier, et supprimer des annotations, ainsi que des options pour filtrer et trier les annotations par différents critères.

Interface d’annotation des expressions

Classer, catégoriser et comprendre

7Une fois l’extraction et la qualification des données d’une controverse achevées, My Web Intelligence donne accès à un corpus nettoyé qui permet de pouvoir mettre en place un ensemble de traitements d’analyse et de traitements des données pour tirer véritablement une compréhension de l’économie de la discussion en ligne. Le premier travail est d’utiliser la théorie des graphes et l’analyse structurale des réseaux pour générer des cartographies des médias qui sont à l’origine de la controverse. En effet, derrière les mots, il y a des locuteurs aux commandes de supports médiatiques. Des locuteurs situés et engagés dans un espace public numérique. Il faut non seulement pouvoir qualifier ces médias selon leur nature sociale, leurs comportements éditoriaux, mais il faut avant tout révéler à travers la structure de leurs citations qualifiées, le contexte d’alliance et d’adversité qu’ils tissent dans les processus de légitimation, mais aussi d’opposition. « Dis-moi qui tu cites, quelles sont tes références et je te dirai qui tu es. »

8Une vision globale et structurale des acteurs révèle non seulement la structure des alliances et des oppositions, mais elles révèlent les communautés d’intérêts idéologiques et situe chaque média selon un rôle social dans le débat et au sein de sa communauté (leader d’opinion, vigie, marginal sécant, bridge, etc.). Cette recontextualisation du locuteur au cœur de ses « amis » nous informe sur la position sociale du média au sein d’une communauté stratégique.

Fig. 4

Cartographie médias de la couverture des Gilets Jaunes de oct. 2018 à juin 2019

Description de l'image par IA : Carte complexe des médias couvrant les Gilets Jaunes de 2018 à 2019, avec des nœuds et des liens colorés.

L'image représente une carte complexe et colorée des interactions et des relations entre divers médias et sources d'information concernant la couverture des Gilets Jaunes de octobre 2018 à juin 2019. La carte est divisée en plusieurs clusters distincts, chacun représenté par une couleur différente. Ces clusters semblent regrouper des médias similaires ou des sources d'information interconnectées. Au centre de l'image, plusieurs nœuds de grande taille sont visibles, indiquant des médias ou des sources d'information influents. Ces nœuds sont entourés de nombreux nœuds plus petits, représentant d'autres médias ou sources qui interagissent avec eux. Les lignes entre les nœuds montrent les connexions et les interactions entre ces différentes sources. Les clusters principaux sont colorés en vert, bleu, violet, orange et rouge, suggérant des groupes distincts de médias ou de sources d'information. Par exemple, le cluster vert semble inclure des médias comme "www.lemonde.fr" et "www.francetvinfo.fr", tandis que le cluster violet inclut des sources comme "www.leparisien.fr" et "www.lefigaro.fr". Les connexions entre les nœuds varient en épaisseur et en couleur, indiquant la force et la nature des interactions entre les différentes sources. Les lignes plus épaisses et plus sombres montrent des interactions plus fortes, tandis que les lignes plus fines et plus claires montrent des interactions plus faibles. Dans l'ensemble, l'image offre une vue d'ensemble des dynamiques et des relations entre les médias couvrant les Gilets Jaunes sur une période de plusieurs mois, mettant en évidence les principaux acteurs et leurs interactions.

Cartographie médias de la couverture des Gilets Jaunes de oct. 2018 à juin 2019

Analyse des graphes et analyse de contenus : des pistes nouvelles ?

Figure 5

Analyse lexicale des pages web traitant de la Smart City en 2020

Description de l'image par IA : Carte complexe de mots liés à la Smart City, avec des nœuds et des connexions colorées.

L'image représente une carte lexicale complexe et colorée, probablement générée par un outil d'analyse de données. Cette carte est composée de nombreux nœuds (cercles) et de liens (lignes) qui relient les nœuds entre eux. Les nœuds sont étiquetés avec des mots ou des termes, et leur taille semble varier, indiquant peut-être la fréquence ou l'importance de ces termes dans l'analyse. Au centre de la carte, des termes comme "paris", "urbain", "technologie", "citoyen", "innov", "servic", "durabl", "entrepris", "polit", "cit", et "lyon" sont bien visibles et semblent être des mots clés principaux. Ces termes sont entourés de nombreux autres mots connexes, créant un réseau dense de relations lexicales. Les couleurs des lignes et des nœuds varient, ce qui pourrait indiquer différentes catégories, relations ou fréquences. Par exemple, certaines lignes sont colorées en bleu, vert, rouge, et orange, suggérant des groupes ou des thèmes distincts au sein de l'analyse. Les termes périphériques incluent des mots comme "internet", "économie", "habitant", "énergie", "public", "transport", "environnement", "ville", "gestion", et "social", entre autres. Ces mots sont interconnectés avec les termes centraux, formant un réseau qui illustre les relations et les thèmes associés à la Smart City en 2020. En résumé, cette carte lexicale offre une visualisation détaillée des termes et des relations les plus pertinents dans le contexte des villes intelligentes en 2020, mettant en évidence les principaux mots clés et leurs connexions.

Analyse lexicale des pages web traitant de la Smart City en 2020

9Enfin, l’analyse des graphes peut être utilisée pour comprendre la structuration argumentaire. La cartographie de mots-clés révèle alors une structure du dictionnaire qui est le produit latent de la construction de la réalité par la prise de parole dans des médias donnés. La cartographie dynamique argumentaire permet de retracer la genèse des stratégies argumentatives. L’utilisation des variables topologiques des graphes nous permet de comprendre aussi le rôle et la place de chaque concept dans une stratégie argumentaire globale. En réalité les sujets qui prennent position dans une controverse sont dans leur très grande majorité des porte-paroles qui habitent des discours qui leur préexistent et qu’ils travaillent à la marge. La controverse voit rarement la création innovante d’arguments et bien plus souvent une prise de position sur des arbres argumentaires toujours déjà là dans des énoncés produits comme des mêmes. Elle permet surtout de repérer les émergences et les innovations, la diffusion voire la viralité de certains concepts.

Bibliographie indicative

Lakel, A. 2019. « Prises de positions et influences sur le web : le cas de l’information de santé ». Revue française des sciences de l’information et de la communication (18). doi: 10.4000/rfsic.8376.
Lakel, A., et Le Deuff, O. 2017. « À quoi peut bien servir l’analyse du web ? » Les Cahiers du numérique, 13(3) :39-62.
Des vidéos de formation au niveau de la démarche et de la prise en main de l’outil sont disponibles en vidéo : My Web Intelligence - Formations https://www.youtube.com/playlist?list=PLbCMGWVe0gqGjHwqSwz9TT5nhTFWpthQZ

Mots-clés éditeurs : analyse réseaux, cartographie web, Corpus web Crawler, Digital Studies, viralité informationnelle

Date de mise en ligne : 24/05/2021

https://doi.org/10.3917/i2d.211.0096

Compte personnel

My web intelligence : un outil pour l’analyse du web et des réseaux

Notes

Citer cet article

Notes

Amar LAKEL

Amar LAKEL

Crawler le web : un échantillonnage de proche en proche

Codes sources sur Github en licence open-source MIT

Codes sources sur Github en licence open-source MIT

Constituer un corpus web : une logique d’assistance au chercheur

Interface de navigation du corpus My Web Client

Interface de navigation du corpus My Web Client

Nettoyer les données massives : la gestion collective des corpus

Interface d’annotation des expressions

Interface d’annotation des expressions

Classer, catégoriser et comprendre

Cartographie médias de la couverture des Gilets Jaunes de oct. 2018 à juin 2019

Cartographie médias de la couverture des Gilets Jaunes de oct. 2018 à juin 2019

Analyse des graphes et analyse de contenus : des pistes nouvelles ?

Analyse lexicale des pages web traitant de la Smart City en 2020

Analyse lexicale des pages web traitant de la Smart City en 2020

Bibliographie indicative

Accès institutions

Toutes les institutions