Article de revue

Contextualisation du discours politique

Pages 63 à 84

Citer cet article


  • Hamzaoui, O.,
  • Jiménez, T.,
  • Lagier, C.
  • et SanJuan-Ibekwe, E.
(2019). Contextualisation du discours politique. Document numérique, . 22(1), 63-84. https://stm.cairn.info/revue-document-numerique-2019-1-page-63?lang=fr.

  • Hamzaoui, Ouassim.,
  • et al.
« Contextualisation du discours politique ». Document numérique, 2019/1 Vol. 22, 2019. p.63-84. CAIRN.INFO, stm.cairn.info/revue-document-numerique-2019-1-page-63?lang=fr.

  • HAMZAOUI, Ouassim,
  • JIMÉNEZ, Tania,
  • LAGIER, Christèle
  • et SANJUAN-IBEKWE, Eric,
2019. Contextualisation du discours politique. Document numérique, 2019/1 Vol. 22, p.63-84. URL : https://stm.cairn.info/revue-document-numerique-2019-1-page-63?lang=fr.

1 – Introduction

1L’importance du discours politique dans l’analyse politologique est une évidence, mais l’on ne peut que constater que la science politique, malgré les écrits précurseurs de F. Bon (1985), tout comme les autres disciplines qui s’intéressent au politique, n’a accordé dans les faits qu’un intérêt plutôt limité et relativement récent aux approches langagières. C’est notamment le constat que dressent Paul Bacot et al. dans la présentation qu’ils font du numéro spécial célébrant le trentième anniversaire de la revue Mots. Les langages du politique, “Trente ans d’étude des langages du politique (1980-2010)” (Bacot et al., 2010). Une sorte de partage se serait effectivement instauré entre d’un côté la linguistique et l’herméneutique qui prendraient au sérieux l’étude des dynamiques intrinsèques des faits de langage, et de l’autre les sciences sociales du politique qui quant à elles, soit s’en détourneraient pour ne se focaliser que sur leurs conditions sociales de production, soit en proposeraient une analyse de type linguistique dont les axes seraient totalement subordonnés à la caractérisation de ces mêmes conditions sociales.

2Cette summa divisio qui placerait donc définitivement la science politique du côté des analyses externalistes et la rendrait en quelque sorte incompatible avec l’adoption d’une perspective internaliste, nous semble à l’instar de Ph. Braud, “trompeuse ou, du moins, réductrice”. Elle ne permettrait pas en effet de saisir que l’apport de la science politique à l’étude des langages du politique, ne réside pas dans un parti pris méthodologique, mais dans la formulation d’un problème scientifique spécifique, à savoir : celui des “conditions d’efficacité politique du langage” ; et donc de toute forme de langage contribuant à “influencer les modes d’exercice du pouvoir politique en pesant sur les représentations que s’en font les agents sociaux” (Braud, 2010, 143). Aussi, conviendrait-il davantage de considérer que ce questionnement peut tout aussi bien être décliné selon différentes perspectives. Une externaliste s’intéressant aux contextes de production des langages, aux dispositifs régissant leur diffusion, aux conditions sociopolitiques de leur réception. Une autre internaliste se centrant sur la dynamique discursive elle-même, et cherchant notamment ce faisant à mettre en lumière les ressorts et les capacités de la mobilisation politique inhérents à la construction proprement textuelle (i.e. la structuration de la sélection des mots) du discours politique.

3Nous choisissons ici d’entrer dans le discours en le prenant au sérieux non pas pour le décrypter mais pour décrire les chemins qu’il emprunte. Nous nous intéressons plus particulièrement à un discours politique controversé, le discours du Front National, nouvellement Rassemblement National, représentant politique hégémonique de l’extrême-droite française depuis plus de 40 ans. Ce discours, construit historiquement sur l’anticommunisme et la dénonciation sociale de l’immigration (Igounet, 2014, 91-92) emprunte, depuis l’accession de Marine Le Pen à la tête du parti, des détours genrés assez surprenants pour une formation plutôt viriliste. Nous souhaitons interroger la place qu’occupent dans ce discours les références à l’identité féminine, la féminité, les symboles du féminisme, les combats en faveur du droit des femmes afin d’objectiver les conditions de leurs détournements.

4Mais sur quelles bases analytiques et méthodologiques ? Nous proposons dans cet article d’expérimenter les approches de “contextualisation” automatiques (Bellot et al., 2015) de textes courts à partir du Wikipedia pour les appliquer à ce discours. La tâche n’est donc pas de trouver une réponse exacte dans une base de données de faits, mais de faire ressortir l’arrière-plan du message exclusivement basé sur son contenu textuel. Cette approche est susceptible de fournir à l’utilisateur des informations synthétiques et contextuelles lors de la réception d’un communiqué politique par un prolongement contextualisé et qualitatif.

5Selon Bellot & al. (Bellot et al., 2015) la réponse peut être construite par agrégation de passages textuels extraits d’une ressource de référence (Wikipedia dans notre cas). Pour certains sujets, il peut y avoir trop d’extraits pertinents pour être tous insérés dans la réponse, nécessitant un processus de synthèse qui préserve globalement l’informativité. Pour d’autres, peu d’informations peuvent être disponibles et la réponse devrait être plus courte que prévu soulignant le manque d’informations disponibles.

6Le Wikipedia anglais est la ressource encyclopédique la plus complète à l’heure actuelle et aussi la plus populaire. Les résultats obtenus dans (Bellot et al., 2015) dépendent de cette exhaustivité. Pour pouvoir étudier les discours en français nous procédons alors par traduction automatique des textes. Si ce procédé n’est pas exempt de biais sur lesquels nous reviendrons (section sept), il est d’abord un moyen de s’abstraire des éléments de langage tout en conservant les valeurs. Enfin, nous étudions l’utilité des mesures d’informativité proposées pour évaluer objectivement la distance relative entre un discours et un ensemble de concepts.

7Le reste de l’article est organisé comme suit : En section deux, nous présentons l’état de l’art en sciences sociales et en recherche d’informations (RI) relatif à la contextualisation du texte. En section trois, nous précisons les motivations de notre démarche. En section quatre, nous présentons le corpus de textes à contextualiser. En section cinq, nous décrivons le système avec lequel nous avons expérimenté. En section six, nous présentons les résultats de cette expérimentation. En section sept, nous discutons plus précisément de l’impact de l’utilisation du Wikipedia anglais pour cette expérimentation. Finalement, nous dressons les conclusions et perspectives en section huit.

2 – La contextualisation comme proposition analytique et méthodologique d’étude du discours politique

2.1 – Ce que contextualiser le discours politique veut dire ?

8Que peut apporter la « contextualisation » à l’analyse du discours politique, et même à l’analyse politique (au sens de politologique) du discours politique ? La notion de contextualisation appliquée au discours ne doit pas être entendue ici au sens du « contextualisme » pratiqué par Q. Skinner en histoire de la philosophie politique, et qui vise à analyser le discours politique (sur le politique) en le réinscrivant dans le contexte intellectuel, politique et social de son énonciation (Skinner, 2009). La contextualisation, qui se veut tout à la fois processus analytique et procédé méthodologique, propose quant à elle de révéler la « con-textualité » – voire même con-textuelité – du discours politique ; c’est-à-dire d’appréhender ce dernier au travers de la parenté textuelle qu’il entretiendrait avec d’autres énoncés. Autrement dit, tout en cherchant à se maintenir dans l’instance même du discours (Lahire, 1999) – sans vouloir donc le confronter à ses conditions extra-linguistiques –, la contextualisation n’adopte pas la perspective de la proximité lexicale, mais davantage celle des similarités textuelles.

9Les mots rendent peut-être compte des termes d’un discours, mais ils n’en livrent pas la teneur textuelle ; ce qui rend leur analyse particulièrement sensible à l’imposition d’éléments de langage et autres modes discursifs. Du mot au texte, il y a la multitude des autres mots choisis et l’ordonnancement de ces derniers ensemble. Aussi, prétendre étudier le texte d’un discours revient donc à partir de l’objectivation des fragments d’ordonnancements choisis de mots eux-mêmes choisis que sont les phrases et/ou bouts de phrases. C’est au travers de ces singularités locutoires et par leur repérage qu’est déterminée et attestée la parenté textuelle existant entre un discours en l’espèce politique et un ensemble d’énoncés extraits d’un corpus de référence. Le sens du discours n’est donc pas saisi sur le plan uniquement termino-logique de l’analyse des lexiques et de leurs champs, mais bien plutôt considéré comme provenant de sa texture locutoire. L’agencement de locutions qui caractériserait chaque texte en propre ne se limiterait toutefois pas selon nous à définir d’un point de vue linguistique une forme de langage, mais figurerait davantage une logique, voire un système conceptuel. Dès lors, contextualiser le discours politique, permettrait de l’aborder depuis son « parler conceptuel », ou encore ses « concepts parlés ».

10La proposition de contextualisation du discours politique revient donc à interroger celui-ci sur ce qu’il veut dire conceptuellement ; à rechercher l’armature interne des principales expressions de sens qui lui donnent forme. Mais cette interrogation, cette recherche, ne sont pas conduites dans une perspective essentialiste et internaliste : il ne s’agit pas de dire ce qu’est conceptuellement le sens d’un discours, pris en lui-même et pour lui-même. La démarche vise davantage, selon une modalité constructiviste, à appréhender un discours par l’extériorité de ses voisinages textuels. L’objectif est donc de comprendre conceptuellement un discours en recherchant de quels énoncés son texte serait proche ; voire même, de quels énoncés son texte serait même tellement proche qu’il pourrait presque passer pour avoir été généré à partir d’eux. Loin d’être rhétorique, c’est très précisément cette dernière hypothèse qui est ici testée. Plus exactement, c’est cette possibilité hypothétique - puisqu’il n’est aucunement question d’attester ce faisant d’une réelle filiation pratique comme s’il s’agissait de révéler un quelconque plagiat - qui nous sert de tuteur pour proposer un renouvellement de l’analyse du discours politique. Par la découverte de sources et contenus présentant une parenté conceptuelle, mais qu’une analyse spécifiquement focalisée sur tel ou tel discours n’aurait pas recherché au départ, cette épreuve artificielle (au sens de Turing) vise à caractériser de façon inédite les constructions de sens qui innervent et animent le discours politique.

2.2 – De la contextualisation au modèle de langue (et inversement) : état de l’art et méthodologie

11La question de savoir comment représenter un texte court pour le comparer à l’ensemble des contenus d’une large ressource documentaire et en extraire les documents les plus pertinents a été récurrente en RI (Bellot, 2011).

12Les concepteurs de systèmes de RI ont généralement le choix entre représenter les requêtes et les documents sous forme d’unités uniques (sac de mots) ou avec des motifs plus longs qui peuvent être des expressions nominales, des termes multimots, des n-grammes, des expressions fixes, des collocations ou des portions de texte. Le choix des unités de texte plus longues pose naturellement la question de savoir comment les identifier d’abord dans les requêtes, puis dans les documents, et comment les représenter dans un modèle RI.

13Deux approches principales ont été explorées à cette fin : le modèle linguistique (Carballo et Strzalkowski, 2000), qui soulève à son tour la question du rôle du traitement automatique du langage naturel (TALN) dans la RI ; et des modèles de langage statistiques ou probabilistes (LM : Language Model). L’approche LM (Metzler et Croft, 2003) s’inspire de la recherche sur la reconnaissance de la parole et peut modéliser la recherche de séquences de mots, mais toujours d’un point de vue strictement statistique, en utilisant les fréquences.

14Malgré le succès apparent de la représentation par sac de mots dans certaines tâches RI, il est apparu que certains facteurs, principalement liés à la longueur de la requête et au type de document (général ou technique), influencent les performances des systèmes RI. Par exemple, (Carballo et Strzalkowski, 2000) ont montré que la représentation de requêtes et de documents par des phrases plus longues peut améliorer les performances des systèmes car ces unités de texte sont par nature plus précises et permettent de mieux comprendre les besoins en informations exprimés dans les requêtes. En outre, (Carballo et Strzalkowski, 2000) ont conclu que la question d’utiliser ou non le TALN et des phrases plus longues produirait de meilleurs résultats si elle était centrée sur la représentation des requêtes plutôt que sur les documents eux-mêmes. Peu importe la richesse et la complexité de la représentation des documents, une mauvaise représentation des besoins en information (requêtes brèves de un à deux mots) conduira finalement à de mauvaises performances d’extraction. Sur la base de ces conclusions, nous abordons ici le problème de la représentation de très longues requêtes, ici des communiqués de presse politiques, par extraction et sélection d’un type de phrase particulier qui sont des termes multimots (TMMs).

3 – Déconstruire le discours politique : des mots d’ordre à l’ordre des mots

15Par essence publique, l’énonciation du discours politique n’en demeure pas moins paradoxalement hermétique. Aussi, la fonction fondamentale du dire politique ne peut aucunement être limitée à la transmission d’informations. Ici plus qu’ailleurs peut-être, une approche sémantique qui ne s’en tiendrait qu’à cette dimension explicite, ne pourrait que rendre incompréhensible l’activité effective qui génère et constitue le discours politique ; aveugle qu’elle serait aux différents niveaux d’énonciation par lesquels ce dernier instaure un « réseau de rapports implicites » (Ducrot, 1997) qui remplit une fonction de mise en ordre du monde. Appartenant fondamentalement aux discours d’influence « dont le but est d’agir sur l’autre pour le faire agir, le faire penser, le faire croire, etc. » (Ghiglione, 1989), le discours politique n’est pas fait que d’entendement et de rationalité. Structurée de façon déterminante dans le but d’emporter l’adhésion et littéralement d’imposer des « divisions du monde social » (Bourdieu, 1981), la discursivité politique doit être appréhendée comme une machine à produire des mots d’ordre, c’est-à-dire, un ensemble d’instructions délimitant la manière vraie et véritable de voir le monde et conséquemment la façon juste et légitime d’agir dans ce monde. Aussi, renvoyant censément au « débat argumenté » et y étant jusqu’à la caricature incessamment renvoyé, le discours politique fonctionne pourtant fondamentalement en se tenant et se déployant, tout à la fois en deçà et au-delà de ces arguments (thématiques ou logiques) par lesquels son sens transite, sans s’y réduire totalement.

16Sans déconsidérer ce faisant les propositions visant à rendre compte du discours politique par l’étude de son argumentation (Amossy et Koren, 2010), ni non plus limiter ce type si particulier de discours à son ethos, c’est à dire sa façon d’en appeler au sentiment et à la séduction (Bonnafous et al., 2003), l’intention ici est de souligner que cet objectif de persuasion et d’imposition de sens fait nécessairement du discours politique une « parole manipulée » (Breton, 1997). Aussi l’appréhension de la construction énonciative de ce dernier au travers de ce qu’on appelle « l’analyse du discours » (pour ne pas parler des analyses lexicométriques) s’expose-t-elle toujours intimement au risque de reprendre à son compte, voire de relayer (même sous un format objectivé) les concaténations lexicales élaborées dans et par le travail de fabrication discursive d’un sens politique. Cette fragilité consubstantielle de la démarche internaliste, lorsqu’elle se confronte aux pratiques et techniques de brouillage et de verrouillage de la parole qui structurent l’énonciation du discours politique, n’en est rendue que plus aiguë par l’effet croissant « des contraintes politiques, institutionnelles, médiatiques et économiques qui pèsent sur la fabrication, la diffusion et la circulation des discours politiques dans le cadre des démocraties représentatives » (Ollivier-Yanniv, 2010). Les formes que prend le discours politique, qu’il s’agisse des communiqués de presse ou des discours de meeting, doivent effectivement être appréhendées comme des dispositifs sociaux particuliers de construction d’une « énonciabilité » (Foucault, 1969), qui reposent sur des savoir-faire collectifs de transformation et de reformulation des énoncés et de leurs contenus (Krieg-Planque, 2006).

17Bien que semblant fournir un surplus de justification à la critique bourdieusienne des postures qui n’analyseraient pas linguistiquement les textes depuis leur contexte sociologique de production (Bourdieu, 1992 ; Neveu, 2010), ce constat n’annihile toutefois pas – et c’est tout l’enjeu de notre démarche – la possibilité de déconstruire le discours politique depuis une perspective analytique et méthodologique qui voudrait s’en tenir à la dimension proprement discursive. Il invite tout au contraire à imaginer et expérimenter des modalités nouvelles pour « équiper » cette dernière de telle sorte qu’elle soit en mesure de déjouer cette dynamique d’enclosure qui structure les formes publicisées du discours politique. Tout en reconnaissant les mérites de la démarche consistant à « pluridimensionnaliser » l’analyse de discours afin de saisir, de façon d’abord cloisonnée, puis corrélée, les différents niveaux fondamentaux de la construction du sens des discours (notamment syntaxique, sémantique, énonciatif, interactionnel) (Delmas, 2012 ; Haddad, 2017), notre proposition suggère de confondre les mots d’ordre (et notamment les dits « éléments de langage » qui en sont l’actuelle forme paroxystique) par le recours à un dispositif permettant justement de mettre en lumière les structures de mise en ordre des mots ; celles-là même qui composent et spécifient la textualité d’un discours. En effet, la stratégie mise en œuvre dans notre méthodologie consiste à latéraliser l’entrée dans la matérialité du discours politique ; et ce au moyen d’un double contournement. Premièrement, car nous proposons de rendre compte de ce dernier, non pas en lui-même et pour lui-même, mais au travers de sa con-textualité. Deuxièmement, car cette con-textualité est formalisée de manière probabiliste et dé-contextualisée (au sens socio-linguistique du terme). Autrement dit, c’est en rendant doublement indirecte la lecture du discours politique que nous prétendons lui appliquer le « doute hyperbolique » (Bourdieu, 1993) indispensable pour nous prémunir de sa performativité analytique. Pour imager et rendre peut-être plus concret l’esprit de cette proposition, disons que nous nous figurons l’énoncé politique comme un « logiciel » – celui-ci se définissant en effet comme un ensemble ordonné et structuré d’instructions remplissant une fonction déterminée – et que l’appareillage que nous proposons fonctionne comme un « crack » qui permet (sous l’effet conjugué de la contextualisation, du modèle de langue et du corpus de référence) d’en modifier le code, et ainsi d’en contourner les limitations. En l’espèce, cet article cherche à « cracker » le « code » genré du « logiciel » d’extrême-droite.

4 – Des communiqués politiques comme corpus de requêtes de RI

18Nous travaillons sur un corpus de communiqués de presse politiques en français émis par Marine Le Pen et Marion Maréchal Le Pen, ils leurs sont du moins nominativement attribués sur le site du Rassemblement National et distingués de ceux produits par d’autres responsables du parti. Nous avons choisis de concentrer l’attention sur leurs réactions aux faits d’actualité susceptibles de stimuler des références ponctuelles au thème du genre ou de la féminité. Pour opérer un premier choix dans les discours produits et constituer un corpus relativement significatif, nous avons prélevés manuellement l’ensemble des communiqués de presse produits par Marine Le Pen et Marion Maréchal Le Pen entre le 16 juillet 2011 (date du premier communiqué de Marine Le Pen référencé sur le site du Rassemblement National) au 20 novembre 2018. Ce corpus de discours politique numérique, et à disposition, est par définition fortement contrôlé ou institutionnalisé par les gardiennes doctrinales du parti. Les communiqués de presse signés par Marine Le Pen représentent l’équivalent de 150000 mots, soit 617 communiqués de presse de 370 mots en moyenne (moyenne réalisée sur la base d’une vingtaine de communiqués sélectionnés aléatoirement). Ceux signés par Marion Maréchal Le Pen représentent de leur côté près de 36330 mots, soit 144 communiqués de presse de 270 mots en moyenne (moyenne réalisée également sur la base d’une vingtaine de communiqués sélectionnés aléatoirement). Ce corpus présente l’avantage de couvrir l’intégralité de la période depuis la prise de fonction de Marine Le Pen à la tête du parti, d’y voir surgir (puis disparaître) la figure médiatique de Marion Maréchal Le Pen, de comparer les discours des deux leaders et le partage des thèmes abordés dans le temps normal de la politique mais aussi à la faveur des différents scrutins présidentiels, européens et locaux de la période. Le Rassemblement National a, de ce point de vue, investi depuis de nombreuses années déjà le credo du féminisme en diffusant diverses formes de racialisation des rapports de sexe concourant à présenter l’immigration comme une menace pour les droits des femmes européennes et/ou blanches notamment et a su également au passage détourner le concept de laïcité (Scrinzi, 2017). Pour la sélection des cas présentés dans cet article, nous avons opéré une sous-sélection des communiqués de presse rassemblés à partir de quelques mots clefs liés aux thématiques genrées et aux sujets médiatiques qui ont pu les faire émerger ces dernières années :

19genre-femme-LGBT-avortement-IVG-contraception-viol-(homo)sexuel-voile

20Ce sous-corpus représente l’équivalent de 15615 mots, soit 26 communiqués rédigés par Marine Le Pen et 15 par Marion Maréchal Le Pen.

5 – Système de contextualisation adapté de INEX 2013

5.1 – Présentation du système de référence

21Nous adaptons les outils développés lors de la campagne d’évaluation de systèmes de contextualisation de textes courts INEX Tweet Contextualization (Bellot et al., 2015). Dans ce cadre informatique, la contextualisation de textes courts est définie comme la génération d’un résumé devant fournir des informations complémentaires relatives au contenu du texte, qui pourrait nécessiter une explication sans que le lecteur en ait conscience a priori. Fournir un tel résumé de façon automatique implique de s’appuyer sur des ressources disponibles pour le constituer. Elle a été ainsi approchée comme une tâche de génération de résumés orientés par une requête de recherche d’information, où les documents à résumer sont trouvés par un moteur de recherche sur une ressource de référence.

22La collection de documents utilisés servant de source à la contextualisation a été construite sur la base d’une version (dump) de Wikipédia en anglais de novembre 2013. Elle a été figée pour permettre de répliquer les résultats et est disponible en ligne [1]. Nous avons « nettoyé » les documents afin d’obtenir un corpus XML simple pour une extraction facile des réponses en texte brut. Après suppression de toutes les notes et références bibliographiques difficiles à manipuler, seules les 3 217 015 pages non vides de Wikipedia (pages comportant au moins une section) ont été conservées. Les documents résultants sont composés d’un titre, d’un résumé et de sections. Chaque section possède un sous-titre. Le résumé et les sections sont composés de paragraphes et chaque paragraphe peut contenir des entités qui font référence à d’autres pages Wikipédia.

23Les organisateurs de la campagne ont fourni un système de référence pour procéder à la recherche d’information ciblée et à l’extraction d’un résumé. L’extraction des 64 pages les plus pertinentes se fait avec le système Indri (Metzler et Croft, 2004) en utilisant le modèle de langage avec le lissage de Dirichlet (Metzler et al., 2005) dans son mode par défaut. Ce système permet l’utilisation de requêtes complexes en langage Indri adapté à la recherche par termes multimots (TMMs) et non seulement par simple sacs de mots.

24Une fois extraits les documents les plus pertinents selon ce modèle et vis à vis de la requête utilisée, un résumé est constitué par extraction et ordonnancement de 20 phrases. Nous détaillons ici l’algorithme utilisé à INEX 2011 qui a été initialement introduit en (Chen et al., 2010) mais partiellement documenté. Tous les documents extraits sont segmentés en phrases et morpho - syntaxiquement étiquetés. Seuls les nominaux sont conservés. Les verbes, adverbes et articles sont ignorés. Les mots conservés sont réduits à leurs lemmes. Les phrases sont ainsi réduites à de petits sacs de lemmes. Elles sont ensuite pondérées de la manière suivante. Soit Φ l’ensemble des phrases. Si pour chaque phrase f ∈ Φ on note φf l’ensemble de ses nominaux, et si on note ϕ la requête initialement utilisée pour extraire les documents, alors le score de la phrase calculé par le système de référence proposé à INEX 2011 (SanJuan et al., 2012) en application de (Chen et al., 2010), est simplement :

25
Description de l'image par IA : Thêta majuscule en normal indice phi position de base égale sommation début souscript phi indice phi position de base intersection phi indice tau position de base pas égal à ensemble vide en normal début suscript tau appartient à Phi majuscule en normal fin scripts sommation début souscript phi indice tau position de base intersection phi indice sigma position de base pas égal à ensemble vide en normal début suscript sigma appartient à Phi majuscule en normal fin scripts début valeur absolue phi indice phi position de base intersection phi indice tau position de base fin valeur absolue multiplié par début valeur absolue phi indice tau position de base intersection phi indice sigma position de base fin valeur absolue

26L’idée est de pondérer les phrases en fonction du nombre de phrases dans leur voisinage partageant au moins un nominal avec la requête utilisée pour extraire les documents. L’ergonomie du système proposé à INEX permet une interaction rapide avec l’utilisateur et l’élaboration de requêtes complexes à la lecture des résumés extraits.

27Enfin, un ensemble des mesures de recouvrements lexicaux dites « d’informativité » sont proposées dans (Bellot et al., 2015) pour évaluer la proximité thématique entre le texte à contextualiser et le résumé produit. Dans l’expérimentation qui suit nous rapportons deux de ces mesures : Kulback-Leibler et LogSim.

5.2 – Adaptation de ce système à la contextualisation de communiqués politiques en français

28Pour adapter le système de référence à notre objet, nous procédons en quatre étapes :

  1. Traduction du texte en anglais.
  2. Extraction et sélections de termes multimots pour constituer une requête de recherche d’information.
  3. Recherche d’information ciblée dans le Wikipedia et extraction d’un résumé de contextualisation.
  4. Calcul de recouvrements lexicaux entre le résumé produit et le communiqué initial pour évaluer le recouvrement thématique entre les deux textes.

29La figure 1 résume ce processus.

Figure 1

Adaptation du système de contextualisation de microblogs (TC@INEX) à la contextualisation de communiqués politiques

Description de l'image par IA : Analyste demande des textes, extraits de corpus, résultats et évaluation automatique.

Adaptation du système de contextualisation de microblogs (TC@INEX) à la contextualisation de communiqués politiques

30Nous avons utilisé Google translate pour la traduction des communiqués de presse (CP) du français à l’anglais et nous avons procédé à l’extraction des termes multimots (TMM) de ces communiqués de trois manières : par l’analyste ; semi-automatique par analyse morpho-syntaxique du résumé et filtrage de ces TMM candidats par l’analyste ; automatique par sélection des TMM candidats automatiquement extraits selon leur mesure d’entropie calculée pour chaque communiqué.

31Les TMMs sont compris ici dans le sens défini dans la terminologie informatique (Kageura, 2002 ; Castellvi et al., 2001) en tant que dénominations textuelles de concepts et d’objets dans un domaine spécialisé. Les termes sont des unités linguistiques (mots ou expressions) qui, sorties de leur contexte, renvoient à des concepts ou objets existants d’un domaine donné. En tant que tels, ils proviennent d’une terminologie ou d’un vocabulaire spécialisé (Ibekwe-SanJuan, 2006).

32Une requête en langage Indri est alors constituée sur la base des TMMs extraits. Les opérateurs utilisés sont ceux pour rechercher toutes les occurrences dans le corpus de ces termes avec la possible insertion d’un ou deux adjectifs en les pondérant en fonction de leur fréquence dans le communiqué. Nous donnons des exemples de telles requêtes dans la partie expérimentale de cet article et mettons à disposition l’ensemble de celles générées sur le dépôt de données d’INEX (http://tc.talne.eu).

33Nous expérimentons le système de résumé automatique produit à partir de ces requêtes sans modification.

34Le recouvrement thématique entre le CP et le résumé produit ne peut pas être évalué à l’aide de mesures de RI standard et donc déduites ici du modèle de langue utilisé par Indri qui pondère chaque document et chacun de ses passages. En effet, les systèmes de résumé automatique ne cherchent pas à trouver tous les passages pertinents, mais à sélectionner ceux qui pourraient fournir une réponse complète. Plusieurs métriques ont été définies et expérimentées lors des ateliers de DUC (Nenkova et Passonneau, 2004) et TAC (Dang, 2008). Elles reposent toutes sur le calcul de recouvrements lexicaux. Parmi elles, les divergences de Kullback-Leibler (KL) et de Jenssen-Shanon (JS) ont été utilisées (Louis et Nenkova, 2009) pour évaluer le caractère informatif de résumés courts basés sur une série de documents hautement pertinents. Dans cette expérimentation, nous utilisons KL dans sa version discrète LogSim sans lissage probabiliste utilisé lors des campagnes INEX. Les calculs lexicaux reposent sur les fréquences de mots, de paires de mots consécutifs et de paires de mots qui se suivent dans une fenêtre glissante de cinq mots. Comme pour la constitution du résumé, les mots sont réduits à leurs lemmes et les mots vides sont ignorés (articles, coordinations, adverbes etc.). Par contre les verbes sont ici conservés.

6 – Expérimentation

35L’ensemble des données et des programmes utilisés est rendu disponible sur le dépôt de la tâche CLEF/INEX Tweet contextualization à l’adresse :

37Nous procédons à une double expérimentation. La première interactive sur trois communiqués où l’analyste choisit quelques termes dans les communiqués et compare celui-ci au résumé produit. La deuxième où les termes sont extraits automatiquement.

6.1 – Expérimentation interactive

38Trois études de cas ont été envisagées pour essayer de repérer les traces d’une rhétorique proprement féministe, genrée ou féminine dans les communiqués de presse produits par Marine Le Pen et Marion Maréchal Le Pen. Deux premiers communiqués ont été sélectionnés en fonction d’éléments de discours pouvant être directement reliés à la thématique du « genre ». Les sujets choisis sont : l’avortement et les Femens. Les requêtes ont été élargies à « féminisme » et « Simone Veil »

39Le premier communiqué est celui de Marion Maréchal Le Pen, du 2 décembre 2014, sur la question de l’avortement. Dans ce communiqué traduit à l’anglais on trouve les termes multimots : « termination of pregnancy » et « fundamental right » que l’on combine en une requête en langage Indri avec d’autres mots choisis dans le communiqué. On obtient la représentation suivante du communiqué :

40#1(termination of pregnancy) #1(fundamental right) #1(a right) limit supervision balance #1(Simone Veil) pressure feminists physical psychological traumas extremists conservatives

41Celle-ci produit alors un résumé presque exclusivement extrait de la page Wikipédia « Abortion in Spain ». La moyenne des mesures de divergence entre le texte politique et le contenu des pages utilisées et de 0,2916. Celle du résumé directement extrait de ces pages de manière automatique est de 0,2839. Il n’est cependant pas possible de déterminer à ce stade si cet écart est négligeable ou pas.

42Le second communiqué étudié est l’intervention de Marine Le Pen, le 13 février 2013, sur les Femens. On procède de même pour représenter, sous forme de requête Indri, le contenu du communiqué. Nous avons considéré la requête suivante :

43#1(termination of pregnancy) #1(fundamental right) #1(a right) limit supervision balance #1(Simone Veil) pressure feminists physical psychological traumas extremists conservatives.

44La liste des pages Wikipedia référencées présente à nouveau une très forte correspondance avec des sujets directement reliés à la religion : « Notre-Dame Cathedral » ; « Roman Catholicism in France » ; « Religion in Saudi Arabia » ; « International religious freedom caucus ».

45La divergence de ce résumé automatique avec l’ensemble du contenu de ces pages est de 0,1817 tandis que celle du communiqué de presse est à peine supérieure : 0,2152. Une analyse approfondie est cependant nécessaire pour évaluer la significativité de cet écart.

46Enfin, une troisième étude de cas manuelle a été réalisée sur le communiqué de presse de Marine Le Pen du 11 mars 2013. Ceci pour compléter l’analyse en testant des discours un peu plus marginaux par rapport aux questions proprement féminines. Ce communiqué porte sur le thème de l’autisme. La requête en langage Indri que nous avons formée en suivant la même méthodologie fondée sur la reconnaissance des termes multimots est la suivante :

47children medico-educational management autism spectrum disorders France #1(casualties of life) abandonment families distress #1(national solidarity) #1(earlier diagnosis) #3(autism spectrum) #3(training professionals) #1(information to families) public research budgets scientists multidisciplinary reimbursement #1(Health Insurance) liberal sector handicap #3(put away from society)

48De manière inattendue, au vu de la variété des thématiques abordées dans ce communiqué, l’ensemble du résumé automatique produit par le système est extrait d’une seule page : « Centro Ponceño de Autismo ». L’écart de divergences entre le discours et le résumé automatique est là aussi relativement bas : 0,3438 – 0,2912 < 0,06 sans que nous puissions pour autant conclure directement.

49Concernant les deux premiers thèmes reliés fortement aux problématiques genrées à savoir l’avortement et le féminisme, la sélection renvoie essentiellement à la page « Abortion in Spain » à l’occasion du débat, à forte connotation religieuse catholique, qui a traversé le pays suite à la mise en question de ce droit au cours de l’année 2013. Il est étonnant que ce soient principalement les positions fortement catholiques conservatrices de Marion Maréchal-Le Pen qui ressortent alors que le système utilisé est plutôt conçu pour renvoyer vers une diversité de pages plutôt qu’une seule. Plus étonnant encore, le communiqué rédigé par Marine Le Pen sur les Femens renvoie lui à quatre pages essentiellement consacrées à des sujets touchant directement la religion. Du point de vue de la sociologie politique de ce mouvement, s’il s’avère possible d’objectiver ces correspondances, l’opposition entre l’image de femme moderne de Marine Le Pen versus celle plus conservatrice de Marion Maréchal le Pen est à fortement nuancer. La troisième étude de cas suggère elle combien derrière des stratégies de communication genrée, on observe la permanence de discours pro-famille, très cohérente par ailleurs avec la plate-forme programmatique de Marine le Pen et ses 144 engagements pour l’élection Présidentielle 2017 (Marchand-Lagier, 2018).

6.2 – Expérimentation automatique

50L’expérimentation automatique repose sur l’extraction systématique - avec un programme informatique - des syntagmes nominaux des communiqués traduits à l’anglais, et de leur ordonnancement par mesure selon leur fréquence dans le communiqué multiplié par leur longueur. Les 32 premiers syntagmes ainsi classés sont utilisés pour former une requête en langage Indri. Le but de cette pondération est de sélectionner les syntagmes nominaux les plus susceptibles de correspondre aux termes du communiqué. Ce calcul simple est inspiré du calcul d’entropie possible sur de plus longs textes.

51Nous avons procédé à deux variantes. Pour la première, nous avons considéré l’ensemble de ces syntagmes nominaux extraits. Pour la deuxième, nous avons filtré manuellement pour écarter les entités nommées.

52Un groupe de contrôle de 12 communiqués issus du parti socialiste (PS) (téléchargés de la page web : https://www.parti-socialiste.fr/) sur la même période a été ajouté aux 38 communiqués initiaux pour former un ensemble de 50 communiqués. Tous les résumés extraits sont réduits à 20 phrases.

53Sans filtrage des entités nommées, les cinq pages les plus fréquemment utilisées pour les 38 communiqués initiaux sont : « Marine Le Pen presidential campaign » ; « Social security » ; « Network of enlightened Women » ; «  Jean-Luc Mélenchon » ; « French presidential election » ; « Health Care System of Elderly in Germany » ; « Marion Maréchal-Le Pen ». Pour le groupe de contrôle sur le parti socialiste les cinq pages sont : « Civil solidarity pact » ; « Turkish presidential election » ; « Inside Out Film and Video Festival » ; « France Bleu » ; « David Rachline ».

54Avec filtrage des entités nommées, les cinq pages les plus fréquemment utilisées pour les 38 communiqués initiaux sont : « LGBT history in Switzerland » ; « Islam in France » ; « Zabbaleen » ; « LGBT rights in Europe » ; « Gender Equity Education Act (Taiwan) ». Pour le groupe de contrôle sur le parti socialiste les cinq pages sont : « Education in Latin America » ; « Civil solidarity pact » ; « Turkish presidential election » ; « Fulbright Hearings » ; « Healthcare and the LGBT community ».

55Le non filtrage des entités nommées semble donc déterminer le comportement du système qui privilégie systématiquement leur présence. Cependant, une analyse systématique des 13 résumés associés aux communiqués de Marion Maréchal Le Pen et des 12 associés à ceux du PS montre que dans la moitié des cas il n’est pas possible de reconnaître le thème du communiqué à partir du résumé produit. Le tableau 1 procure les résultats exacts. Nous n’avons pas trouvé de corrélation entre ces observations et le calcul de mesures d’informativité qui apparaissent instables dans le cas de contenus lexicaux très éloignés.

Tableau 1

Recouvrement observé manuellement entre les 12 communiqués de presse de chaque parti et les résumés produits par le système. La question posée à l’analyste est de retrouver les thèmes du communiqué initial à partir du résumé produit

RecouvrementFNPS
bonne44
partielle22
vide76

Recouvrement observé manuellement entre les 12 communiqués de presse de chaque parti et les résumés produits par le système. La question posée à l’analyste est de retrouver les thèmes du communiqué initial à partir du résumé produit

56L’expérimentation automatique ne permet donc pas de valider les hypothèses émises lors de l’expérience manuelle. Ainsi les références religieuses n’émergent pas parmi les pages les plus utilisées pour constituer le résumé. Comme anticipé dans l’état de l’art, l’écriture de requêtes RI susceptible de représenter le communiqué est complexe et nécessite soit des développements de fonctions de pondérations des entités importants, soit une meilleure interactivité avec l’analyste pour les contrôler. Une voie à explorer serait la recherche de mesures plus robustes de la qualité du résumé produit au regard du communiqué initial susceptibles d’aider au contrôle automatique des résultats, pour proposer un système qui ne renvoie rien s’il ne trouve rien de pertinent.

7 – Discussion

57Nous analysons ici les qualités et les biais de l’utilisation du Wikipedia anglais comme corpus de référence sur lequel projeter chacun des communiqués de presse ou discours labellisés comme tels. Notre approche a consisté à rechercher l’ensemble relativement délimité de fragments du corpus de référence, qui caractériserait le modèle de langage à partir duquel tel ou tel extrait de discours politique aurait pu être généré ; l’objectif étant que la globalité des notions et références structurant la textualité politique se retrouve dans l’extraction produite à partir du corpus de référence. Compte-tenu de la perspective probabiliste que suppose le recours au concept de modèle de langage, le corpus choisi pour objectiver la con-textualité du discours politique se devait en tout premier lieu d’atteindre une certaine masse critique. Or, l’extraordinaire – et tous azimuts – progression quantitative du Wikipedia dès son lancement au tout début des années 2000 (Voss, 2005) en fait une ressource particulièrement opportune, et désormais assez largement considérée comme telle par une part croissante de la littérature scientifique, notamment en matière de TALN (Medeylan et al., 2009).

58Outre l’argument de leur complète accessibilité, celui du volume de mots, et celui relatifs à la qualité, aussi bien des contenus (Giles, 2005) que de la « couverture topique » (Halavais et Lackaff, 2008), les recherches qui justifient de l’usage du Wikipedia en tant que corpus, mettent également en avant un aspect qui s’avère tout particulièrement déterminant pour notre approche, à savoir : les modalités procédurales d’obtention d’une « neutralité de point de vue ». En effet, conformément à la stratégie visant à analyser le discours politique dans toute sa matérialité sans être pour autant rabattu sur des éléments idiosyncrasiques, la « neutralisation » – en ce qu’il doit être le plus commun possible – du corpus sur lequel sont projetées les textualités du discours politique, est indispensable. Or, Wikipedia s’est progressivement doté de modes de fonctionnement relevant d’une logique épistémique exigeante (Cardon et Levrel, 2009) qui fait de la pluralité et de la diversité des contributions et points de vue (via notamment le critère de vérifiabilité), la garantie de l’objectivation des contenus édités (Barbe et al., 2015). De fait, plus un article a de contributeurs, et plus son incontestabilité est élevée. Ce sont d’ailleurs toutes ces raisons, et tout particulièrement ce dernier constat, qui expliquent que la construction de ce corpus de référence se soit faite sur la base d’un dump du Wikipedia anglais produit en avril 2013 (c’est-à-dire à une date comprise dans la périodisation retenue des corpus testés).

59Une rapide appréhension statistique des différences de production entre les versions francophone et anglophone du Wikipedia (notamment nombre d’articles, nombre d’éditions, nombre d’utilisateurs actifs, nombre de contributions par auteur, nombre d’auteurs par article) laisse effectivement apparaître des différences qui, de l’ordre du triple, quadruple, quintuple, voire plus (List of Wikipedias, 2019), font de la langue originelle du Wikipedia une version plus robuste ; et ce d’autant plus que le Wikipedia francophone présente des spécificités d’usage (Auray et al., 2007) qui résultent d’une horizontalité moins optimale de sa gouvernance (Canivenc, 2010). Nous sommes néanmoins conscients du biais culturel que pourrait introduire le passage par le Wikipedia anglophone, en ce que l’on pourrait aisément souligner le risque qu’il y aurait à contextualiser un discours français (après traduction bien sûr) au travers d’une vision anglo-saxonne de la ou les problématiques sociale(s) que celui-ci aborderait. Certaines thématiques culturellement circonscrites peuvent en outre être totalement absentes du wikipedia anglais.

60Toutefois, le Wikipedia anglophone demeure un choix de première intention pour au moins deux raisons qui ont très directement trait aux attendus et perspectives de notre démarche. D’une part, il nous apparaît que le passage par une langue pivot telle que l’anglais pour projeter le texte initial sur la ressource encyclopédique permet d’obtenir une caractérisation objectivée du texte du discours qui, moins sensible aux simples proximités lexicales, parvienne à révéler des proximités plus conceptuelles. D’autre part, ce travail n’étant que la première étape d’une recherche plus large, ambitionnant de comparer des corpus-test issus de toute l’Europe, le passage par le Wikipedia anglophone s’impose comme une nécessité de comparabilité ; et ce d’autant plus que se concrétise l’hypothèse de la constitution d’une internationale des droites radicales, sous l’égide du Movement de Steve Bannon (Esprit, 2018). Aussi, au lieu donc de privilégier les Wikipedias nationaux, nous envisagerons davantage à terme d’articuler, à des fins de contrôle, cette utilisation du Wikipedia anglophone à un recours au Manypedia, l’outil proposé par Massa et Scrinzi (2013), afin de comparer le recouvrement conceptuel d’une version du Wikipedia à une autre.

61Les communiqués de presse politiques étudiés ont été traduits à l’anglais avec Google Translator. Les termes multimots de la traduction ont été extraits et leur ensemble filtré automatiquement ou manuellement, soumis comme requête au système Indri de recherche d’informations. Seules les 64 pages les plus pertinentes sont retenues. A ce stade, nous pouvons conclure que la seule recherche documentaire ne suffit pas. Les tous premiers renvois se partagent vers les pages de :

  • personnalités diverses, figures journalistiques non consensuelles (comme « Denis Tillinac », éditorialiste à Valeurs actuelles ou « Diana Johnston », classée parmi les journalistes conspirationniste), hommes ou femmes politiques (« Jean-Luc Mélenchon », « Adam Buick », socialiste anglais, « Stanislaw Piéta », homme politique polonais accusé d’avoir séduit une femme et l’avoir abandonnée) ou figures historiques telle « Henryk Ignacy Kamiensky » (militaire polonais de l’époque napoléonienne) ou religieuses telles « Youssef Wahba » (premier ministre copte en Égypte).
  • référence à des contextes électoraux spécifiques : « élections cantonales 2011 », « présidentielles 2012 », « élection au Québec en 2012 ».
  • références à des pages centrées autour des problématiques de genre (« Network of enlightened Women », « Prostitution in Egypt », « Abortion in Estonia », « Equal Opportunities Commission », « Manifesto of the 343 ») mais aussi des pages religieuses (« Ministry Haj and Islamic Affairs (Afghanistan) », « Jeunesse Etudiante Chrétienne », « St. Catherine’s Church of England Primary School »)

62Les pages renvoyant vers des personnalités politiques (entre 12 et 15 pour les premières pages référencées pour les 38 CP sélectionnés) ne permettent pas d’établir les parentés textuelles entre les corpus même si elles peuvent renseigner sur la circulation de ces textes suggérant de s’intéresser à cette question du référencement autour ou en dehors de la nébuleuse populiste. Alors que dans la première page, aucune référence n’est faite à des personnalités du Rassemblement national, elles apparaissent à la troisième page, l’auto-référencement semblant alors s’intensifier. De même, les seuls titres de pages se référant aux contextes électoraux ne donnent aucun indice concernant ce qui y est effectivement traité et qui par définition très dépendant de l’actualité du moment. Pour dépasser ces limites, il s’avère bien nécessaire de produire des résumés des ensembles des pages extraites pour travailler les parentés textuelles les plus pertinentes entre communiqués et extraits du Wikipedia. Nous avons essayé d’évaluer alors le recouvrement entre le texte initial et le contenu des pages extraites avec des mesures d’informativité. Cependant pour interpréter le score d’informativité obtenu il est nécessaire de le comparer à celui de résumés de même dimension des pages extraites. L’expérimentation automatisée sur l’ensemble des communiqués a montré la fragilité de ces estimations et les limites de l’objectivation avec cette méthode. Pour y répondre il sera nécessaire d’une part, d’adapter ce type de mesure au texte politique et d’autre part de développer l’interactivité entre le système et l’analyste de manière à ce que ce dernier puisse éprouver les résultats.

8 – Conclusion et perspectives

63Dans cette étude, nous avons démontré la faisabilité d’étendre un système initialement conçu pour la contextualisation de textes courts tel que des microblogs, à des communiqués de presse politiques entiers. En combinant traduction automatique vers une langue pivot et extraction des termes multimots du discours, nous avons étudié la capacité de cette approche à trouver un ensemble rapproché de concepts du Wikipedia qui explique les valeurs sous-jacentes au discours.

64De manière plus générale, et afin de contribuer au débat épistémologique en cours sur le développement de l’instrumentation numérique des sciences humaines et sociales (Bigot et Mabi, 2017), nous voudrions clore cet article par l’adoption d’une posture réflexive quant à la spécificité du dispositif numérique d’opérationnalisation promu ici pour analyser, ou du moins objectiver, l’offre discursive des partis d’extrême-droite. Loin de nous reconnaître dans la dimension “mythologique” (Boyd et Crawford, 2012, 664) de la multiplication (et massification) des données numériques (Ollion et Boelaert, 2015) qui suppose que leur simple usage fait accéder à un niveau supérieur de « scientificité » mêlant exhaustivité, objectivité et précision, nous nous revendiquons au contraire d’une épistémologie doublement constructiviste. Non seulement nous reconnaissons le caractère artefactuel des produits - qu’il s’agisse des pages Wikipedia sélectionnées ou des calculs d’informativité - de notre dispositif technique (dont nous ne sous-estimons pas d’ailleurs la valeur épistémique embarquée), mais l’artificialité de l’hypothèse de génération des discours politiques à partir d’une sélection de pages Wikipedia est explicitement revendiquée comme une stratégie heuristique de contournement de l’hermétisme du discours politique. Aussi, l’utilité que présente notre collaboration transdisciplinaire entre sciences politique et informatique se revendique moins d’une démarche positiviste que d’un « régime exploratoire » (Auray, 2011) ou d’un « serendipity turn », qui se refuse à considérer qu’une quelconque sciences des données puisse se substituer aux études sociologiquement situées de type qualitatif (Manovitch, 2011), ou bien même annihiler le « perspectivisme » qui caractérise consubstantiellement la recherche en sciences humaines et sociales (Passeron, 1991). Aussi, la « datafication » de la stratégie de recherche (Ibekwe-Sanjuan, 2017) ne doit-elle être considérée que comme un simple moment, une étape singulière, prenant sa place, au côté d’autres séquences appartenant à d’autres épistémologies, dans le processus plus ample de « problématisation » qui est lui seul la marque de « l’esprit scientifique » (Bachelard, 1938, 17).


Annexe 1

Cas n°1 : Communiqué de Marion Maréchal Le Pen du 2 décembre 2014

65Voici un extrait de la traduction automatique en anglais du discours : Simone Veil : “Abortion must remain the exception, the last resort for situations without issues. (…) No woman is gleefully happy about abortion. It’s always a drama, it will always be a drama. That is why if the project presented to you takes into account the existing situation of fact, if it admits the possibility of a termination of pregnancy, it is to control it, and if possible to dissuade the woman.” I think these words do not resonate in the ears of those who today have recognized abortion as a "fundamental right". In other words a “right” that must not suffer any limit, no supervision. The balance sought by Simone Veil is deliberately broken under the pressure of ideologues and feminists by this resolution. All those who would like to remember the physical and psychological traumas of this act are immediately returned to the camp of extremists, conservatives and other infamous caricatures immediately tending to disqualify you morally and politically.”

Cas n°2 : Communiqué de Marion Maréchal Le Pen du 2 décembre 2014

66Voici un extrait de la traduction automatique en anglais du discours : The intrusion and outrageous and vulgar vociferations of women activists of the Femen group in the Notre-Dame cathedral in Paris, to "celebrate" the pope’s resignation, is an insult to the believers and a clear violation of our republican values. The Republic guarantees to all the freedom of worship and the right to exercise it with dignity in the consecrated places. It is not tolerable or acceptable that in the name of a misguided feminism, one can accept such actions within a place of worship sacred to Catholics.

Cas n°3 : Communiqué de Marine Le Pen du 11 mars 2013

67Voici un extrait automatiquement traduit à l’anglais du communiqué rédigé par Marine Le Pen : We must strive for better detection and earlier diagnosis of autism spectrum disorders by focusing on training professionals and providing adequate information to families. As I advocated during the presidential election campaign, it is vital to support this major policy with significant financial resources and to endorse a 30% increase in public research budgets that will allow scientists to to carry out their work in better conditions and more resources. In parallel, it is necessary to create multidisciplinary teams in all the structures that support the persons concerned and to ensure reimbursement by the Health Insurance of all the necessary consultations in the liberal sector. Finally, the creation of places and establishments must be a top priority so that no more children, in France, are due to this handicap, put away from society.

Annexe 2

68L’essentiel des ressources mobilisées dans cet article sont accessibles aux liens suivants avec le login inex et le mot de passe inexqa2011.

69La version XML du wikipedia utilisée est ici :

70http://tc.talne.eu

71L’interface pour utiliser ce système est ici :

72http://qa.termwatch.es

73Tous les développements pour cet article sont ici :

74http://tc.talne.eu/DNpol

75L’arborescence de ce dernier lien comprend :

76Les traductions des communiquées donnés en entrée ici :

77http://tc.talne.eu/DNpol/input

78Les requêtes Indri générées automatiquement sont ici :

79https://dev.termwatch.es/esj/Term2IR/data/DNpol/polcontext1.csv

80Avec les résumés obtenus ici :

81https://dev.termwatch.es/esj/Term2IR/data/DNpol/sum_input.csv

82Les requêtes filtrées SANS les entités nommées sont ici :

83https://dev.termwatch.es/esj/Term2IR/data/DNpol/polcontext_man.csv

84Avec les résumés correspondants ici :

85https://dev.termwatch.es/esj/Term2IR/data/DNpol/sum_input_man.csv

Bibliographie

  • Amengay A., Durovic A., Mayer N. (2017). L’impact du genre sur le vote Marine Le Pen. Revue française de science politique, vol. 67, n°6, p. 1067-1087.
  • Amossy R. & Koren R. (2010). Argumentation et discours politique, Mots. Les langages du politique, 94, p. 13-21.
  • Auray N., Poudat C., Pons P. (2007). Democratizing Scientific Vulgarization. The Balance between Cooperation and Conflict in French Wikipedia, Observatorio (OBS*) Journal, vol. 3, p. 185-199.
  • Auray N. (2011). Les technologies de l’information et le régime exploratoire, in Van Andel P., Boursier D., (éds). La sérendipité. Le hasard heureux, Hermann, p.329-343.
  • Bachelard G. (1938). La formation de l’esprit scientifique, Vrin, Paris.
  • Bacot P., Coulomb-Gully M., Honoré J.-P., Le Bart C., Oger C., Plantin C. (2010). Le discours politique n’est pas transparent. Permanence et transformations d’un objet de recherche, Mots. Les langages du politique, 94, p. 5-9.
  • Barbe L., Merzeau L., Schafer V. (2015). Wikipedia, objet scientifique non identifié, Presses Universitaires de Paris Ouest, Paris.
  • Bellot, P., (2011). Recherche d’information contextuelle, assistée et personnalisée, Coll. Recherche d’information et web, ISBN : 9782746225831
  • Bellot P, Moriceau V, Mothe J, SanJuan É, Tannier X. (2015). Mesures d’informativité et de lisibilité pour un cadre d’évaluation de la contextualisation de tweets. Document numérique, vol. 18, n° 1, p. 55-73.
  • Bereni L., Trachman M. (2014). Le genre, théories et controverses. La Vie des Idées. Consulte sur http://www.laviedesidees.fr/Le-genre-theories-et-controverses.html.
  • Bigot J.-E., Mabi C. (2017). Une instrumentation numérique des sciences humaines et sociales. Enjeux épistémologiques et communicationnels, Les Cahiers du numérique, vol. 13, n°3, p. 63-90.
  • Bon F (1985), Langage et politique, in M. Grawitz M., Leca J. (éds.), Traité de science politique, Paris, PUF, t. 3, p. 537-573.
  • Bonnafous S., Ciron P., Ducard D., Levy C. (2003). Argumentation et discours politique, Rennes, Presses universitaires de Rennes.
  • Bourdieu P. (1981). La représentation politique. Eléments pour une théorie du champ politique, Actes de la recherche en sciences sociales, vol. 36-37, p. 3-24.
  • Bourdieu P. (1992). Langage et pouvoir symbolique, Paris, Seuil.
  • Bourdieu P. (1993). Esprits d’État. Actes de la recherche en sciences sociales, vol. 96-97, p. 49-62.
  • Bouron S. (2017). Des « fachos » dans les rues aux « heros » sur la web. La formation des militants identitaires. Réseaux, vol. 202-203, n 2-3, p. 187-211. Consulte sur https://www.cairn.info/revue-reseaux-2017-2-3-page-187.htm.
  • Boyd D., Crawford K. (2012). Critical questions for Big Data, Information, Communication & Society, vol. 15, n°5, p. 662-679.
  • Braud Ph. (2010). L’apport de la science politique à l’étude des langages du politique, Mots. Les langages du politique, n°94, p. 143-154.
  • Breton P. (1997). La parole manipulée, La Découverte, Paris.
  • Canivenc S. (2010). Le web 2.0 et l’idéal d’auto-organisation : l’exemple de la Wikipédia francophone, in Prouls S., Millerand F. Web social, mutation de la communication, Presses de l’Université du Québec, p. 65-77.
  • Carballo J. P., Strzalkowski T. (2000). Natural language information retrieval : progress report. Information Processing and Management, vol. 36, n°1, p. 155 – 178.
  • Cardon D., Levrel J. (2009). La vigilance participative. Une interprétation de la gouvernance de Wikipédia. Réseaux, vol. 154, n°2, p. 51-89.
  • Castellvi M.T.C., Bagot R. E., Palatresi J. V. (2001). Automatic term detection : A review of current systems. In D. Bourigault, C. Jacquemin, M.-C. L’Homme (Eds.), Recent advances in computational terminology, John Benjamins, p. 53-88.
  • Chen C., Ibekwe-SanJuan F., Hou J. (2010). The structure and dynamics of cocitation clusters : A multiple-perspective cocitation analysis. JASIST, vol. 61, n 7, p. 1386-1409.
  • Dang H. (2008). Overview of the TAC 2008 Opinion Question Answering and Summarization Tasks. In Proc. Of the first text analysis conference.
  • Delmas V. (2012). Pour une analyse pluridimensionnelle du discours : le discours politique, La linguistique, vol. 48, n° 1, p. 103-122.
  • Ducrot O. (1997). Dire et ne pas dire. Principes de sémantique linguistique, Hermann, Paris.
  • Esprit (2018). Éditorial : “Europe : être ou ne pas être”, n° 9, 2018, p. 5-7.
  • Foucault M. (1969). L’archéologie du savoir, Gallimard, Paris.
  • Ghiglione R. (1989). Je vous ai compris ou l’Analyse des discours politiques, Armand Colin, Paris.
  • Giles J. (2005). Internet encyclopaedias go head to head, Nature, n°438, p.900-901.
  • Haddad R. (2017). Le discours de meeting électoral : rituel d’affrontement, médiatisations, communication politique. Analyse du discours de meeting électoral pour l’élection présidentielle française (2002, 2007, 2012), Thèse en Linguistique, Université Paris-Est.
  • Halavais A., Lackaff D. (2008). An Analysis of Topical Coverage of Wikipedia, Journal of Computer-Mediated Communication, vol. 13, p.429-440.
  • Ibekwe-SanJuan F. (2006). Constructing and maintaining knowledge organization tools : a symbolic approach, Journal of Documentation, vol. 62, p. 229-250.
  • Ibekwe-SanJuan F. (2017). Vers la datafication de la société ?, in Meyer V., Transition digitale, handicaps et travail social, LEH Editions, p.31-49.
  • Kageura K. (2002). The dynamics of terminology : A descriptive theory of term formation and terminological growth, John Benjamins, Amsterdam.
  • Krieg-Planque A. (2006), « Formules » et « lieux discursifs ». Propositions pour l’analyse du discours politique (entretien par P. Schepens), Semen. Revue de sémio-linguistique des textes et discours, n° 21, p. 19-47.
  • Igounet V., (2014), Le Front National. De 1972 à nos jours. Le parti, les hommes, les idées, Seuil, Paris.
  • Lahire B. (1999). L’invention de l’“illettrisme”. Rhétorique publique, éthique et stigmates, La découverte, Paris.
  • List of wikipedias (2019). https://meta.wikimedia.org/wiki/List_of_Wikipedias
  • Louis A., Nenkova A. (2009). Performance confidence estimation for automatic summarization. In Eacl, The Association for Computer Linguistics, p. 541-548.
  • Manovich L. (2011). Trending : The promises and the challenges of Big Social Data, http://manovich.net/index.php/projects/trending-the-promises-and-the-challenges-of-big-social-data.
  • Marchand-Lagier C. (2018). Le vote des femmes pour Marine Le Pen. Entre effet generationnel et precarite socioprofessionnelle. Travail, Genre et Sociétés, vol. 40, n°2, p. 85-106.
  • Massa P., Scrinzi F. (2013). Manypedia : Comparing language points of view of Wikipedia communities, First Monday, vol. 18, n°1, https://firstmonday.org/ojs/index.php/fm/article/view/3939/3382.
  • Medeylian O., Milne D., Legg C. Witten I.H. (2009). Mining meaning from Wikipedia, International Journal of Human-Computer Studies, vol. 67, n°9, p. 716-754.
  • Metzler D., Crowft W. B. (2003). Combining the language model and inference network approaches to retrieval, Information Processing and Management, vol. 40, n°5, p. 735-750.
  • Metzler D., Strohman T., Turtle H., Croft W. B. (2005). Indri at trec 2004 : Terabyte track [IR]. In p. electronic proceedings only.
  • Namian D. Grimard C. (2013). Pourquoi parle-t-on de sérendipité aujourd’hui ? Conditions sociologiques et portée heuristique d’un néologisme “barbare”, SociologieS, http://journals.openedition.org/sociologies/4490.
  • Nenkova A., Passonneau R. (2004). Evaluating content selection in summarization : The pyramid method. In : Proceedings of the Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics : HLT-NAACL 2004
  • Neveu E. (2010). L’apport de Pierre Bourdieu à l’analyse du discours. D’un cadre théorique à des recherches empiriques, Mots. Les langages du politique, 94, p. 191-198.
  • Ollion E., Boelaert J. (2015). Au-delà des Big Data. Les sciences sociales et la multiplication des données numériques, Sociologie, vol. 6, n°3, p. 295-310.
  • Ollivier-Yaniv C. (2010). Discours politiques, propagande, communication, manipulation, Mots. Les langages du politique, 94, p. 31-37.
  • Passeron J.-C. (1991). Le raisonnement sociologique. L’espace non poppérien du raisonnement naturel, Nathan, Paris.
  • Scrinzi F. (2017). A ‘new’ national front ? Gender, religion, secularism and the french populist radical right. In Kötting M. et al. (Dir), Gender and Far Right Politics in Europe, Plagrave Macmillan, p. 127-140.
  • Skinner Q. (2009). Les fondements de la pensée politique moderne, Paris, Albin Michel.
  • Smeaton A. F., Sheridan P. (1992). The application of morpho-syntactic language processing to effective phrase-matching, Information Processing and Management, vol. 28, n 3, p. 349-369.
  • Voss J. (2005). Measuring Wikipedia, Proceedings of the 10th International Conference of the International Society for Scientometrics and Infometrics, Stockholm, http://eprints.rclis.org/6207/.

Mots-clés éditeurs : analyse de discours, contextualisation de texte, extrême-droite, féminisme, recherche d’information ciblée

Date de mise en ligne : 11/10/2019