La collaboration entre sciences sociales et sciences des données : un enjeu indispensable à l’étude du Web politique – Master de communication politique et publique en France et en Europe

Le dossier consacré au « Web politique au prisme de la science des données », publié en 2017 dans la revue Réseaux est issu des journées d’études « Étudier le Web politique » organisées à Lyon les 12 et 13 mai 2015. Il se propose d’interroger l’influence réciproque de la science des données et des sciences sociales pour analyser le Web politique à l’heure du Big Data.

La revue Réseaux. Communication – Technologie – Société est connue pour s’intéresser à l’ensemble du champ de la communication et plus particulièrement aux télécommunications, aux médias de masse et à l’informatique. Ce numéro a été coordonné par Julien Boyadjian, Aurélie Olivesi et Julien Velcin (respectivement maître de conférences en science politique à Sciences Po Lille, maîtresse de conférences en SIC à l’université Lyon 1 et maître de conférences en informatique à l’université Lyon 2). Concrètement, les articles comme le sujet se situent entre la recherche en sciences humaines et les aspects techniques, entre analyse scientifique et réflexivité méthodologique.

L’article de présentation pose comme nécessaire « la question des adaptations épistémologiques réciproques aux deux champs d’études afin de relever le défi de l’analyse du Web politique. » En effet, si l’étude du Web politique par les chercheurs en sciences sociales est facilitée par les outils fournis par la science des données, ces mêmes chercheurs contribuent à enrichir ces outils par leurs retours d’expérience. De la même manière, le chercheur en sciences des données ne peut méconnaître totalement les logiques qui président à l’analyse en science sociale, sous peine de concevoir des outils déconnectés des besoins de ce champ d’étude. Les coordinateurs du numéro, auteurs de ce premier article, décrivent donc une « collaboration en train de se faire » inspirée d’ailleurs des méthodes dites « actives » de la science des données. Dès lors, nous comprenons que ce numéro a pour ambition de s’inscrire dans une approche pluridisciplinaire, approche déjà en partie illustrée par la diversité des champs de recherche dont sont issus les auteurs. La collaboration entre chercheurs en sciences humaines et analystes des données permet alors de renouveler les approches de recherches, parfois segmentées en approches quantitatives et qualitatives. Pourtant les adaptations épistémologiques réciproques, autrement dit le développement de nouveaux cadres et outils d’analyses, posent un certain nombre de questions. Questions qui vont constituer le squelette, le fil conducteur de ce numéro, et auxquelles les différents articles vont s’attacher à répondre.

La première de ces questions est celle de la collecte des données, qui préside à la constitution des corpus à analyser, afin que ces données soient « propres et pertinentes ». Si la diversité des espaces et des usages du Web politique (réseaux sociaux numériques, sites internet, blogs, sites de pétitions) suggère que les étapes de la constitution de corpus peuvent être tout aussi diversifiées, les chercheurs en sciences sociales – quels que soient leur objet et leurs terrains d’analyse – se retrouvent souvent confrontés à des spécificités : ce que les auteurs nomment « les 3V du big data » (volume, variété, vélocité). Cette problématique de constitution de corpus est tout particulièrement développée dans les deux articles intitulés « Entre informatique et sémiotique » et « Les transformations des comportements politiques au prisme de l’e-pétitionnement » tandis qu’elle l’est beaucoup moins dans « Entre distinctivité et acceptabilité » et qu’elle n’est pas particulièrement novatrice dans « Les blogs politiques. »

Dans « Entre informatique et sémiotique », Thomas Bottini et Virginie Julliard exposent la méthode qu’ils ont élaborée dans le cadre de l’étude de la controverse relative à ladite « théorie du genre » sur Twitter. Les deux auteurs commencent leur article en expliquant le fonctionnement de Twitter. Ils nous révèlent que ses modalités de fonctionnement ont une incidence sur la manière dont la controverse relative au genre se déploie sur ce réseau social. Avant de rentrer dans le détail de leur étude, les auteurs reviennent sur l’origine de cette polémique : la controverse voit le jour en effet à partir du tournant des années 1990-2000. Pour mémoire, le genre réfère aux différences de construction sociale entre femme et homme, contrairement au « sexe » qui fait référence aux différences biologiques. Mais la notion, vivement remise en cause dans un certain nombre de discours conservateurs qui la présentent comme une « théorie du genre » pernicieuse, s’est trouvée déplacée et reformulée dans des contextes fortement polémiques, étudiés ici à travers le cas des échanges sur Twitter.

Pour commencer, les auteurs ont dû choisir une méthode de collecte du corpus (des tweets). Ceci ne fut pas facile : les fournisseurs existants, qu’ils soient payants ou gratuits, n’étaient pas à la hauteur d’une étude sémiotique. En effet, leurs méthodes ne conviennent pas aux enjeux de l’analyse car elles reposent sur des analyses automatiques qui sont trop réductrices. De plus, pour réaliser le corpus, il a fallu tenir compte du caractère hypermédia de la plateforme de microblogging, additionné à l’étendue de ses modalités (système d’indexation en hashtags permettant une importante hypertextualité, circulation des tweets, fonctions de promotion de contenu…).

Ainsi, les auteurs ont dû produire un outil ad hoc. Cet outil suppose une compréhension approfondie de la manière dont se construit un corpus complexe. Il s’appuie en effet sur le contexte de production, plus en adéquation avec la volonté de faire une étude sémiotique. Le but des deux chercheurs est de saisir les effets de sens des textes, et ici des tweets, et pour cela de tenir compte de l’environnement des utilisateurs : par exemple les hashtags permettent de mieux saisir le sens des propos. La prise en compte des images se révèle être aussi importante, étant donné qu’un tweet peut être une image. Cet élément s’avère crucial dans l’étude, au vu de la nature du débat, celui-ci reposant sur des stéréotypes et s’accommodant volontiers d’une communication iconographique (détournement, montage, caricature…). In fine, la décision des chercheurs de produire un outil de collecte ad hoc répondant aux besoins de l’analyse sémiotique a découlé en même temps des contraintes que nous venons d’évoquer et de la spécificité que constitue la « vélocité » abordée plus haut : en termes de collecte de données les chercheurs sont fortement dépendants des outils de captation produits par les plateformes elles-mêmes, outils qui laissent « s’échapper » l’information, rendant incertaine la pertinence mais surtout la fiabilité des jeux de données.

Les préalables à la constitution de corpus répondent à d’autres exigences dans l’article de Jean-Gabriel Contamin, Thomas Léonard et Thomas Soubiran, « Les transformations des comportements politiques au prisme de l’e-pétitionnement ». Les chercheurs se confrontent ici à l’un des « 3V du big data » à savoir la « variété » des données exploitées. Ils vont, tout au long du texte, nous présenter les potentialités que peut offrir l’accès à une base de données « inédite », tout comme les difficultés qu’elle engendre. Les trois chercheurs tentent en effet de montrer que « l’usage d’une telle source permet de dépasser certaines apories des méthodes classiques d’études des actions de mobilisations ». Ce jeu de données a été délivré sous forme anonymisée par le propriétaire d’un des principaux sites francophones de e-pétitionnement (lapetition.be). Elles ont été mises en ligne entre le 31/10/2006 et le 12/02/2015. Ce jeu se compose d’éléments relatifs aux pétitions elles-mêmes (texte, lancement, initiateur, catégorisation et dynamique de rassemblement) mais aussi sur les signataires (prénom, lieu de résidence, profession, engagements sur d’autres pétitions) avec en complément des métadonnées (horodatage et géolocalisation). La collecte de ce jeu a fait ressortir plus de 3 millions de signatures pour 15 000 pétitions ce qui en fait d’ores et déjà une étude « inédite » par sa structure.

Logiquement, les chercheurs se sont attendus à rencontrer des difficultés différentes de celles d’une étude dite classique. De nombreux problèmes sont soulevés par les auteurs sur le travail des données collectées, du fait de leur mode de collecte et de leur caractère massif (effet multiplicateur), notamment sur les valeurs manquantes. Le jeu se révèle en effet incomplet du fait de manques dans les champs d’identification sur les signataires, ce qui pose la question de sa représentativité. De ce fait, la problématique principale des auteurs est posée par la variété des données fournies : l’obligation de travailler un jeu dont la collecte n’a pas été supervisée par les chercheurs eux-mêmes, du fait de la mise à disposition par la propriétaire du site. Cette problématique a donc conduit les chercheurs à se demander si avoir à leur disposition une base de données « inédite » ne demanderait pas une approche elle aussi inédite. De ce point de vue, l’article semble donc apporter des réponses à la question introductive de la revue à savoir « dans quelle mesure [on peut] recourir à des outils automatisés pour traiter les données ». En effet, ce qui est proposé ici, ce n’est pas de réfléchir à construire un outil automatisé permettant simplement d’analyser les données mais d’utiliser des méthodes d’analyses complémentaires (tri croisé des données internes à la base et utilisation de celles obtenues dans des formes plus classiques comme l’entretien). De plus, l’article s’inscrit pleinement dans le cadre du renouvellement épistémologique au vu du caractère novateur de la démarche, qui consiste à faire de la base l’outil-même de construction des hypothèses.

Mais cet article n’est pas le seul qui se propose d’introduire une démarche novatrice. En effet, l’article « Entre distinctivité et acceptabilité : les contenus des sites web de partis politiques », de Pascal Marchand et Pierre Ratinaud, adopte une approche textométrique qui permet d’étudier les relations entre les contenus des sites web de trois partis politiques (PS, EELV, FN). Il se donne pour objectif d’arriver à dégager les marqueurs socio-langagiers communs à tous les partis (notion d’acceptabilité) et ceux qui sont propres à chaque parti et qui attestent d’une démarcation de la ligne politique. À partir d’une extraction des données des sites, se basant sur la rubrique actualités (sauf pour le FN où les données de la catégorie « projet » sont aussi conservées), les chercheurs ont constitué trois corpus de textes qu’ils ont analysés séparément. Ce choix constitue déjà une méthode en décalage avec celle, traditionnellement utilisée, qui se base sur un seul corpus. Il leur permet, en effet, de procéder à une classification lexicale des sites web. Cette première analyse leur offre de dégager des critères d’acceptabilité, communs à tous (aborder la finance, le budget, l’industrie…) et de distinctivité (privilégier l’écologie pour EELV, l’immigration pour le FN, l’éducation pour le PS). Rien de bien surprenant.

C’est la raison pour laquelle – et il faut saluer la démarche en tant qu’elle permet d’affiner ces résultats qualifiés d’« un peu grossiers » – les deux chercheurs ont doublé l’analyse des corpus d’une analyse factorielle des correspondances et d’une analyse en termes de distance lexicale. La première permet de mettre en avant des îlots de spécificité qui éclairent la notion d’acceptabilité évoquée précédemment. Le FN et le PS ont par exemple « un lexique suffisamment unifié » sur la thématique de la santé pour rapprocher les discours des deux partis. En revanche, elle montre que si deux partis partagent une même thématique, la manière dont elle est abordée est différente de par le lexique. Le FN et EELV partagent la thématique de l’agriculture mais le premier utilise un lexique porté sur l’économie tandis qu’EELV mobilise un lexique relatif à l’écologie. Enfin, la dernière analyse vient confirmer les résultats des deux premières, tout en les montrant sous un angle différent.

Grâce à ce travail de recherche, Pascal Marchand et Pierre Ratinaud arrivent à démontrer avec efficacité que des méthodes d’analyse établies il y a déjà plus d’une décennie, peuvent être combinées à une approche novatrice pour étudier des corpus contenant un très grand nombre d’informations. De plus, les deux chercheurs démontrent habilement et pédagogiquement que « l’identité d’un parti repose autant sur les thématiques qu’il privilégie que sur les liens lexicaux qu’il établit entre diverses thématiques », permettant ainsi de dépasser les idées préconçues ou les faux-semblants sur l’uniformisation du discours politique. Enfin, il est fort appréciable de trouver dans cet article un outil d’analyse de la stratégie de « dédiabolisation » du FN, qui peut en partie se manifester à travers des changements lexicaux, le parti utilisant plus de termes marqueurs d’acceptabilité.

Dans le dernier texte qui compose ce dossier de revue, « Les blogs politiques en France » par Marie Neihouser, nous retrouvons moins les traits de ces approches novatrices. L’auteure s’est attelée à la tâche de mesurer et d’analyser à partir des métriques du Web un objet peu traité par la littérature : la fréquentation des blogs politiques en France. L’objectif principal était d’enrichir la connaissance générale à propos des blogs politiques et de déceler dans quelle mesure et sous quelles conditions des micro-espaces d’échanges politiques sont susceptibles de se former autour de ces blogs. Pour ce faire, l’étude a porté sur un panel des blogs politiques français, au 6 mai 2012, répondant à différents critères : actualisation au cours des 6 derniers mois, qualité de blog individuel ayant pour thème principal la politique française et publiant des contenus en français. Dès lors ce sont 3 509 sites qui ont été collectés manuellement. Une fois cette première récolte opérée, une collecte de données a été mise en place (manuellement toujours) relativement aux auteurs (socio-démographie et politisation) ainsi qu’au blog lui-même (statistiques de fréquentation, date de création, présence sur les réseaux sociaux).

La saisie des données a été faite manuellement, directement sur les blogs, puis par un questionnaire électronique envoyé à l’ensemble du panel (21,2 % de réponse) pour compléter le manque d’information. L’analyse des données « observées » du retour des questionnaires a montré que 358 blogueurs ont indiqué la fréquentation de leur blog ; 47 % de ces derniers indiquent recevoir moins de 1 000 visites par mois. Les chiffres déclarés par les blogueurs sont similaires à ceux récoltés manuellement. Une récolte des données incomplète (seules les informations décelées sur les blogs ont pu être saisies), qui identifie la fréquentation de seulement 5,5 % des 3 509 sites : dès lors, la question de représentativité se pose. Par ailleurs, le courrier électronique envoyé aux blogueurs n’est pas représentatif de l’ensemble du panel. Plus le capital socio-culturel et donc le niveau d’étude et la CSP d’un blogueur sont élevés, moins il est susceptible d’avoir répondu. On peut aussi se poser des questions sur ces données déclarées par le blogueur lui-même au sujet de la fréquentation de son site. Le texte ne répond donc pas vraiment à la problématique posée dans la présentation de la revue et il aurait été intéressant que l’auteure se tourne plutôt vers l’étude de l’attraction des discussions sur l’Internet générée par les réseaux sociaux, fait qu’elle signale elle-même en fin d’article.

Portant sur un sujet d’avenir, ce numéro est utile pour les chercheurs qui souhaitent connaître et comprendre l’état de la coopération entre sciences des données et sciences sociales. L’attention portée dans les textes à l’analyse technique des échanges entre les chercheurs nous a surpris. « Étudier le Web politique » donne à penser que la recherche et les coopérations à l’œuvre permettent de dépasser les méthodes d’enquête traditionnelles. Si les outils en développement donneront probablement l’opportunité d’explorer de nouvelles possibilités de recherche, les études présentées ne proposent en définitive pas de réponses très nouvelles ou restent trop peu fiables pour être véritablement pertinentes. Mais la coopération entre science des données et sciences sociales suscite un intérêt grandissant et la possibilité de prévoir les phénomènes politiques, en complément voire en remplacement des sondages par exemple, est une perspective stimulante. Ce numéro de revue doit donc être plutôt considéré comme un instrument de réflexion au service des chercheurs. Il est frustrant du point de vue des résultats exposés pour les étudiants en communication que nous sommes mais peut, à notre sens, se révéler très utile dans le cadre de nouvelles études portant sur la thématique. Le contrat de départ est rempli en tout cas, en ce qui concerne le souci initial de dénoncer l’« ancillarité » où certains champs d’études tendent à être maintenus par d’autres : ce numéro présente en effet des bases solides à la construction d’une réelle interdisciplinarité. En attestent d’une part la capacité de travail en commun entre chercheurs de champs d’études différents et d’autre part la capacité à réfléchir de manière commune aux meilleurs outils pour répondre aux problèmes propres au Web politique. Enfin ce numéro nous donne à voir que la collaboration entre sciences de données et sciences sociales est également un enjeu démocratique. Car si la gestion des data par les GAFA relève du secret industriel, nous savons que leur accès aux données et leurs capacités à les mobiliser à des fins commerciales sont sans commune mesure avec celles qui nous sont présentées dans les différents textes de ce dossier.

Caroline Com, Julie El Mokrani Tomassone, Nicolas Faye et Raphaël Perrin

(promotion M2, 2017-2018)