EMI | Le journalisme de données

Retour à la page d'accueil

DatavizDepuis 2006, tous les 17 mai, se tient la journée mondiale de la Société de l'information. Le citoyen de l'information est social, mobile et dans le cloud. C'est dire qu'il est aussi essentiellement digital puisque entièrement lié aux données numériques.
Tout est donnée. Tout ce qui est enregistré peut constituer une donnée. Les échanges de mails, le Web, les achats, les livres, votre position géographique, les statistiques...
La Data Visualisation est une technique de représentation de ces données par la création de graphiques, de cartes ou d’infographies dont le design aide à la compréhension et à l’analyse d’une problématique précise.
Mais ce n'est pas une simple infographie. Elle est de plus en plus interactive voire actualisée en permanence et sa fonction est d'abord de faire sens.
Secteur en nette progresssion, elle répond à la fois aux demandes des entreprises et des médias, et a fait naître un nouveau métier, le journaliste de données.

Voir également modules
| Difficulté |
DYS DYS

1De quoi s’agit-il ?

1.1 Petite histoire de la datavisualisation

L’homme classe et quantifie des informations sous forme de tableaux depuis des siècles. Leur représentation visuelle, elle aussi est ancienne et, en ce sens, la datavisualisation n'est pas réellement nouvelle.

La data visualisation a date de 1869 et a été réalisée par Charles Joseph Minard (1781-1870), super-intendant de l'École des ponts et chaussées, pour illustrer les pertes lors de la campagne napoléonienne de Russie.

campagne napoléonienne de Russie

La carte de l'épidémie de choléra de John Snow (pas celui de Game of Thrones !) est essentiellement une des premières cartes de points. Elle utilise des petites barres accolées aux blocs d'immeubles pour indiquer le nombre de morts dues au choléra pour chaque foyer de ce quartier de Londres. La concentration et la longueur de ces barres mettent en évidence certains blocs d'immeubles, ce qui permet de s'interroger sur les raisons d'une telle tendance, par rapport aux autres immeubles. Le résultat : cette carte a permis de déterminer que les foyers qui ont le plus été touchés par le choléra utilisaient tous de l'eau provenant de la même pompe.

Cholera

Mais la Dataviz moderne a vraiment commencé à se développer au XXème siècle, notamment avec Internet : la collecte de données est simplifiée, leur accès est possible en continu, de nouveaux outils de visualisation sont élaborés...

Big Data Avec le « Big Data déf.  » c'est l'explosion quantitative de la donnée numérique, notamment lorsqu'elle est ouverte et à la disposition via l'Open data. module

Tout est donnée. Tout ce qui peut être enregistré est donnée.
Mais si la donnée est numérique elle n'est pas que chiffre. Une bibliothèque numérique, les conversations sociales, les requêtes de recherche etc. sont autant de données qui peuvent, une fois mises en forme et présentées, faire sens.

Les perspectives du traitement de ces données sont encore insoupçonnées : analyse tendancielle, climatique, environnementale, sociopolitique, de la sécurité et de la lutte contre la criminalité, de phénomènes religieux, culturel et politique...
Que ce soient les entreprises ou les médias, de nombreux secteurs sont impactés.

Pourquoi ne pas se contenter de simples listes ou tableaux de données ?

Parce que, lorsqu'il s'agit de comprendre un très grand nombre d’éléments en un seul coup d’œil, les cartes ou graphiques permettent de simplifier la compréhension d'éléments complexes et de les apréhender très rapidement.

illustration

Avant/après. Combien comptez-vous de 6 ?

1.2 Première définition

« Si je* devais qualifier la data visualisation en 3 adjectifs : visuelle, pertinente et stratégique »

La Dataviz est, comme son nom l’indique, visuelle

Les scientifiques estiment que 90% de l’information transmise au cerveau est visuelle et le cerveau est capable de traiter une image 60 000 fois plus vite qu’un texte. Comme disait Confucius, « une image vaut 1000 mots ». Plus les données sont nombreuses et compliquées, plus il est donc intéressant de les traduire en visuels.

La Dataviz doit être pertinente

Pour cela, la sélection des informations les plus justes et les plus importantes doit être drastique de manière à calculer et à agréger les bonnes données à représenter : celles qui seront vraiment utiles.
Comparer plusieurs tableaux de données brutes exige un effort d’abstraction et de mémoire qui n’est plus atteignable à partir d’un certain volume de données. Le but de la Data Visualisation est donc d’aller à l’essentiel en regroupant toutes ces données sur un seul écran, et à les traiter intelligemment grâce à des filtres, des groupes et des classements pertinents.

La Dataviz est stratégique

Tout son enjeu est d’appuyer la prise de décision, y compris au plus haut poste de pilotage de l’entreprise. Il faut donc absolument se concentrer sur l’essentiel, tout en y passant le moins de temps possible. N’importe qui peut faire de la Dataviz « esthétique », flatteuse au regard, mais le fond importe davantage que la forme. Il est crucial d’être juste, précis et avant tout respectueux de la réalité.

* Statisticienne, Marie-Laure Schaff a 28 ans. Elle est spécialiste du traitement de la donnée.

David McCandless. The beauty of data visualization

Billion o-gram David McCandless est un journaliste de données anglais spécialiste du design de l'information. Il est connu pour son ouvrage Information is beautiful. Mille et une informations essentielles et dérisoires à comprendre en un clin d'œil.< br/> Billion o-gram est une carte qui réprésente les dépenses, recettes, dons, dettes par secteur des Etats-Unis. Elle met en évidence les ratios de dépense de manière simple et donc permet de mieux comprendre les enjeux.
Ici le beige représente, par exemple, le coût de la crise financière de 2009...

image lien source : https://www.ted.com/
image lien Infos : https://www.informationisbeautiful.net/visualizations/

1.3 C'est quoi une data ?

DonnéesElle peut être ouverte, sensible, aberrante, personnelle, publique, statistique, numérique, de référence, cachée, forfaitaire... Elle est stockée ailleurs dans des usines des Data center mais présente partout.
Réactualisée en permanence, voire rafraîchie en temps réel, elle a à la fois le don d'ubiquité et d'immortalité (quoi que ...) et se périme pas.

C'est la matière première du data journaliste.

Elle est en croissance continuelle, l'on parle de Big data, et le problème est de plus en plus souvent non pas d'avoir la possibilité d'y accèder mais de la trouver...

Tout ce qui est enregistré peut constituer une données. Vos échanges de mails, le web, vos achats, les livres, votre position géographique les statistiques... tout est donnée numérique.

Evidemment, les services marketing, les banques et les assurances sont les premiers à s'intéresser à ces données. En effet différentes méthodes d'analyse vont permettre d'en extraire des informations très utiles.

Mais d'autres sciences peuvent aussi s'y intéresser. Cela va de la médecine à l'ingénierie électrique en passant par la génétique ou l'aérospaiiale.

1.4 Qu'est-ce qu'une donnée ouverte ?

opendata Une donnée ouverte (open data) est une donnée numérique d'origine publique ou privée. Elle peut être notamment produite par une collectivité ou un service public (éventuellement délégué) ou une entreprise.
Elle est diffusée de manière structurée selon une méthodologie et une licence libre garantissant son libre accès et sa réutilisation par tous, sans restriction technique, juridique ou financière.

L'ouverture des données (en anglais open data) représente à la fois un mouvement, une philosophie d'accès à l'information et une pratique de publication de données librement accessibles et exploitables.

Elle s'inscrit dans une tendance qui considère l'information publique comme un bien commun dont la diffusion est d'intérêt public et général. (wikipédia).

Voir par exemple Datactivist, une société coopérative et participative qui se donne pour mission d’ouvrir les données et de les rendre utiles et utilisées.

image lienhttps://datactivist.coop/fr/

Une donnée ouverte répond à différents critères.

Elle est notamment :

Le mouvement des données ouvertes est encadré au niveau européen par la directive 2003/98/CE du 17 novembre 2003 sur la réutilisation des données publiques.

La Bibliothèque Nationale de France met son catalogue à disposition, plus de 880 000 auteurs, 185 000 œuvres, 56 000 spectacles...
Vous pouvez ainsi retrouver la biographie de quasiment n'importe quel auteur.

Exemple, celle de Allessandro Volta.

volta

image lienhttp://data.bnf.fr/

Internet Voir également le module "Internet"

1.5 Vous avez dit data journaliste ?

Pyramide inversée du data journalisme Qu’est-ce que le datajournalisme ? La réponse la plus simple est de dire que c’est du journalisme de données...

Paul Bradshaw, co-fondateur de Help Me Investigate, un site de journalisme d’investigation a travaillé sur le data journalisme et a publié une visualisation du processus et des étapes à suivre afin de respecter la démarche imposée par le data journalisme.
Il propose une pyramide inversée pour expliquer le travail du journalisme de données :

Compiler

Compiler Et cette compilation se fait soit à l'aune d'une question à laquelle vous devez apporter des données, soit un ensemble de données a besoin d’u questionnement pour en extirper du sens. Quoi qu’il en soit, ce sont les données qui définissent l’acte de data journalisme.

Le data journaliste dispose dans un premier temps de données qu’il doit traiter et ensuite examiner. L’étape de compilation est la plus importante puisqu’il est possible de revenir à cette étape plusieurs fois dans le processus et parce que les autres étapes ne sont pas réalisables sans celle-ci.

Nettoyer

Nettoyer Le nettoyage des données permet de supprimer les erreurs, supprimer celles inutiles, les trier ou convertir les données dans un format exploitable.

Une très bonne connaissance des tableurs ou des outils plus spécialisées du type openRefine) (voir plus loin) sont ici indispensables.

Contextualiser

Compiler Les données sont-elles fiables ? Qui les produit ? Quand ? Dans quel but ? ce sont des questions de bases que tout journaliste se pose et qui restent d'actualité pour les données.

Le contexte peut influencer la compréhension de certaines données. Avoir une question claire dès le début de l’ensemble du processus facilire la démarche.

Combiner

Compiler Plusieurs données peuvent créer une seule information, c’est pourquoi il est important de combiner les données.

La multiplication des sources impliquent aussi une combinaison des données et permettent de vérifier leur véracité. D’autres pistes de travail peuvent également être explorées.

Communiquer

CompilerLa dernière étape a effectué est la visualisation des résultats avant leur publication.

1.6 Qui, quoi, comment, où ?

Quels metiers ?

Quelle formation ? Un data journaliste ou « journaliste de données » est certes un journaliste, mais avant tout un spécialiste, dont la fonction principale est de récolter, recouper certaines données précises qui permettront de « visualiser » au mieux l’information.
image lienDevenir data journaliste/

L'école des Gobelins propose par exemple une formation Datavisualisation-Data Design.
image lienhttps://www.gobelins.fr/

Le CNAM propose une UE " la datavisualisation pour tous " qui permet "d'ouvrir les compétences de visualisation au plus grand nombre en donnant une compréhension claire et complète des possibilités offertes, et du potentiel des outils afin d'exploiter des données et de réaliser des visualisations pertinentes."
image lienhttp://formation.cnam.fr/

Actus

Le medialab de Science Po mène des recherches thématiques et méthodologiques qui interrogent les relations entre le numérique et nos sociétés.
image lienhttps://medialab.sciencespo.fr/

Le Monde propose de nombreuses datavisualisations, notamment pour decoder les infox.
image lienhttps://www.lemonde.fr/data-visualisation/

Comment, pourquoi ?

L’objectif de la datavisualisation est de :

« La datavisualisation doit retenir l’intérêt de ses interlocuteurs, à travers une histoire. Elle doit enrichir leur culture commune sur un thème caractérisé et identifiable. Elle a pour finalité de convaincre ses interlocuteurs, de les inviter à agir, de les éclairer, d’enrichir leurs connaissances ou de les inviter à se remettre en question sur une vision de la réalité grâce à des données rationnelles et objectives. »

3Les modèles de représentations

2.1 Types de visualisations

Visualisation temporelle, les tendances

La visualisation temporelle, comme son nom l'indique, repose sur une échelle de temps. C'est une représentation très intuitive qui permet d’avoir un rapide aperçu et général sur un évolution d'un temps donné. Elle peut être utilisée comme un outil d’exploration au sein de sections temporelles.

Les variations temporelles sont la base de votre histoire. Pourquoi y a t-il tel ou tel pic ? Pourquoi y a t-il telle ou telle chute ? L’intérêt est de mettre en évidence les parties intéressantes de la représentation pour votre auditoire.

Autres exemples
Visualisation temporelle, les tendances
image lien source : https://datavizproject.com/

Visualisation des proportions / comparaison

Les données relatives aux proportions sont regroupées par catégories et sous-catégories. La distribution globale, les maxima-minimas, les proportions sont autant d'information qui permettent de se faire une idée.

Autres exemples
proportions / comparaison
image lien source : https://datavizproject.com/

Visualisation des concepts

Les données sont représentées sous forme conceptuelles.

Autres exemples
Visualisation des concepts
source : https://datavizproject.com/

Visualisation des corrélations

Les liens de relation sont matérialisés.

Le site datavizproject.com donne d'autres exemples
correlations
image lien source : https://datavizproject.com/

Visualisation de la distribution

Les données relatives aux proportions sont regroupées par catégories et sous-catégories. La distribution globale, les maxima-minimas, les proportions sont autant d'information qui permettent de se faire une idée.

Autres exemples
correlations
image lien source : https://datavizproject.com/

Visualisation géographiques

Les données relatives aux proportions sont regroupées par catégories et sous-catégories. La distribution globale, les maxima-minimas, les proportions sont autant d'information qui permettent de se faire une idée.

Autres exemples
Visualisation géographiques
image lien source : https://datavizproject.com/

Visualisation des parties d'un tout

Les données relatives aux proportions sont regroupées par catégories et sous-catégories. La distribution globale, les maxima-minimas, les proportions sont autant d'information qui permettent de se faire une idée.

Autres exemples
Visualisation des parties d'un tout
image lien source : https://datavizproject.com/

Autres exemples

datavizcatalogue

Autre ressource permettant de choisir le type de graphique à utiliser :

image lien https://datavizcatalogue.com/

2.2 Avec des mots

Nuages de mots

Au début... il y avait les nuages de mots...
nuage de mots

Dans ce premier exemple, le texte intégral de Madame Bovary de Gustave Flaubert a été ajouté.

Qu'est-ce qu'un mot ?

D'un point de vue informatique un mot est une chaîne de caractère situé entre deux blancs typographiques ou un blanc et un signe (, : ! etc.)

Outre les 2229 mots non dessinés c'est la seule occurence qui est prise en compte comme critère d'affichage. Le poids c'est le nombre !

Et plus un mot est présent, plus il est gros...

Dans ce hit parade des mots, seuls 2500 sur les 120 000 du texte sont retenus.

Ces mots sont rarement significatifs : "une" 860 occurences, "cette" 211 occurences etc., souvent polysémique, il n'y a aucune lématisafion déf., pas de liste de mots vides etc.

Bref ! Tout cela est très beau (quoi que...) mais juste beau. Ce n'est en aucun cas de la datavisualisation !

Le seul intérêt de ce type de nuage est surtout... esthétique...

Carte mentale

Au début des années 70, Tony Buzan, un psychologue britannique, à la suite de ses recherches sur l’apprentissage et le cerveau humain, a donné naissance à une méthode d’organisation des idées, sous forme de dessin ou d’arborescence, la carte mentale (ou heuristique ).

La carte mentale est est un graphique représentant des idées, des tâches, des mots, des concepts qui sont liés entre eux autour d’un sujet central. Il s’agit d’une représentation non-linéaire qui permet d’organiser ses idées de façon intuitive autour d’un noyau central.

Le point de départ est un mot, un concept, une idées, ensuite décliné en branches etc.

Si elle est de plus en plus souvent numérique, rien n'empêche de la réaliser d'abord au tableau (ou sur papier) pour ensuite formaliser les données.

Le plus souvent l'on commence par faire un remue-méninges (brainstorming) et choisir les mots-clés les plus pertinents sur le sujet.

carte mentale

En tant qu'outil pour penser elle interviendrait plutôt en amont du processus (critique, sélections, choix des données etc.)

Avec des post-it

post it Pour structurer ses idées de façon naturelle et réaliser une carte mentale, on peut aussi utliser des post-its.
1 post = 1 idée = 1 croquis avec un libellé qui décrit le croquis. Écrire en majuscule.

Au début tout est placé au mur en vrac, puis réorganisé, affiné...

Voir le déroulement sur https://openclassrooms.com/

Une carte mentale peut aussi devenit un moyen de communication, d'aide à la révision etc. et les plus belles le plus souvent réalisées à la main.

carte mentale
image lien source : https://www.ebsi.umontreal.ca/

Sans le numérique

post itLe collectif Open Data de Rennes organisait le 2 octobre un atelier avec des enfants de CE2 et CM1, pendant lequel ils étaient sensibilisés à l’art de récolter les données et de les mettre en forme de différentes façons : diagramme circulaire, colonnes…

Le tout sans numérique.

Pour la récolte des données, les écoliers coloriaient des cases (Nombre de télé, d'animaux, genre etc.).

Des légos leur étaient ensuite remis pour réaliser les infographies.

image lienhttp://www.warlogs.owni.fr/

2.3 Outils et exemples

Codex Atlanticus

Le Codex Atlanticus ou Codice Atlantico est un recueil de dessins et de notes de Léonard de Vinci.

Les awards du journalisme de données

Chaque année se tiennent les awards du datajournalisme

Observatoire des médias sociaux

Une collection d'outils permettant de visualiser et d'analyser les médias socciaux.

Le projet GDELT

Base de données mondiale de la société visant à construire un catalogue de comportements et de croyances à l'échelle de la société humaine dans tous les pays.

Carte du monde et des données de visa

Destinations possibles à partir de... vers pour les pays du monde.

Billion dollar-o-gram

Une visualisation permettant facilement les différents postes de dépense...

Un exemple en 3 clics

clic
télécharger le fichier
clic
ajouter un graphique
ajoutez un graphiqueSur https://infogram.com/, ajoutez un graphique
clic
Copiez-collez les données
ajoutez un graphique

2.4 Pour aller plus loin !

Quelques liens :

image lienhttps://www.edrawsoft.com/fr/mindmapping.php
image lienhttps://numerique.circo25.ac-besancon.fr/
image lienhttps://framindmap.org/ (gratuit en ligne)
image lienhttps://freeplane.sourceforge.net/ (logiciel)
image lien https://www.scoop.it/t/classemapping

3Quelles sont les étapes d'une data visualisation ?

3.1 Fournisseurs de données

De nombreux services officiels mettent à disposition leurs données. C'est même une obligation.

Article L312-1-1 lien, les administrations publient en ligne :

Lanceurs d'alerte

De nombreuses données proviennent également de lanceurs d'alertes et La RTBF, Le Monde, Le Soir et La Libre Belgique mettent en ligne « source sûre », la première plateforme francophone internationale destinée aux lanceurs d'alerte.

lienwww.sourcesure.eu/

Citons également FrenchLeaks, un site dédié à la diffusion de documents d’intérêt public concernant notamment la France et l’Europe. Edité par le journal d’information en ligne Mediapart

lienwww.frenchleaks.fr/

Les acteurs publics concernés sont par ailleurs tenus de mettre à jour ces fichiers « de façon régulière ».

Voir également à ce sujet :
"Sous reserve des secrets protégés […] publient en ligne les règles définissant les principaux traitements algorithmiques utilisés dans l'accomplissement de leurs missions lorsqu'ils fondent des décisions individuelles."lien

"Sont considérés comme documents administratifs, au sens des titres Ier, III et IV du présent livre, quels que soient leur date, leur lieu de conservation, leur forme et leur support, les documents produits ou reçus, dans le cadre de leur mission de service public, par l'Etat, les collectivités territoriales ainsi que par les autres personnes de droit public ou les personnes de droit privé chargées d'une telle mission. Constituent de tels documents notamment les dossiers, rapports, études, comptes rendus, procès-verbaux, statistiques, instructions, circulaires, notes et réponses ministérielles, correspondances, avis, prévisions, codes sources et décisions." lien

Un triple objectif :

De nombreux sites proposent des données, le plus difficile étant quelquefois de les trouver sur les sites...

datafranceUn peu plus de 50 jeux de données sur une carte interactive. Éducation, économie, transports publics, etc.
Plus de 36 000 fiches dédiées à chaque commune, ce qui fait de DataFrance un outil plus particulièrement adapté à la recherche immobilière pour par exemple mieux connaître l’environnement d’un bien.

image lien http://datafrance.info/

data gouvPlateforme ouverte des données publiques françaises, l'offre la plus vaste, avec plus de 36 000 jeux de données mi 2019. Classement par thèmes, moteur de recherche, possibilité de contribuer...

image lienhttps://www.data.gouv.fr/fr/

logo EUPlus de 8 000 ensembles de données disponibles essentiellement fournis par Eurostat et diverses institutions, agences et organes de l’UE. Possibilité d'accéder au portail des données ouvertes de l'UE est d'utiliser l'API REST.

image lien https://open-data.europa.eu/fr/data

logo openParisLes villes s'y mettent également. L'on peut citer par exemple celle de Paris et plus de 250 jeux de données en ligne

image lien https://opendata.paris.fr/page/home/

Si les administrations commencent à fournir des données, on est cependant très loin du compte et les jeux de données eux-mêmes nécessitent souvent beaucoup de nettoyage pour être exploitables.

Peux (beaucoup) mieux faire !

open-dataVoir également le module open-data

Lorsque les sites officiels ne fournissent pas les données, ou qu'elles ne sont pas envoyées sur des sites dédiés, il y a aussi la méthode du web scraping, autrement dit une technique d'extraction du contenu de sites Web, via un script ou un programme.

Cette pratique n'a pas très bonne presse et peut être assimilée à un pillage. Google Actualités, en agrégeant sans autorisation préalable les manchettes d'autres sites, est considéré par certains comme du Web scraping.

Mais elle peut aussi être utilisées pour accèder aux données diffusées mais dont l'accès n'a pas été facilité.

3.2 Prise en compte, préparation et traitement des données

Les outils de visualisation de nuages étant (très) limités par le nombre de mots, la lematisation etc. il est tentant de passer par un résumé...

Deux traitements à partir de deux résumés, l'un court (764 c.) et l'autre long (22 000 c.)

nuage de mots
nuage de mots

Le traitement des données est une opération pouvant être longue voir très longue, puisqu'il faudra élaguer, corriger, trier, fusionner ou sectionner, bref avant même de vouloir en faire ressortir du sens un gros travail préparatoire est le plus souvent nécessaire.

... pour un résultat qui n'est pas beaucoup plus convainquant, en tout cas bien moins que le résumé de Jean Rochefort...

Autrement dit le seul traitement automatisé basé sur les occurences n'est pas suffisant pour extraire du sens.

3.3 Analyse, agrégation et segmentation des informations

Dans cet autre exemple, à partir des "misérables" de Victor Hugo, un premier traitement a été effectué pour extraire les personnages et leurs liens (avec des outils du type openRefine), mais un simple tableur peut également être utile.

77 personnages ont ainsi été retenus : Myrie, Napoleon, MlleBaptistine, MmeMagloire, CountessDeLo, Geborand, Champtercier, Valjean, Marguerite...

Choix des indicateurs à représenter

Il est ensuite décidé d'analyser les relations qui existent entre les personnages. C'est ce que permet un logiciel du type Gephi, un logiciel libre d'analyse et de visualisation de réseaux.

Autre outil, directement en ligne, Table2net

Un graph de données est ensuite exporté, puis affiché, ici avec d3js.

Le site https://www.tsouk.com/html2graph/ propose une visualisation de n'importe quelle page Web sous forme de graphe avec force Atlas 2.

Force atlas 2

3.4 Autre exemple avec 560 000 mots clés ?

Module NetvibesIl y a près de 10 ans, l'auteur de cette page proposait un module, toujours actif avec plus de 100 000 requêtes par an, permettant de suggérer un indice dewey à partir de mots ou de chiffres...

Dans cet exemple nous allons tenter de visualiser quelques éléments à partir des 5 dernières années de saisies, 560 000 requêtes.

Extraction du fichier, nettoyage

Dans un premier temps, les 560 000 requêtes sont insérées dans une table excel pour un premier niveau de tri...

Elles sont ensuites exportées au format csv pour être exploitées via divers outils

Step by Step Charts
Infogram
Created with Highstock 6.0.3Requêtes par jourde novembre 2012 à novembre 2017Nombre07 nov…07 novembre 1209 janvier 1313 mars 1315 mai 1317 juillet 1318 septembre 1320 novembre 1322 janvier 1426 mars 1428 mai 1430 juillet 1401 octobre 1403 décembre 1404 février 1508 avril 1510 juin 1512 août 1514 octobre 1516 décembre 1517 février 1620 avril 1622 juin 1624 août 1626 octobre 1629 décembre 1602 mars 1703 mai 1705 juillet 1706 septembre 1708 novembre 1701k2k3kHighcharts.com

4Pour aller plus loin !

4.1 Les biais

Qui peuvent fausser la lecture...

Ce n'est pas parce que l'on représente des données, fussent-t-elles numériques, qu'elles sont pout autant des représentations fiables. Quelques exemples...

Quelle est la valeur maximale ?

Les diagrammes à secteurs ne sont pas de bonnes réprésentations des données. Ils ne permettent pas de déterminer facilement d'attribuer une valeur numérique à un élément dans un espace en deux dimensions.

Quelles sont les valeur de janvier-février ?

La 3D ne facilite que rarement la lecture des données.

Augmentation importante ou pas ?

La base des diagrammes à bâton n'est pas la même ce qui fausse la lecture.

... ou l'améliorer

L'ajout d'une caractéristique préattentive facilite grandement la lecture

lecture préattentive

Ces caractistiques de lecture préattentive peuvent être utilisées
pour créer une hiérarchie visuelle

lecture préattentive textuelle

4.2 Un exemple décortiqué : l'amiante dans les écoles

En février 2020, le journal libération publiait une carte des établissements scolaires contenant des fibres toxiques. L'on pouvait également consulter les établissements qui n'avaient pas répondu à l'enquête.

image liensource : https://www.liberation.fr/apps/2020/02/amiante-ecoles/

Remontons quelque peu le temps

retour dans le tempsLa question de l'amiante a régulièrement défrayé les chroniques et cela depuis pas mal d'années.

L'enquête à laquelle il est fait référence date elle de 2016 source : enquête amiante ONS 2016).

Une rapide recherche avec Google trend permet de s'en faire une idée.

retour dans le temps

Le sujet a d'ailleurs été traité dans de nombreux médias avec des angles très différents...

Le Journal de l'Ile de La Réunion en fait la Une et une double page.

clic
source: www.clicanoo.re/

Le Quotidien en fait la Une et une page.

clic
source: www.lequotidien.re/

Mais, que ce soit sur le site de l'INRS ou à travers une recherche via un moteur de recherche sur "enquête amiante ONS 2016", aucune donnée ouverte est accessible.

L'on pourra s'étonner ici que les donnée de ce genre d'enquête, qui concerne l'immense majorité d'entre-nous, ne soit pas publique.

Pourtant, l'on trouve une trace d'une enquête envoyée aux établissements scolaires.

enquête amiante

Enquête qui peut ensuite être synthétisée sous forme, par exemple de fichier csv (de simples données séparées par des virgules) et que « Libération s’est procuré »...

enquête amiante

Ensuite, tout n'est question que de techniques informatiques assez simple qui consistent essentiellement à placer les coordonnées des établissements scolaires (les répondants et les autres) etc.

4.3 Un pas à pas en deux visualisations

Les compétences de lecture des jeunes.

Pour l'exemple ci-dessous nous allons réutiliser et présenter un jeu de données issu du site https://www.data.gouv.fr. C'est un jeu de données sur les compétences en lecture des jeunes qui provient d'un service public certifié.

Etape 1 : Récupérez les données

Rendez vous sur le site https://www.data.gouv.fr et faites une recherche avec les mots clés "compétences lecture"

etape 1

La fiche "Les compétences en lecture des jeunes" est proposée, validez. Téléchargez la fiche (format xls) et ouvrez-là.
Copiez les données de la feuille tab3 comme ci-dessous

etape 1

Etape 2 : Collez les données

Si ce n'est déjà fait, créez un compte sur https://infogram.com/fr

D'autres sites existent et permettent de faire la même chose, citons donc également http://editor.highcharts.com/full.html qu ia le bon goût de faire la même chose que le premier, mais sans limitations de plus en plus fortes.

Créez une nouvelle infographie (graphique seul) et donnez-lui un titre.

Collez les données et choisissez une mise en forme.

etape 2

Etape 3 : Visionnez, publiez

Vous pouvez ensuite publier soit en mode image, soit en mode "embed".

Version Infogram

Lecture
Infogram

Geolocaliser des points sur une carte

Avec un éditeur de texte, saisir vos données, simplement séparées par des virgules : La première ligne contiebnt la description de vos colonnes, chaque ligne correspond ensuite à une information sur la carte.

Enregistrez vos données avec l'extension csv (fichier texte, séparateurs virgule).

saisir

Sur le site https://www.google.fr/maps/d/, cliquez sur "ajouter une carte", saisissez un titre puis cliquez sur "sélectionnez vos données".

Sélectionnez votre fichier csv de données

sélectionnez les données

Indiquez les champs à utiliser pour les longitudes et latitudes ainsi que pour les titres.

Votre carte se contruit...

carte precisions
carte

Alternative possible, le site datawrapper

image lien https://www.datawrapper.de/

4.5 Pour ne pas conclure

Carte des sentiments sur Twitter

Ce projet vise à rendre les données Twitter plus compréhensibles. Il diffuse des tweets en temps réel, ou peut extraire des tweets sur un sujet ou un mot clé spécifique - il analyse ensuite ces données à l'aide d'un algorithme d'analyse de sentiment personnalisé et affiche finalement les résultats avec une série de visualisations de données D3.js dynamiques.

Le but de l'application est de permettre de trouver des tendances entre le sentiment et d'autres facteurs tels que la situation géographique, l'heure de la journée, d'autres sujets ...

image lien source : http://sentiment-sweep.com/globe

Vents et mots dans Game of thrones

carte

image lien source : http://beta.wind-and-words.com/

Datajournalisme en milieu scolaire

Le Datajournalisme en milieu scolaire : quelles pratiques ? quelles compétences ? quelles entrées disciplinaires ? Cet article fait suite à la formation du CLEMI-DAFOR "Le DataJournalisme en milieu scolaire, approches pour des projets innovants" (7 mai 2019).

Clemi Paris

image lien source : https://www.ac-paris.fr/