Dataviz La visualisation des données est une technique de représentation de celles-ci par la création de graphiques, de cartes ou d’infographies et dont le design aide à la compréhension et à l’analyse d’une problématique précise.

La Data Visualisation permet de représenter ces données, afin de les rendre facilement compréhensibles.

Mais ce n'est pas une simple infographie. Elle est de plus en plus interactive voire actualisée en permanence.
La Data Visualisation est un secteur en nette progresssion, er répond à la fois aux demandes des entreprises et des médias en facilitant la prise de décision, la communication et l'information...

De quoi s’agit-il ?

L’homme classe et quantifie des informations sous forme de tableaux depuis des siècles. Leur représentation visuelle, elle aussi est ancienne et, en ce sens, la datavisualisation n'est pas réellement nouvelle

Diagram of the causes of mortality in the army in the East
illustration

Mais la Dataviz moderne a vraiment commencé à se développer au XXème siècle, notamment avec Internet : la collecte de données est simplifiée, leur accès est possible en continu, de nouveaux outils de visualisation sont élaborés...

Big Data Avec le « Big Data déf.  » c'est l'explosion quantitative de la donnée numérique, notamment lorsqu'elle est ouverte et à la disposition via l'Open data. module

Mais là ce ne sont plus un ou quelques millions de points qu'il s'agit de réprésenter en plusieurs dimensions ce qui reste possible, mais des millierds, ce qui est bien moins simple.

Les perspectives du traitement de ces données sont encore insoupçonnées : analyse tendancielle, climatique, environnementale, sociopolitique, de la sécurité et de la lutte contre la criminalité, de phénomènes religieux, culturel et politique...
Que ce soient les entreprises ou les médias, de nombreux secteurs sont impactés.

« Si je * devais qualifier la data visualisation en 3 adjectifs : visuelle, pertinente et stratégique »

La Dataviz est, comme son nom l’indique, visuelle

Les scientifiques estiment que 90% de l’information transmise au cerveau est visuelle et le cerveau est capable de traiter une image 60 000 fois plus vite qu’un texte. Comme disait Confucius, « une image vaut 1000 mots ». Plus les données sont nombreuses et compliquées, plus il est donc intéressant de les traduire en visuels.

La Dataviz doit être pertinente

Pour cela, la sélection des informations les plus justes et les plus importantes doit être drastique de manière à calculer et à agréger les bonnes données à représenter : celles qui seront vraiment utiles.
Comparer plusieurs tableaux de données brutes exige un effort d’abstraction et de mémoire qui n’est plus atteignable à partir d’un certain volume de données. Le but de la Data Visualisation est donc d’aller à l’essentiel en regroupant toutes ces données sur un seul écran, et à les traiter intelligemment grâce à des filtres, des groupes et des classements pertinents.

La Dataviz est stratégique

Tout son enjeu est d’appuyer la prise de décision, y compris au plus haut poste de pilotage de l’entreprise. Il faut donc absolument se concentrer sur l’essentiel, tout en y passant le moins de temps possible. N’importe qui peut faire de la Dataviz « esthétique », flatteuse au regard, mais le fond importe davantage que la forme. Il est crucial d’être juste, précis et avant tout respectueux de la réalité.

* : Statisticienne, Marie-Laure Schaff a 28 ans. Depuis 4 ans, elle est spécialiste du traitement de la donnée et des mises en œuvre de solutions

David McCandless: The beauty of data visualization

C'est quoi une data ?

Données

Elle peut être ouverte, sensible, aberrante, personnelle, publique, statistique, numérique, de référence, cachée, forfaitaire... Elle est stockée ailleurs dans des usines les bases Data center mais présente partout.
Réactualisée en permanence, voire rafraîchie en temps réel, elle a à la fois le don d'ubiquité et d'immortalité (quoi que ...) et se périme pas.

C'est la matière première du data journaliste

Elle est en croissance continuelle, l'on parle de Big data, et le problème est de plus en plus souvent non pas d'avoir la possibilité d'y accèder mais de la trouver...

Vous avez dit data journaliste ?

Pyramide inversée du data journalisme Qu’est-ce que le datajournalisme ? La réponse la plus simple est de dire que c’est du journalisme de données...

Paul Bradshaw, co-fondateur de Help Me Investigate, un site de journalisme d’investigation a travaillé sur le data journalisme et a publié une visualisation du processus et des étapes à suivre afin de respecter la démarche imposée par le data journalisme.
Il propose une pyramide inversée pour expliquer le flux de travail du journalisme de données : Compiler, nettoyer, contextualiser, combiner, communiquer.

Compiler

Compiler Et cette compilation se fait soit à l'aune d'une question à laquelle vous devez apporter des données, soit un ensemble de données a besoin d’u questionnement pour en extirper du sens. Quoi qu’il en soit, ce sont les données qui définissent l’acte de data journalisme.

Le data journaliste dispose dans un premier temps de données qu’il doit traiter et ensuite examiner. L’étape de compilation est la plus importante puisqu’il est possible de revenir à cette étape plusieurs fois dans le processus et parce que les autres étapes ne sont pas réalisables sans celle-ci.

Nettoyer

Nettoyer Le nettoyage des données permet de supprimer les erreurs, supprimer celles inutiles, les trier ou convertir les données dans un format exploitable.

Une très bonne connaissance des tableurs ou des outils plus spécialisées du type openRefine) (voir plus loin) sont ici insdispensables

Contextualiser

Compiler Les données sont-elles fiables ? Qui les produit ? Quand ? Dans quel but ? ce sont des questions de bases que tout journaliste se pose et qui restent d'actualité pour les données.

Le contexte peut influencer la compréhension de certaines données. Avoir une question claire dès le début de l’ensemble du processus facilire la démarche.

 

Combiner

Compiler Plusieurs données peuvent créer une seule information, c’est pourquoi il est important de combiner les données.

La multiplication des sources impliquent aussi une combinaison des données et permettent de vérifier leur véracité. D’autres pistes de travail peuvent également être explorées.

 

Communiquer

Compiler La dernière étape a effectué est la visualisation des résultats avant leur publication.

 

 

 

 

 

 

Quelques liens :

image lienhttp://data.blog.lemonde.fr/

image lienhttp://www.lemonde.fr/data-visualisation/

image lienDevenir data journaliste/

image lienhttp://www.data-journalism.com/

image lienhttp://www.data-journalism.com/

image lien Enquêtes réalisées par les étudiants en Master 1 (Institut de journalisme de Bordeaux Aquitaine)

Pour quoi faire ?

Pourquoi ne pas se contenter de simples listes ou tableaux de données ?

Parce que, lorsqu'il s'agit de comprendre un très grand nombre d’éléments en un seul coup d’œil, les cartes ou graphiques permettent de simplifier la compréhension d'éléments complexes et de les apréhender très rapidement.

illustration

Comment ?

L’objectif de la datavisualisation est de :

« La datavisualisation doit retenir l’intérêt de ses interlocuteurs, à travers une histoire.
Elle doit enrichir leur culture commune sur un thème caractérisé et identifiable. Elle a pour finalité de convaincre ses interlocuteurs, de les inviter à agir, de les éclairer, d’enrichir leurs connaissances ou de les inviter à se remettre en question sur une vision de la réalité grâce à des données rationnelles et objectives. »

Les modèles de représentations

Visualisation temporelle, les tendances

La visualisation temporelle, comme son nom l'indique, repose sur une échelle de temps. C'est une représentation très intuitive qui permet d’avoir un rapide aperçu et général sur un évolution d'un temps donné. Elle peut être utilisée comme un outil d’exploration au sein de sections temporelles.

Les variations temporelles sont la base de votre histoire. Pourquoi y a t-il tel ou tel pic ? Pourquoi y a t-il telle ou telle chute ? L’intérêt est de mettre en évidence les parties intéressantes de la représentation pour votre auditoire.

Autres exemples
Visualisation temporelle, les tendances

Visualisation des proportions / comparaison

Les données relatives aux proportions sont regroupées par catégories et sous-catégories. La distribution globale, les maxima-minimas, les proportions sont autant d'information qui permettent de se faire une idée.

Autres exemples
proportions / comparaison

Visualisation des concepts

Les données sont représentées sous forme conceptuelles.

Autres exemples
Visualisation des concepts

Visualisation des correlations

Les liens de relation sont matérialisés.

Le site datavizproject.com donne d'autres exemples
correlations

Visualisation de la distribution

Les données relatives aux proportions sont regroupées par catégories et sous-catégories. La distribution globale, les maxima-minimas, les proportions sont autant d'information qui permettent de se faire une idée.

Autres exemples
correlations

Visualisation géographiques

Les données relatives aux proportions sont regroupées par catégories et sous-catégories. La distribution globale, les maxima-minimas, les proportions sont autant d'information qui permettent de se faire une idée.

Autres exemples
Visualisation géographiques

Visualisation des parties d'un tout

Les données relatives aux proportions sont regroupées par catégories et sous-catégories. La distribution globale, les maxima-minimas, les proportions sont autant d'information qui permettent de se faire une idée.

Autres exemples
Visualisation des parties d'un tout
datavizcatalogue

Autre ressource permettant de choisir le type de graphique à utiliser :

image lien https://datavizcatalogue.com/

Quelques exemples

Au début... il y a avait les nuages de mots
nuage de mots

Dans ce premier exemple, le texte intégral de Madame Bovary de Gustave Flaubert a été ajouté.

Qu'est-ce qu'un mot ?

D'un point de vue informatique un mot est une chaîne de caractère situé entre deux blancs typographiques ou un blanc et un signe (, : ! etc.)

Outre les 2229 mots non dessinés c'est la seule occurence qui est prise en compte comme critère d'affichage. Le poids c'est le nombre !

Et plus un mot est présent, plus il est gros...

Dans ce hit parade des mots, seuls 2500 sur les 120 000 du texte sont retenus.

Ces mots sont rarement significatifs : "une" 860 occurences, "cette" 211 occurences etc., souvent polysémique, il n'y a aucune lématisafion déf., pas de liste de mots vides etc.

Bref ! Tout cela est très beau (quoi que...) mais juste beau. Ce n'est en aucun cas de la datavisualisation !

Le seul intérêt de ce type de nuage est surtout... esthétique...

La carte mentale

Au début des années 70, Tony Buzan, un psychologue britannique, à la suite de ses recherches sur l’apprentissage et le cerveau humain, a donné naissance à une méthode d’organisation des idées, sous forme de dessin ou d’arborescence, la carte mentale (ou heuristique ).

La carte mentale est est un graphique représentant des idées, des tâches, des mots, des concepts qui sont liés entre eux autour d’un sujet central. Il s’agit d’une représentation non-linéaire qui permet d’organiser ses idées de façon intuitive autour d’un noyau central.

Le point de départ est un mot, un concept, une idées, ensuite décliné en branches etc.

Si elle est de plus en plus souvent numérique, rien n'empêche de la réaliser d'abord au tableau (ou sur papier) pour ensuite formaliser les données

Le plus souvent l'on commence par faire un remue-méninges (brainstorming) et choisir les mots-clés les plus pertinents sur le sujet.

carte mentale

En tant qu'outil pour penser elle interviendrait plutôt en amont du processus (critique, sélections, choix des données etc.)

Forme post-it

Mais aussi de communication, d'aide à la révision etc. et les plus belles le plus souvent réalisées à la main.

carte mentale

Quelques liens :

image lienhttps://www.edrawsoft.com/fr/mindmapping.php

image lienhttp://numerique.circo25.ac-besancon.fr/

image lienhttps://framindmap.org/ (gratuit en ligne)

image lienhttp://freeplane.sourceforge.net/ (logiciel)

image lien https://www.scoop.it/t/classemapping

Quelles sont les étapes d'une data visualisation ?

Prise en compte, préparation et traitement des données

Les outils de visualisation de nuages étant (très) limités par le nombre de mots, la lematisation etc. il est tentant de passer par un résumé...

Deux traitements à partir de deux résumés, l'un court (764 c.) et l'autre long (22 000 c.)

nuage de mots
nuage de mots

Bref... Ce n'est pas beaucoup plus convainquant, en tout cas bien moins que le résumé de Jean Rochefort...

En quelque sorte, idéalement, il faudrait disposer de capacités de traitement automatique des données, à l'instar de ce que fait un moteur de recherche de type Google, à la fois en amont pour nettoyer les données et en aval pour les présenter...

Mais là ce sont 20 années d'alogorithme et des puissances de calcul autrement plus impressionantes...

Autrement dit le seul traitement automatisé basé sur les occurences n'est pas suffisant pour extraire du sens.

Analyse, agrégation et segmentation des informations

Dans cet autre exemple, à partir des "misérables" de Victor Hugo, un premier traitement a été effectué pour extraire les personnages et leurs liens (avec des outils du type openRefine), mais un simple tableur peut également être utile.

77 personnages ont ainsi été retenus : Myrie, Napoleon, MlleBaptistine, MmeMagloire, CountessDeLo, Geborand, Champtercier, Valjean, Marguerite...

Choix des indicateurs à représenter

Il est ensuite décidé d'analyser les relations qui existent entre les personnages. C'est ce que permet un logiciel du type Gephi, un logiciel libre d'analyse et de visualisation de réseaux.

Autre outil, directement en ligne, Table2net

Un graph de données est ensuite exporté, puis affiché, ici avec d3js.

Le site http://www.tsouk.com/html2graph/ propose une visualisation de n'importe quelle page Web sous forme de graphe avec force Atlas 2.

Force atlas 2

560 000 mots clés ?

Module NetvibesIl y a près de 10 ans, l'auteur de cette page proposait un module, toujours actif avec plus de 100 000 requêtes par an, permettant de suggérer un indice dewey à partir de mots ou de chiffres...

Dans cet exemple nous allons tenter de visualiser quelques éléments à partir des 5 dernières années de saisies, 560 000 requêtes.

Extraction du fichier, nettoyage

Dans un premier temps, les 560 000 requêtes sont insérées dans une table excel pour un premier niveau de tri...

Elles sont ensuites exportées au format csv pour être exploitées via divers outils

Step by Step Charts
Infogram
Created with Highstock 6.0.3Requêtes par jourde novembre 2012 à novembre 2017Nombre07 nov…07 novembre 1209 janvier 1313 mars 1315 mai 1317 juillet 1318 septembre 1320 novembre 1322 janvier 1426 mars 1428 mai 1430 juillet 1401 octobre 1403 décembre 1404 février 1508 avril 1510 juin 1512 août 1514 octobre 1516 décembre 1517 février 1620 avril 1622 juin 1624 août 1626 octobre 1629 décembre 1602 mars 1703 mai 1705 juillet 1706 septembre 1708 novembre 1701k2k3kHighcharts.com

Pour ne pas conclure

Base de données mondiale de la société

« Le projet GDELT est une initiative visant à construire un catalogue de comportements et de croyances à l'échelle de la société humaine dans tous les pays du monde, reliant chaque personne, organisation, lieu, dénombrement, thème, source d'information et événement à travers le monde. réseau qui saisit ce qui se passe dans le monde, quel est son contexte et qui est impliqué, et comment le monde se sent à ce sujet, chaque jour. »

OpenSpending

OpenSpending est une plateforme gratuite, ouverte et globale pour rechercher, visualiser et analyser les données fiscales dans la sphère publique. Commencez la recherche ou lisez-la pour contribuer aux données, au code ou à l'expertise du domaine.

Données en multi-dimensions

L’équipe Aviz d’INRIA dirigée par Jean-Daniel Fekete et l’équipe R&D de Data Publica ont développé un outil de visualisation générique de données : ScatterDice. Il s'agit de montrer l’intérêt de cet outil dans un cas pratique de manipulation de jeux de données développés par Data Publica.

Dans cet exemple c'est le chômage que vous pouvez explorer, un jeu de données de 300 zones d’emploi définies par 18 paramètres...

http://labs.data-publica.com/emploi/#&row=3&col=15&title=&q0=&q1=&q2=&q3=

Pour plus d'explications sur le fonctionnement de cette visualisation

Voir également les projet en cours sur le site Aviz : http://www.aviz.fr/wiki/pmwiki.php/Research/Projects

Carte des sentiments sur Twitter

Ce projet vise à rendre les données Twitter plus compréhensibles. Il diffuse des tweets en temps réel, ou peut extraire des tweets sur un sujet ou un mot clé spécifique - il analyse ensuite ces données à l'aide d'un algorithme d'analyse de sentiment personnalisé et affiche finalement les résultats avec une série de visualisations de données D3.js dynamiques. Le but de l'application est de permettre de trouver des tendances entre le sentiment et d'autres facteurs tels que la situation géographique, l'heure de la journée, d'autres sujets ...