[internet, information et société]

War-Logs de Wikileaks, ou le datajournalism sans data !

On nous avait déjà fait le coup avec le “linkjournalism”, ça recommence avec le “datajournalism”. On prend un terme censé désigner quelque chose de précis, pour en faire un nouveau concept markéting tendance du moment, que l’on met à toutes les sauces, en l’employant à tort et à travers, pour lui faire dire n’importe quoi, jusqu’à le vider totalement de tout contenu. En attendant, ça fait moderne et on donne l’impression d’être dans le vent.

Ainsi le “linkjournalism”, ou journalisme de liens, que je n’ai pas peu défendu moi-même sur ce blog, comme nouvelle manière de faire du journalisme, ou plutôt une nouvelle pratique à ajouter à la panoplie traditionnelle des  journalistes qui publient en ligne. Jeff Jarvis, en promouvant cette idée aux Etats-Unis ne disait d’ailleurs pas autre chose : « La nouvelle règle : couvrir ce que l’on fait le mieux. Faire un lien vers le reste. »

Ce qui était nouveau là-dedans, ce n’était pas de faire des liens ! Où même des revues de liens. Ça, c’est aussi vieux que le web lui-même ! C’est que les journalistes se mettent à faire des liens (Comment les journalistes ont appris à tisser des liens sur la toile). Or le concept a été tellement galvaudé, utilisé à tort et à travers, que j’en ai même vu finir par me parler de journalisme de liens… sans journalisme ! Trois liens à la fin d’un billet, et hop !, je fais du journalisme…

Au sujet de l’opération War-Logs, la révélation simultanée (et concertée) par le site Wikileaks et trois grands médias internationaux (New York Times, The Guardian et Der Spiegel) de 90.000 documents internes à l’armée américaine apportant des précisions inédites sur la situation militaire en Afghanistan, ça recommence, avec le “datajournalism” ! On nous met du “datajournalism” à toutes les sauces dans cette affaire où il n’y a précisément… pas de “data” !

Des documents, mais pas de données brutes

Le chercheur Thibaut Thomas remet les pendules à l’heure dans Libération :

“La première erreur est de considérer, comme ça a été le cas sur le Web, que WikiLeaks serait une victoire de la libération des données ou opendata, ce mouvement qui milite pour la mise à disposition de bases de données informatiques au plus grand nombre. Or que trouve-t-on dans la besace de Wikileaks ? Des rapports, des documents, des témoignages, des listes d’événements. Bref, on est loin de données brutes représentées par une série de O et de 1 ou par des tableurs !

Ces documents sont des sources journalistiques de nature très différentes, dont il faut tout d’abord comprendre l’établissement, la raison d’être, l’utilité ; en clair: la construction. Le terme «données» nous le rappelle étymologiquement : il y a donation d’une partie vers une autre. Les données brutes, qui révéleraient la vérité par elles-mêmes, n’existent que dans l’imaginaire des informaticiens, il n’y a jamais que des documents complexes, créés dans des situations complexes. Ces pseudo-données sont construites et doivent être interprétées comme telles : des sources d’information à traiter, vérifier, expliquer et, le cas échéant, utiliser. Se contenter de placer des punaises sur une carte ne nous apprendra rien sur la fabrication des punaises.”

Datajournalism et journalisme bureautique

Pas de “données brutes” à se mettre sous la main dans ces 90.000 documents révélés par Wikileaks ! Aucun traitement informatisé des données à effectuer qui aurait permis d’extraire de ces données des informations nouvelles, mais un travail extrêmement classique de traitement journalistique d’une masse (certe importante) de documents (repérage des documents pertinents, vérification, analyse et contextualisation). Et le travail eut été exactement de même nature si les documents en question étaient parvenus dans les rédactions du Guardian ou du Spiegel sous la forme de kilos de papier dans des cartons d’archives.

Car, enfin, quand on parle de “datajournalism”, c’est bien de ça qu’il s’agit : traitement automatisé de données brutes pour en extraire des informations nouvelles. Ici, pas de datajournalism, car… pas de data.

La seule chose dans cette opération qui se rapproche un peu d’un traitement automatisé de l’information peut, à la rigueur, se trouver dans le travail de l’équipe d’informaticiens du Guardian, qui a procédé à un traitement sémantique automatisé des fichiers de Wikileaks, pour traduire près de 400 abréviations utilisées habituellement par les militaires américains dans la rédaction de ce type de rapports. Ça simplifie et accélère, certes, le travail journalistique d’exploitation de cette documentation, mais en soi ce traitement n’apporte aucune information sur ce que ces documents contiennent. Il n’y a pas de journalisme dans cette opération, mais surtout de la bureautique !

On ne va tout de même pas se mettre à parler de datajournalism dès qu’un journaliste s’approche à moins de cinq centimètres d’un clavier d’ordinateur.  On ne va tout de même pas parler, non plus, de datajournalism dès qu’un journaliste fait appel à un infographiste pour restituer sous forme graphique (fusse-t-elle animée, multimédia et interactive) les informations qu’il a collectées et mises en forme.

La datajournalism, c’est censé être tout à fait autre chose que de l’infographie ! Mais c’est un vrai boulot d’expert, demandant de réelles compétences très spécialisées. Ça peut produire des informations extrêmement intéressantes dans le domaine du journalisme (c’est à dire l’actualité) comme savent déjà le faire, depuis longtemps, économistes et sociologues, géographes et démographes, mais ça ne saurait se résumer à faire simplement du journalisme… avec un ordinateur, de traiter des documents qui se présentent désormais sous la forme de fichiers numériques plutôt que papier et de restituer son travail de journaliste également sous cette forme.

19 Comments

  • Posted 31 July 2010 at 15 h 56 min | Permalink

    War-Logs de Wikileaks, ou le datajournalism sans data ! http://j.mp/bTejPz

    Commentaire posté sur Twitter

  • kowie
    Posted 1 August 2010 at 0 h 33 min | Permalink

    Essayé d’importer la version .csv et de faire des recherches par chaines de caractères ? Tu peux reconstituer la vie d’une unité, les types de missions effectuées, le nombre de tués/blessés et d’armes utilisées au chiffre (estimé) près. Pour moi, c’est de la data. Comprends pas ton billet.

  • Posted 1 August 2010 at 0 h 56 min | Permalink

    Chez Narvic « Se contenter de placer des punaises sur une carte ne nous apprendra rien sur la fabrication des punaises » http://ow.ly/2jjkT

    Commentaire posté sur Twitter

  • Posted 1 August 2010 at 0 h 56 min | Permalink

    Chez Narvic “Se contenter de placer des punaises sur une carte ne nous apprendra rien sur la fabrication des punaises” http://ow.ly/2jjkT

    Commentaire posté sur Twitter

  • Posted 1 August 2010 at 1 h 03 min | Permalink

    @ Kowie

    On ne peut rien faire de tout ce que tu espères avec ces documents. C’est pourquoi ce ne sont absolument pas des “données brutes”, mais que ça demande un travail très classique de traitement documentaire…

    Edit: ne serait-ce que parce que nous avons des raisons de penser que le “corpus documentaire” publié n’est pas exhaustif. L’Armée française, par exemple, affirme que des rapports ultérieurs, modifiant les rapports publiés initialement de manière très substantielle, n’ont pas été repris…

  • Donnée-outil
    Posted 1 August 2010 at 1 h 13 min | Permalink

    J’ai suivi d’assez loin tout ça, et j’y suis assez étranger…

    Mais j’ai l’impression que c’est considérer les données comme un outil.

    Les économistes, sociologues, géographes et démographes font subir leur traitement à eux aux données… les journalistes font leur traitement à eux, aussi. Avec mes clichés sur le journalisme, j’imagine que ce qui va intéresser le journalisme ce sont les mots… donc le traitement sera autour des mots. C’est sûr que ça semble être un peu le b.a.-ba, mais j’imagine que c’est la première étape. Peut-être que ce qui va différencier le journaliste, c’est un plus grand recours à la comparaison avec d’autres données (dont il dispose)… et donc aussi une problématique : de déjà les avoir sous forme de données exploitables, de formats et d’outils pour faire les comparaisons, etc.

    Est-ce que le datajournalism, c’est vraiment tant que ça du journalisme ? Est-ce que ça ne serait pas plutôt du traitement de données avec une finalité journalistique ? Essayer d’obtenir les données les plus proches de leurs origines, éviter les intermédiaires, et faire un traitement (indépendant) de ces données… pour pouvoir ensuite les comparer, etc. ?

  • Posted 1 August 2010 at 8 h 15 min | Permalink

    Datamania ? « Se contenter de placer des punaises sur une carte ne nous apprend rien sur les punaises » http://ow.ly/2jjkT via @barbecane

    Commentaire posté sur Twitter

  • Simplicissimus
    Posted 1 August 2010 at 10 h 30 min | Permalink

    bonjour,

    je suis épisodiquement vos billets et y trouve en général matière à réflexion. Mais pour celui-ci, je suis assez atterré !

    1. si ça ce n’est pas du datajournalism, alors qu’est-ce que le datajournalism ? De ce que j’ai compris de ce concept plutôt flou, il s’agit d’un accès direct aux “données brutes”, c’est-à-dire aux enregistrements (terme informatique) ou aux observations individuelles (terme statistique) collectés directement ou compilés pour les besoins de l’étude. Les données sont brutes dans la mesure où il ne s’agit pas des tableaux et graphiques de synthèse produits par l’étude (comptage, tris croisés, moyennes et calculs divers)

    2. et si le corpus de données des warlogs n’est pas de la donnée brute, alors qu’est-ce que c’est que la donnée brute ? Certes, chaque document de la base est une source à part entière et il est fondamental d’en vérifier la provenance et l’intégrité, énorme travail qui relève effectivement de la validation des sources, aussi bien pour le statisticien que pour le journaliste.
    Mais ce qui fait de ce corpus une donnée au sens du statisticien c’est la masse d’informations. Et comme toute données, spécialement de la donnée textuelle comme ici, il faut analyser, classer, compter, croiser, etc.

    J’ai un peu (!) de mal avec l’analyse utilisée comme source principale de ce billet. “Ces pseudo-données sont construites,…” dixit Th. Thomas. Eueueueuh, je croyais moi que TOUTES les données sont construites. C’est même un jeu de mots très classiques chez les statisticiens : les données ne le sont pas !

    Et, de mon point de vue, le travail effectué par l’équipe du Guardian (visiblement avec des statisticiens) est absolument remarquable. C’est même quasiment un cas d’école : comment avec cet ensemble de données arriver à produire une information organisée et représentée de manière intelligible aussi bien chronologiquement que cartographiquement. Vraiment impressionnant !

  • Posted 1 August 2010 at 10 h 42 min | Permalink

    Salut Narvic,

    Je me permets de crossposter ici ma réponse à ta réponse à mon billet sur l’affaire:
    http://www.davduf.net/Warlogs-la-nouvelle-guerre-de-l.html

    Premier point: par journalisme de données ou datajournalism, j’entends l’acceptation large de l’expression. C’est à dire aussi bien des données brutes que des documents internes d’une institution révélés. Dans le genre données brutes, et je réponds ici à ta critique principale, les rapports militaires, on fait difficilement mieux…

    Mais j’avoue que mon acceptation ne va pas jusqu’a l’extrême réduction proposée par le chercheur Thibaut Thomas: des “données faites de 0 et de 1″. Qu’est ce que c’est que cette connerie? Comment Libé a-t-il pu avaler un truc aussi énorme? Outre que dès qu’on touche un ordi, on fait du Jourdain du 0 et du 1, ce n’est absolument pas ce qui nous occupe ici. Laisser croire que le journalisme de données serait réservé aux seuls journalistes et aux seuls… informaticiens est une bien triste vision.  

    Du coup, je persiste et signe: quand un groupe comme Wikileaks permet au peuple (ben oui, c’est cela: une divulgation et une mise à disposition massives) de scruter plus de 90000 documents internes aux armées, oui, nous sommes bien dans le data journalism. Ça n’a rien a voir avec une question de support originel des documents en question. Il se trouve simplement que l’informatique permet de croiser, de diffuser, de confronter, mieux que ce que les journaux papier pouvaient faire jusqu’ici. Le chercheur suscité s’intéresse trop aux journalistes, pas assez à la circulation de l’information. Il est amusant de voir que la plupart des journaux français en ont fait de même dans leurs compte rendus  de cette affaire, d’où leur demi-teinte et, pour beaucoup, leur aveuglement.

    Allons plus loin: je pense que cette forme de journalisme ne doit en aucun cas supplanter les autres – personnellement j’ai un faible bien plus prononcé pour les déplacements, les rencontres, le reportage. Elle est complémentaire. Et pour tout te dire, jusqu’à Wikileaks, j’étais circonspect sur le datajournalism, notamment après lecture de certains articles chez toi ,-)   
    Mais je crois que, oui, nous assistons à une nouvelle donne. A quelque chose qui est en train de changer le métier. Que certains en fassent leur beurre et leur marketing, on s’en doute et je m’en fous. Les marchands sont toujours à la porte du temple. C’est même a ça qu’on les reconnait.    

    Bon dimanche l’ami ,-)

  • Posted 1 August 2010 at 12 h 17 min | Permalink

    @ Simplicissimus et Davduf

    Désolé, mais vous êtes en train d’entretenir une véritable confusion, en mettant vraiment du datajournalisme “à toutes les sauces”.

    Si des rapports militaires sont des données brutes, alors le datajournalism, c’est du journalisme totalement traditionnel. Il n’y a absolument rien de neuf là-dedans, et je ne vois pas pourquoi il faudrait inventer un nouveau mot pour ça. A part pour faire chic et moderne à bon compte.

    Or, il y a précisément quelque chose de neuf dans le datajournalism, quand il s’agit réellement de traiter des données brutes. “Brute”, ça veut dire quelque chose de précis. Ça ne veut pas dire qu’il s’agit de données que viendrait seulement de découvrir un journaliste et sur lesquelles il n’aurait pas encore travaillé. Ou pire, ça ne veut pas dire qu’il y a simplement beaucoup de documents à traiter ! C’est ridicule.

    “Brute”, ça veut dire que la donnée n’a encore fait l’objet d’aucune construction, d’aucune mise en relation avec d’autres données, à partir de quoi on peut faire émerger un sens.

    Dans le cas de rapports militaires, ce sont des données à ce point peu “brutes”, que leur traitement exige même de d’abord procéder à leur “déconstruction” : analyser les conditions dans lesquelles ce document a été produit, par qui, dans quel objectif, quel a été son cheminement, etc. On est exactement dans la bonne vieille pratique de la critique documentaire (critique interne/critique externe, etc.). Rien de neuf sous le soleil.

    Un vrai traitement de “données brutes”, c’est – par exemple – ce qu’a fait ActuVisu avec les performances sportives des coureurs du Tour de France (http://www.actuvisu.fr/#tour-de-france-performance).

    Chacune des données, prise individuellement, n’a pas vraiment de sens. On ne peut pas en faire grand chose. Elles sont vraiment “brutes”. Mais associées en masses, et traitées de manière statistiques, là, elle “révèlent” des choses : les performances de certains coureurs sont “anormales”, et on peut identifier précisément qui.

    Alors oui, des “data”, le plus souvent se résument à n’être que des 0 et des 1, parfois des mots, et l’essentiel du traitement qu’on effectue est de nature stattistique.

    Quand on sort de là, il n’y a plus de data, donc pas de datajournalism. Mais ça n’empêche nullement de faire quand même du “journalisme tout court”.

    Ce qui m’agace dans cette confusion, c’est que l’on vide le concept de tout sens en l’employant à tort et à travers. Et surtout que certains (je ne dis pas vous ;-) ), utilisent aujourd’hui le terme comme un slogan markéting, pour se donner une apparence de modernité et d’innovation quand ils ne font que réinventer l’eau chaude.

    EDIT : PS à Simplicissimus : je n’ai trouvé aucun élément indiquant que le Guardian a fait travailler des statisticiens sur ces documents. Ta source ? Je n’ai trouvé que la seule indication que je mentionne dans ce billet : la traduction automatisée des abréviations militaires.

  • Simplicissimus
    Posted 1 August 2010 at 13 h 01 min | Permalink

    1. Déprimant !
    — clip, clip —-
    Brute, …, ça ne veut pas dire qu’il y a simplement beaucoup de documents à traiter ! C’est ridicule.

    Mais associées en masses, et traitées de manière statistiques, là, elle « révèlent » des choses
    — clip, clip —

    *no comment*

    2. Déprimant !
    Si le statisticien ne connait pas
    — clip, clip —
    les conditions dans lesquelles (les données) (ont) été produit(es), par qui, dans quel objectif, quel a été son cheminement, etc.
    — clip, clip —
    et bien, il fait n’importe quoi !

    C’est sans doute le message le plus important à faire passer dans l’enseignement des stats. La maîtrise des traitements techniques n’a jamais dispensé de la réflexion sur les données et les conditions de leur production.

    @PS narvic : je ne sais pas s’il y a un statisticien dans l’équipe, mais ce que je sais c’est que si un des groupes de travail que j’encadre dans les formations de statistiques me pondait un pareil boulot je serais vachement content !

  • Posted 1 August 2010 at 18 h 27 min | Permalink

    @ simplicissimus

    On va mettre les choses au point.

    Croyez bien que je suis aussi atterré que navré par la qualité comme par le ton de ce genre de commentaire, si on peut même appeler ça comme ça.

    Je tente ici de m’exprimer par des arguments, qui expriment mes opinions, que vous n’êtes pas obligé de partager, cela va de soi. Si j’ouvre ce blog aux commentaires, c’est pour tenter d’y nouer des conversations qui soient des échanges d’arguments également, pas pour récolter des sarcasmes gratuits et méprisants tels que les vôtres.

    Un prochain commentaire de ce type sera, soyez donc prévenus, tout simplement effacé.

  • Posted 1 August 2010 at 18 h 47 min | Permalink

    Chez @narvic , bataille dans les commentaires sur le datajournalisme, je suis cité dans le billet http://bit.ly/9zm2vl

    Commentaire posté sur Twitter

  • Posted 1 August 2010 at 19 h 16 min | Permalink

    Cher Narvic,

    Je n’épiloguerai pas. Sur ce coup, une fois n’est pas coutume, nous ne serons pas d’accord. Disons que je continue a penser que la lise a la disposition de tous de documents bruts de l’armée est une avancée dans la connaissance de tous. Le fait que certains des médias les plus importants au monde – ce n’est pas rien – se soient associés à l’opération est un signe absolument essentiel de ce qui est en train de se jouer dans la fabrication même de l’information.

    Au fond, l’appellation de datajournalism est, à mes yeux, extrêmement secondaire (mon article effleure ce point pour en aborder d’autres). Je me permets de te soumettre un lien vers quelqu’un qui, visiblement, s’y connait en  secrets militaires  et qui semble prendre l’affaire à sa mesure (et avec beaucoup de mesure):
     How WikiLeaks Could Change the Way Reporters Deal With Secrets
    http://www.propublica.org/article/how-wikileaks-could-change-the-way-reporters-deal-with-secrets

  • Simplicissimus
    Posted 2 August 2010 at 8 h 04 min | Permalink

    [Note de narvic: ce commentaire avait été placé en file d'attente de modération automatiquement par mon filtre antispam, en raison du nombre de liens qu'il contient.]

    Sincèrement désolé, Narvic, si mon commentaire a pu vous paraître sarcastique et méprisant. Je vais essayer d’argumenter plus solidement ma position.

    L’idée qu’il n’y ait pas de données brutes dans le corpus de warlogs est pour le moins originale. Peut-être pourrait-on l’interpréter et la comprendre dans le sens où il s’agirait d’informations *en amont* des données brutes. Les données brutes étant, dans cette acception, le tableau de données auquel le statisticien est habitué.

    On se trouve ici devant un corpus de documents, documents collectés à des fins autres que statistiques (fonctionnement bureaucratique normal d’une armée : comptes-rendus) dans une situation très proche de la situation de départ du “data mining” (d’ailleurs, je serai curieux de voir ce que des méthodes de “text mining” (dont je ne suis pas expert) pourraient obtenir à partir de ce corpus).

    Pour revenir à nos statistiques, pour qu’un tel ensemble de documents, d’événements soit exploitable, il faut :
    opérer des découpages, des codages, () établir des équivalences, () totaliser, () calculer des moyennes résumant des catégories

    Tout ce travail qu’Alain Desrosières nomme “mise en équivalence”.
    (la citation vient de Masses, individus, moyennes : la statistique sociale au XIXe siècle, p. 53)
    http://documents.irevues.inist.fr/bitstream/handle/2042/15681/HERMES_1988_2_41.pdf

    Loin d’être une déconstruction, il s’agit de l’essence même de l’intervention statistique qui transforme les éléments du corpus en “individus statistiques” que l’on pourra décrire dans le classique tableau de données brutes, sur lequel on appliquera les outils statistiques traditionnels et d’abord le comptage.

    Oui, il a fallu du travail à l’équipe du Guardian pour aboutir au fichier de 310 événements stockés sous forme de feuille de calcul Excel et téléchargeable ici.

    http://www.guardian.co.uk/world/datablog/2010/jul/25/wikileaks-afghanistan-data

    Ce travail-là est un vrai travail de statisticien. Qu’il soit effectué avec des traitements automatisés (dans ce cas un énorme bravo à l’équipe de conception et de programmation) ou (non exclusif) en y passant énormément de temps de compilation, annotation, etc. avec des outils bureautiques, il s’agit du coeur de métier du statisticien.

    D’une certaine façon, la négation du statut de “données brutes” est une résultante d’un travers de l’enseignement académique de la statistique où les données sont toujours données dans la forme attendue ce qui permet aux spécialistes d’utiliser leurs méthodes (et leurs logiciels). L’élaboration préalable de ces données relève de tâches ancillaires dont l’expert ne se préoccupe pas.

    À titre d’illustration de ce travers, dans toute ma carrière d’encadrant de groupe de travail, la consigne a toujours été de fournir des “données propres”. Tout élève ayant ensuite passé ne serait-ce qu’une semaine en stage pratique a pu constater qu’il s’agit là d’un oxymore. L’activité d’exploration, analyse, nettoyage des données fait intégralement partie des tâches du statisticien, mais elle est totalement hors du champ de l’enseignement académique.

    Si animosité il y a eu de ma part, je vous prie de m’en excuser d’une part et de bien vouloir en considérer l’origine dans l’effet que produit (et continue à produire !) sur moi cette mise hors-champ et ce mépris pour ce que j’appelle “la production de données”.

  • Posted 2 August 2010 at 11 h 34 min | Permalink

    Bonjour,

    Intéressant débat, je me réjouis qu’il soit ouvert ici, alors même que le terme « datajournalism » est de plus en plus utilisé, et pas toujours avec raison, je le reconnais.

    Personnellement, je ne suis pas vraiment passionnée par ce genre de controverse lexicale : est-ce que oui ou non les warlogs de Wikileaks rentrent dans la définition du datajournalism… Quelle importance ? et quelle définition d’ailleurs ? Définition arrêtée par qui ?

    J’aurai tendance à dire que le datajournalism commence là où il y a des « data ». C’est une condition nécessaire, mais loin d’être suffisante. Pour le reste, on est encore et toujours dans le domaine du « flou » propre au journalisme.

    Quant à savoir ce qu’est une « data », j’adhère aux arguments de Simplicissimus et davduf:
    -toute donnée est constuite doit être contextualisée
    -la réduire à une suite de 0 et de 1 n’a pas de sens
    -que le datajournalism deviennent un argument marketing n’est pas un problème, au contraire, plus on parle de ces nouvelles pratiques de traitement de l’information, plus elles ont une chance d’être adoptées.

    Pour en revenir à Wikileaks, j’aimerai juste apporter au débat ma petite expérience : avec une partie de l’équipe ActuVisu nous avons travaillé sur la base de données des warlogs pour LEXPRES.fr. Je ne sais pas si ce que nous avons fait était du datajournalisme ou non, tout ce que je sais, c’est que j’ai eu besoin de travailler en équipe, avec un développeur data pour gérer les bases de données et un statisticien-développeur pour les traiter et les visualiser. Sans eux, il n’aurait pas été possible de travailler sur les documents de Wikileaks.

    Le résultat est là : http://www.lexpress.fr/actualite/monde/notre-carte-interactive-des-dossiers-impliquant-les-troupes-francaises_909284.html
    Nous avons voulu rendre les donnés compréhensibles pour un Français non familiarisé avec les thématiques militaires. Nous nous sommes intéressés aux cas impliquant l’armée française, nous nous sommes dit que les placer sur une carte serait une bonne façon d’entrer dans les données, et qu’avoir un aperçu global du nombre de victimes apportait quelque chose au débat. Mais nous avons aussi pensé que sans traduction ces données n’avaient pas de sens. Et nous avons accompagné la visualisation d’un article plus « narratif ».

    Le trio journaliste + statisticien + développeur (un graphiste en plus aurait d’ailleurs été idéal) me semble tout à fait nouveau, et capable d’apporter de nouvelles façons de traiter l’actualité. Qu’on appelle ça ou non du datajournalism est accessoire, c’est la façon dont les méthodes de travail changent qui est véritablement intéressant.

  • Posted 2 August 2010 at 11 h 40 min | Permalink

    War-Logs de Wikileaks, ou le datajournalism sans data ! par @narvic :article et surtout débat intéressant http://ff.im/-oAhdZ

    Commentaire posté sur Twitter

  • Posted 2 August 2010 at 12 h 19 min | Permalink

    @ Davduf

    Bien d’accord que cette question n’est qu’un point très accessoire de l’ensemble de “l’affaire” War-Logs, sur laquelle je me suis exprimé dans un autre billet.

    C’est bien pour ça que j’ai séparé les deux ! ;-)

    @ Caroline

    Un journaliste ne devrait jamais négliger les débats lexicaux ! C’est, justement, une partie essentielle de son travail de choisir les mots, en tentant de le faire avec précision. ;-)

    Il me semble là encore que l’on mélange les choses dans cette affaire.

    Entre la question du traitement journalistique des documents et la mise en forme des informations destinées à être communiquées au public.

    Sur les War-Logs, par exemple, je reste persuadé que la publication intégrales de la masse de ces rapports n’est qu’un aspect totalement annexe de cette affaire. Ça contribue à crédibiliser l’information qui est délivrée par ailleurs, en permettant au lecteur de vérifier ce sur quoi on s’est basé pour lui proposer une interprétation. S’il en est capable, qu’il en a le temps et l’envie, ce qui n’est pas le cas pour 99,99% des lecteurs.

    C’est un argument de transparence et de crédibilisation utile, mais pas si fondamental que ça, face à l’analyse elle-même des documents et leur interprétation.

    Le NYT, par exemple, a bien estimé que la forme la plus appropriée pour rendre compte de ces War-Logs était un très long article, analytique et narratif, discutant les faits révélés par les rapports sélectionnés comme pertinents par ses équipes au sein d’une masse de documents dont l’essentiel rapporte des faits anecdotiques ou non significatifs.

    Passons, justement, à cette “cuisine interne” du tri des documents. L’opération à effectuer sur ces War-Logs n’est pas du tout de même nature que celle, par exemple, sur les données des performances des sportifs du Tour de France.

    Dans le cas du TDF, c’est l’agrégation de ces données et leur traitement comme un ensemble, qui produit de l’information.

    Avec les War-Logs, c’est exactement le contraire : il s’agit d’isoler au sein de cette masse, qui globalement n’a pas de sens, les documents individuels qui, eux, sont pertinents et produisent de l’information.

    La première pratique est beaucoup moins habituelle dans le journalisme et demande des compétences nouvelles dans le domaine des statistiques et de l’informatique, que la seconde, qui est le B A – BA du métier, qui fait appel aux bonnes vieilles techniques d’analyse documentaire (à peu près la même méthode qu’utilisent les historiens, archivistes, bibliographes… ou enquêteurs policiers… etc.), complétée par une expertise approfondie de la question dont il est question (ici: l’histoire et la géographie de l’Afghanistan et les affaires militaires).

    Ce qui a donné un sens aux documents Wikileaks, ce n’est pas leur publication en bloc, c’est l’interprétation qui a été effectuée d’une sélection d’entre eux par les experts du New York Times, du Guardian et du Spiegel.

    D’ailleurs, les spécialistes de cette guerre nous indiquent que, au final, ces documents ne contenait pas de véritable révélation, et ne font que confirmer ce que l’on savait déjà : une situation complexe, une guerre sans perspective de victoire, qui fait beaucoup de victimes collatérales, aliénant le soutien de la population civile, le double jeu du Pakistan et la sous estimation de la force militaire des taliban.

  • Posted 2 August 2010 at 12 h 56 min | Permalink

    @ Simplicissimus

    Désolé si vous ne voyez dans mon propos qu’un “mépris pour « la production de données »”, alors que je ne souhaite que souligner que l’apport du traitement informatisé de ce stock de documents des War-Logs est juste totalement surévalué.

    Alors que ce qui a produit du sens et de l’information du traitement de ces données, c’est un travail journalistique très classique d’analyse documentaire, qui emprunte beaucoup plus à l’archivistique et aux sciences documentaires qu’à la stattistique. (cf. mon commentaire précédent).

One Trackback