Table des matières:
- À la recherche de bibliothèques
- Partenariats public-privé
- Données anciennes et nouvelles
- Ressources:
Vidéo: Enquête | Ces avocats qui dépassent la ligne (Novembre 2024)
À la fin du mois de mai de cette année, exactement cinq mois après l’inauguration du 45e président des États-Unis, un groupe de personnes préoccupées par la position de la nouvelle administration en matière de science et de changement climatique a célébré son propre anniversaire.
Non loin du campus de l'Université du Nord du Texas, dans les plaines du nord de Dallas, plusieurs dizaines de personnes se sont réunies à Data Rescue Denton pour identifier et télécharger des copies d'ensembles de données fédéraux sur le climat et l'environnement. Ces rassemblements de style hackathon ont fait l’objet d’une attention soutenue au cours des jours qui ont immédiatement précédé l’inauguration; Denton était le 50ème événement de ce type depuis janvier.
S'inquiétant initialement de la possibilité que le nouveau gouvernement supprime ou obscurcisse le climat et d'autres données environnementales, les pires craintes des sauveteurs de données semblaient se réaliser lorsque l'une des premières actions de la Trump White House était de supprimer les pages sur les changements climatiques de son site Web. Ensuite, le Département de l'agriculture des États-Unis, après avoir supprimé les rapports d'inspection du bien-être des animaux de son site Web, a répondu à une demande du National Geographic Freedom of Information Act avec 1 771 pages de documents entièrement rédigés.
Tout le monde peut accéder aux plus de 153 000 jeux de données fédéraux via le portail de données ouvertes du gouvernement central à data.gov. Mais ce n'est qu'une fraction des données existantes dans la nébuleuse de la bureaucratie gouvernementale, sans parler de la fraction encore plus petite qui se trouve sur un serveur.
"Environ 20% des informations du gouvernement sont accessibles via le Web", a déclaré Jim Jacobs, bibliothécaire de l'information du gouvernement fédéral à la bibliothèque de l'Université de Stanford. «C’est un assez gros volume de matériel qui n’est pas disponible. Bien que les agences disposent de leurs propres wikis et systèmes de gestion de contenu, la seule fois où vous en découvrez une, c’est si quelqu'un le FOIA.»
Certes, de nombreuses informations ont été capturées et résident désormais sur des serveurs non gouvernementaux. Entre les événements Data Refuge et les projets tels que le balayage de fin de session 2016, plus de 200 To de sites Web et de données des gouvernements ont été archivés. Mais les organisateurs du sauvetage ont commencé à se rendre compte que les efforts ponctuels visant à créer des copies complètes de téraoctets de données scientifiques d'agences gouvernementales ne pourraient raisonnablement pas durer à long terme - ce serait un peu comme sauver le Titanic avec un dé à coudre.
Ainsi, bien que Data Rescue Denton ait été l’un des derniers événements organisés de ce type, l’effort collectif a incité une communauté plus large à travailler de concert pour rendre plus de données gouvernementales détectables, compréhensibles et utilisables, a écrit Jacobs dans un blog.
À la recherche de bibliothèques
À l’Université de Pennsylvanie, Bethany Wiggin est la directrice du Penn Program in Environmental Humanities, où elle a joué un rôle central dans le mouvement Data Refuge, à l’origine des événements Data Rescue. Elle a maintenant mis l'accent sur la nécessité de tirer parti des cadres nationaux pour les efforts à long terme plutôt que pour les épisodes périodiques basés localement.
"Nous avons compris que les compétences acquises dans divers endroits permettaient de mettre à niveau des événements de données de sauvetage", a déclaré Wiggin, en particulier dans les bibliothèques de recherche. "Mais tous ces efforts ont été déployés avant notre lancement. Data Refuge a eu pour pouvoir d’épaissir ces liens; de catalyser des projets lents et de longue date; et de mettre en lumière leur importance."
Wiggin a récemment aidé à diriger Libraries + Network, un nouveau partenariat formé de bibliothèques de recherche, d’organisations de bibliothèques et de groupes de données ouvertes catalysés pour élargir le rôle traditionnel des bibliothèques dans la préservation de l’accès à l’information. Parmi les participants figurent la bibliothèque de recherche de l'Université Stanford, la bibliothèque numérique de Californie et la fondation Mozilla, avec la collaboration d'entités aussi diverses que les Archives nationales et les responsables des données de plusieurs bureaux fédéraux.
Un projet, par exemple, est LOCKSS ("de nombreuses copies gardent le matériel en sécurité"), que Jacobs coordonne depuis plusieurs années. Il repose sur le même principe qu’un réseau de bibliothèques vieux de 200 ans, connu sous le nom de Federal Depository Library Program; ces bibliothèques sont des référentiels officiels des publications du gouvernement américain Printing Office (GPO).
LOCKSS, en revanche, est une version numérique privée de ce système, qui comprend jusqu'à présent 36 bibliothèques qui collectent des publications du GPO avec sa coopération. Il s'agit d'un modèle de protection de l'information numérique contre la suppression ou la falsification par une dispersion physique étendue.
"Vous ne pouvez pas assurer la conservation à moins d'avoir le contrôle du contenu", a déclaré Jacobs. "Une partie de ce qui a rendu les bibliothèques de dépôt importantes et utiles au cours des 200 dernières années est que personne au gouvernement ne peut éditer un document sans consulter réellement 1 500 bibliothèques et leur dire:" Oui, changez cette page ici ".
Le logiciel LOCKSS utilise des caches de contenu de contrôle au niveau des bits et le compare au contenu des autres bibliothèques, ce qui, selon Jacobs, contribue à assurer la conservation à long terme par la réparation des fichiers dégradés.
John Chodacki, un autre collaborateur du réseau Bibliothèques +, est le directeur de la curation de la California Digital Library, un centre d’information virtuel qui dessert les 10 campus du système de l’Université de Californie. Travaillant avec Max Ogden, développeur de Code pour la science et la société, et Philip Ashlock, architecte en chef chez data.gov, M. Chodacki a indiqué qu'ils se concentraient sur l'utilisation de data.gov comme voie à double sens.
Ils ont d'abord démontré que le sauvetage de données lui-même pourrait être beaucoup plus efficace en récupérant une copie de data.gov et en la plaçant sur un site extérieur, datamirror.org, avec des scripts de surveillance vérifiant les mises à jour. Ensuite, Chodacki et ses collaborateurs ont également commencé à chercher à savoir si les ensembles de données et les métadonnées vers le miroir pouvaient alimenter les flux de travail data.gov existants des agences via des pages de raccourci sur le miroir.
Conformément à l'ordonnance d'Obama de 2013 imposant la publication de données lisibles par machine sur data.gov, les agences seraient toujours responsables de la génération des enregistrements répertoriés sur ce portail. L'idée de Chodacki et Ogden est que l'externalisation ouverte des ensembles de données suggérés contribue simplement à répartir la charge de travail.
"Nous n'avons pas besoin de reproduire l'ensemble de l'écosystème", a déclaré Chodacki. "Le gouvernement fédéral et ces agences traitent les données depuis bien plus longtemps que de parler du big data, et de manière beaucoup plus robuste que quiconque."
Partenariats public-privé
La question du coût est évidente pour ce qui est de savoir comment les agences sont en mesure d'identifier quels jeux de données sont les plus utiles pour le public, puis de publier des liens vers leurs métadonnées ou des jeux de données réels via le portail gouvernemental. Un rapport du Bureau du budget (CBO) du projet de loi OPEN sur la loi relative aux données sur le gouvernement actuellement au Sénat - qui codifierait le décret-loi d'Obama - estime que sa mise en œuvre totale coûterait 2 millions de dollars entre 2018 et 2021.
En termes monétaires, cela ne représente pratiquement aucune augmentation réelle des dépenses, a conclu CBO.
Cependant, l'efficacité est une question différente. Ed Kearns, de la National Oceanic and Atmospheric Administration, expérimente avec des partenaires privés, notamment Amazon Web Services et Google. Kearns, responsable des données de la NOAA, a déclaré que l'augmentation de la disponibilité publique et de l'utilisation des données de la NOAA est un objectif majeur du projet Big Data.
Les entreprises identifient les ensembles de données qu'elles souhaitent et la NOAA les transmet sans frais supplémentaires au public. Kearns a déclaré que tout ce que la NOAA avait à sa disposition sur le marché, mais l'objectif du partenariat de cinq ans n'est pas de mettre toutes les données de la NOAA sur le cloud, mais uniquement des morceaux stratégiques.
L'hébergement de tels jeux de données sur les services de cloud des entreprises privées présente plusieurs avantages par rapport à l'accès FTP des années 80, qui reste standard pour le transfert de gros jeux de données depuis des agences fédérales. Pour commencer, les ensembles de données de la NOAA ont tendance à être volumineux - l'agence surveille les océans, l'atmosphère, le soleil et la météo de la Terre - et nécessite parfois des semaines ou des mois pour la diffusion publique.
L'archive radar Doppler NEXRAD niveau II haute résolution en est un exemple. Selon une étude publiée en mai par l'American Meteorological Society, le transfert de la totalité des archives NEXRAD de 270 téraoctets à un seul client en octobre 2015 aurait pris 540 jours pour un coût de 203 310 $. Une copie complète de l'archive n'avait jamais été disponible pour une analyse externe avant que la NOAA collabore avec Amazon et Google pour en créer une sur le cloud.
L'expérience a également donné quelques premiers résultats intéressants avec des augmentations d'utilisation. Les pages Web de prévisions et de prévisions météorologiques de la NOAA reçoivent déjà des niveaux de trafic parmi les plus élevés des sites gouvernementaux, mais après que Google ait récemment intégré un jeu de données climat et météo d'une taille d'environ 1 Go dans sa base de données BigQuery, la société a annoncé avoir livré 1, 2 pétaoctet de ce jeu de données. du 1er janvier au 30 avril - beaucoup plus que jamais auparavant dans des délais similaires depuis les serveurs de la NOAA.
"Google a réussi à l'ouvrir à un tout nouveau public", a déclaré Kearns.
Ce n'est pas juste la pluie et les températures saisonnières. Les ensembles de données désormais disponibles via les partenaires Big Data incluent des informations sur les pêches, la météo marine et un catalogue hébergé par IBM répertoriant les ensembles de données actuels, prévisionnels, historiques et géospatiales des centres NOAA. Les futurs ensembles de données pourraient même inclure des informations sur les écosystèmes et la génomique des pêches.
Mais, à dessein, le partenariat permet aux collaborateurs de choisir ce qu’ils veulent le plus, ce qui présente le risque que des ensembles de données obscurs, mais potentiellement de grande valeur, ne voient pas le jour. Kearns dit qu'il est trop tôt pour dire ce qui pourrait éventuellement être considéré comme précieux.
"L'ampleur et la portée de ce que nous pouvons faire avec ces données sont stupéfiantes pour nous", a-t-il ajouté. "Nous ne pouvons pas imaginer toutes les utilisations possibles."
Sur une plus petite échelle, la ville de Philadelphie a également collaboré avec une entité privée en vue de la publication d’ensembles de données jugés très utiles par le public. Bien que la taille d'une ville lui confère une maniabilité opérationnelle quotidienne supérieure à celle d'une entité fédérale, le modèle de Philly représente une approche pour la stratégie de publication de jeux de données non encore publiés.
Azavea, une entreprise de logiciels basée à Philly et spécialisée dans la visualisation de données, a collaboré avec Tim Wisniewski, responsable de l'information de la ville, pour développer une liste d'ensembles de données non publiés que les organisations à but non lucratif de la ville pourraient être intéressées à utiliser. Wisniewski et Azavea ont utilisé à la fois le catalogue de métadonnées en ligne de la ville et les informations fournies par les services de la ville pour développer la liste. Azavea et d'autres partenaires ont ensuite acheté la liste aux organisations à but non lucratif de Philadelphie et ont lancé OpenDataVote, un concours permettant au public de voter sur les projets proposés par ces organisations caritatives sur la manière dont elles utiliseraient leurs ensembles de données préférés.
MicroSociety, une organisation à but non lucratif pour l'éducation, a récemment proposé la solution consistant à utiliser les données de la ville sur les donateurs du district scolaire de Philadelphie afin de mesurer l'impact des programmes à but non lucratif dans les écoles.
"Nous pouvons dire que cette ville à but non lucratif est intéressée par un ensemble de données particulier car elle peut faire quelque chose avec cet ensemble, et que tant de personnes ont voté en faveur de leur soutien", a déclaré Wisniewski. "Cela nous permet d'aller voir les ministères avec un cas d'utilisation solide plutôt que de dire, hé, de publier ces données juste parce que."
Données anciennes et nouvelles
Mais que se passe-t-il même lorsque l'accès aux données est déjà abondant, lorsque de nouvelles politiques et directives de financement signifient que les données elles-mêmes ne sont tout simplement plus générées? C'est une réelle préoccupation, a déclaré Ann Dunkin, qui était directrice de l'information à l'Agence de protection de l'environnement du président Obama et qui dirige désormais l'informatique pour le comté de Santa Clara, en Californie.
"Les gens s'inquiètent des anciennes données, mais ce qui m'inquiète le plus, c'est que les nouvelles données ne sont pas mises à disposition au même rythme qu'avant, ni générées du tout", a déclaré Dunkin.
Dans une analyse du budget fédéral proposé pour 2018 par le magazine Science, de nombreux organismes gouvernementaux réaliseraient des réductions significatives de leurs budgets de recherche si le budget était adopté tel que proposé. Une réduction d'environ 22% aux Instituts nationaux de la santé contribuerait à financer les universités de recherche; la demande budgétaire de la NASA éliminerait les initiatives de surveillance des émissions de gaz à effet de serre et les autres programmes de sciences de la Terre. Les programmes climat de la NOAA pourraient également être fermés avec des niveaux de réduction similaires.
Au cours de son mandat, l’EPA s’est efforcée de transformer sa collecte de données en un outil utilisable par toute personne pour comprendre la santé de son environnement et savoir comment réagir. Mauvaise journée aérienne? Ne va pas dehors. Ruisseler sur le chemin pollué? Éloignez les enfants.
"Mon attente est que cela va reculer", a ajouté Dunkin. "Je peux me tromper, mais si vous dites que nous ne rendrons pas les données disponibles, la conclusion logique est que les ensembles de données qui pourraient aider les membres du public ne seront pas disponibles ou ne seront pas générés au départ."
Wiggin, de Data Refuge, travaille sur un projet de narration lié à cette question qui, espère-t-elle, incitera davantage de personnes à exiger la publication continue de données et à susciter un soutien considérable pour les programmes de collecte de données existants au sein du gouvernement fédéral. Les récits de "Trois histoires dans notre ville" décrivent l’impact souvent caché des données fédérales dans des endroits inattendus, en commençant par Philadelphie, puis dans d’autres endroits du pays.
"Un élément crucial du mouvement Data Refuge, alors que nous passons à la phase suivante, consiste à aider les gens à comprendre à quel point les données produites par le gouvernement fédéral sont largement utilisées dans leur vie", a déclaré Wiggin. "Qu'il s'agisse de climat, de santé ou de sécurité publique, ce sont toujours des données fédérales. Elles se trouvent dans les communautés, à l'hôtel de ville, dans les efforts de maintien de l'ordre, dans l'armée. Nous devons garder à l'esprit à quel point ces données sont importantes."
Ressources:
- EPA Environmental Dataset Gateway: Portail de métadonnées de l’Environmental Protection Agency.
- Open Data @ DOE: portail de données ouvertes du ministère de l'Énergie.
- Portail de données du service de recherche économique de l'USDA
- Ressources Big Data de la NOAA: liens vers les pages de la plateforme des partenaires Big Data qui hébergent des données générées par la NOAA.
- University of North Texas: Cyber Cemetery: Archives de sites Web disparus, obsolètes ou fermés.
- Page du projet d'archivage de l'initiative sur les données environnementales et la gouvernance: outils, code et applications liés à la découverte et à l'archivage des données gouvernementales.
- Internet Wayback Machine
- Internet Archive: Comment enregistrer des pages dans la Wayback Machine: Six façons de nommer des pages à archiver.
- California Digital Library: Archives Web de fin de session: Collection de sites Web du gouvernement américain enregistrés dans les analyses de fin de session, de 2008 à nos jours.
- FreeGovInfo.info: contenu varié contenant des informations sur les portails de données aux niveaux fédéral et des États, ainsi que des archives de reportages sur des problèmes de données ouvertes.
- Climate Mirror: une collection de jeux de données climat rassemblés par des volontaires.
Cette histoire a été publiée pour la première fois dans PC Magazine Digital Edition. Abonnez-vous aujourd'hui pour des articles de fond plus originaux, des nouvelles, des critiques et comment!