Article traduit de l'Anglais. Source : http://spectrum.ieee.org/at-work/innovation/the-coming-data-deluge
Par Paul McFedries / Février 2011
"Ce nouveau modèle se rapporte, aux données capturées par des
instruments ou générées par des simulations avant d'être traité par du logiciel,
et à l'information ou la connaissance résultants afin d'être stockés sur des
ordinateurs. Les scientifiques n'ont qu'à seulement prêter attention à ces
données très tard dans ce pipeline.
Les techniques et technologies pour cette science
consommatrice de données (data intensive science) sont si différentes qu'il devient
préférable de distinguer cette science consommatrice de données des sciences
informatiques, comme nouvelle et représentant un quatrième
paradigme dans l'exploration scientifique."
Jim Gray, Informaticien
D'après le dernier Jim Gray (perdu en mer en 2007), jusqu'à récemment, la science à été majoritairement le produit de
3 paradigmes correllés : Expérimental, Théorique et informatique. Malgré tout,
le paradigme informatique génére maintenant tant de données qu'il en émerge un
quatrième, qui requière de nouveaux outils et techniques de stockage, d'organisation,
de filtrage, de partage et d'analyse de ces montagnes de données. Gray appela
ce nouveau paradigme eScience et le caractérisa par l' "IT
rencontre les scientifiques". Que vous soyez scientifique ou
informaticien, cette nouvelle "science de la donnée massive (Data Intensive Science)" est une chose fascinante, et pour le neologiste, de ce
territoire émerge un nouveau vocabulaire.
Dans le passé, la pulpart des disciplines scientifiques
pouvaient être décrites comme Small Data ou Data Poor.
La plupart des expérimentations ou études devaient faire face à seulement
quelques centaines voire milliers de données ponctuelles. Maintenant, grâce aux
nouveaux instruments et simulateurs massivement complexes, beaucoup de
disciplines génèrent des ensembles de données massives correspondantes appelé Big Data ou Data Rich.
Considérez le Large Hadron Collider (Accélérateur de particule du CERN)
qui peut éventuellement générer 15 peta octets de données par an. Un peta octet
représente à peu prêt un million de gigaoctets, ce qui le qualifie de véritable
déluge de données.
Et si vous pensez que le genome humain complet représente
beaucoup de données, les neuroscientifiques ont eux même pour objectif de créer
un "connectome", une carte complète des circuits neuronaux du
cerveau. Le problème? D'après les chercheurs MF Cohen et JW Litchman, une image
cubique de 1mm de coupe du cerveau comprendrait 1 petaoctet de données (à une
résolution de 5 nanomètres). Il existe
à peu près un million de mm cube de matière neurale à cartographier,
représentant à peu près 1000 exaoctets (un exaoctet représente environ 1000
petaoctets), ce qui qualifie ceci, comme Jim Gray l'appela un jour, d'Exaflood
de données.
Ces ensembles massifs de données requièrent un calcul massif
(Massive Computation), ainsi, les scientifiques doivent devenir des
scientifiques de la donnée (Data Scientists), et utiliser les derniers
logiciels et outils de base de données pour faire du Datamining, qui est
l'extraction de modèles et de connaissances à partir d'ensembles de données
importants et complexes.
Peut être le plus grand ensemble de données serait la
collection des actions, choix et préférences que chaque personne effectue tous
les jours, ce qui représente son ou sa donnée exaustive (Data Exaust). Utiliser
de telles données pour un but scientifique et appelé Citizen Science. C'est de la donnée parasitée (Noisy Data) laquelle est en grande
partie inductrice d'erreur voire non siginificative mais il y a moyen d'y
trouver un signal.
Un bon exemple est le Google Flu Trends. Dans le passé, les
épidémiologistes auraient observé les pic de grippes émergeants en examinant
laborieusement les rapports des physiciens, grippes et prescriptions de
médicaments, et autres sources du monde réel. Cette surveillance symptomatique
a traditionnellement trop été consommatrice de temps pour être d'une grande
utilité. Au contraire, Google Flu Trends, examine les termes recherchés en
rapport avec la grippe, ce qui permet aux chercheurs de capter en temps réel
les modèles grippaux.
Avec la croissance des capteurs Terrestres et autres
appareils fournissant des données brutes sur l'état de la planète, beaucoup de
scientifiques envisagent maintenant de combiner ces appareils dans un "macroscope"
planétaire distribué qu'ils pourraient utiliser pour zoomer sur une multitude
d'états globaux.
A mesure que cette eResearch devient sophistiquée et plus
valable, les scientifiques des données (data scientists) réalisent que ces
énormes ensembles de données doivent être partagés parmi de nombreux confrères,
laboratoires et institutions. C'est une bonne manière de commencer que de
rédiger des articles et développer des produits à des fins de recherche de plus
en plus largement disponibles, mais ce dont on a le plus besoin ce sont de
large bibliothèques de données numériques (Digital Data Libraries) qui stockent
non seulement des documents comme des articles de recherche mais aussi les
données sur lesquelles ces articles ont été basés. Maintenant, tout ce que nous
avons besoin c'est que quelqu'un vienne avec un système numérique "Dewey
Décimal" (Système de classification universel voir wikipedia) pour classer
toutes ces données. Un système "Dewey binary" peut être...
Aucun commentaire:
Enregistrer un commentaire