jeudi 1 décembre 2011

Opinion : Le Déluge de Données à venir

Article traduit de l'Anglais. Source : http://spectrum.ieee.org/at-work/innovation/the-coming-data-deluge
Par Paul McFedries / Février 2011 
 
"Ce nouveau modèle se rapporte, aux données capturées par des instruments ou générées par des simulations avant d'être traité par du logiciel, et à l'information ou la connaissance résultants afin d'être stockés sur des ordinateurs. Les scientifiques n'ont qu'à seulement prêter attention à ces données très tard dans ce pipeline.
Les techniques et technologies pour cette science consommatrice de données (data intensive science) sont si différentes qu'il devient préférable de distinguer cette science consommatrice de données des sciences informatiques,   comme  nouvelle et représentant un quatrième paradigme dans l'exploration scientifique."
Jim Gray, Informaticien
 
D'après le dernier Jim Gray (perdu en mer en 2007), jusqu'à récemment, la science à été majoritairement le produit de 3 paradigmes correllés : Expérimental, Théorique et informatique. Malgré tout, le paradigme informatique génére maintenant tant de données qu'il en émerge un quatrième, qui requière de nouveaux outils et techniques de stockage, d'organisation, de filtrage, de partage et d'analyse de ces montagnes de données. Gray appela ce nouveau paradigme eScience et le caractérisa par l' "IT rencontre les scientifiques". Que vous soyez scientifique ou informaticien, cette nouvelle "science de la donnée massive (Data Intensive Science)" est une chose fascinante, et pour le neologiste, de ce territoire émerge un nouveau vocabulaire.
Dans le passé, la pulpart des disciplines scientifiques pouvaient être décrites comme Small Data ou Data Poor. La plupart des expérimentations ou études devaient faire face à seulement quelques centaines voire milliers de données ponctuelles. Maintenant, grâce aux nouveaux instruments et simulateurs massivement complexes, beaucoup de disciplines génèrent des ensembles de données massives correspondantes appelé Big Data ou Data Rich.  Considérez le Large Hadron Collider (Accélérateur de particule du CERN) qui peut éventuellement générer 15 peta octets de données par an. Un peta octet représente à peu prêt un million de gigaoctets, ce qui le qualifie de véritable déluge de données.

Et si vous pensez que le genome humain complet représente beaucoup de données, les neuroscientifiques ont eux même pour objectif de créer un "connectome", une carte complète des circuits neuronaux du cerveau. Le problème? D'après les chercheurs MF Cohen et JW Litchman, une image cubique de 1mm de coupe du cerveau comprendrait 1 petaoctet de données (à une résolution de 5 nanomètres).  Il existe à peu près un million de mm cube de matière neurale à cartographier, représentant à peu près 1000 exaoctets (un exaoctet représente environ 1000 petaoctets), ce qui qualifie ceci, comme Jim Gray l'appela un jour, d'Exaflood de données.
Ces ensembles massifs de données requièrent un calcul massif (Massive Computation), ainsi, les scientifiques doivent devenir des scientifiques de la donnée (Data Scientists), et utiliser les derniers logiciels et outils de base de données pour faire du Datamining, qui est l'extraction de modèles et de connaissances à partir d'ensembles de données importants et complexes.
Peut être le plus grand ensemble de données serait la collection des actions, choix et préférences que chaque personne effectue tous les jours, ce qui représente son ou sa donnée exaustive (Data Exaust). Utiliser de telles données pour un but scientifique et appelé Citizen Science. C'est de la donnée parasitée (Noisy Data) laquelle est en grande partie inductrice d'erreur voire non siginificative mais il y a moyen d'y trouver un signal.
Un bon exemple est le Google Flu Trends. Dans le passé, les épidémiologistes auraient observé les pic de grippes émergeants en examinant laborieusement les rapports des physiciens, grippes et prescriptions de médicaments, et autres sources du monde réel. Cette surveillance symptomatique a traditionnellement trop été consommatrice de temps pour être d'une grande utilité. Au contraire, Google Flu Trends, examine les termes recherchés en rapport avec la grippe, ce qui permet aux chercheurs de capter en temps réel les modèles grippaux.
Avec la croissance des capteurs Terrestres et autres appareils fournissant des données brutes sur l'état de la planète, beaucoup de scientifiques envisagent maintenant de combiner ces appareils dans un "macroscope" planétaire distribué qu'ils pourraient utiliser pour zoomer sur une multitude d'états globaux.
A mesure que cette eResearch devient sophistiquée et plus valable, les scientifiques des données (data scientists) réalisent que ces énormes ensembles de données doivent être partagés parmi de nombreux confrères, laboratoires et institutions. C'est une bonne manière de commencer que de rédiger des articles et développer des produits à des fins de recherche de plus en plus largement disponibles, mais ce dont on a le plus besoin ce sont de large bibliothèques de données numériques (Digital Data Libraries) qui stockent non seulement des documents comme des articles de recherche mais aussi les données sur lesquelles ces articles ont été basés. Maintenant, tout ce que nous avons besoin c'est que quelqu'un vienne avec un système numérique "Dewey Décimal" (Système de classification universel voir wikipedia) pour classer toutes ces données. Un système "Dewey binary" peut être...

Aucun commentaire:

Enregistrer un commentaire