jeudi 1 décembre 2011

L'IT possède 26 mots pour le Data Mining


Article de Paul McFedries traduit de l'Anglais. (Décembre 2011)

"L'intelligence du Baseball fût assimilée dans l'esprit du public en énumérant les statistiques des arcanes de ce sport. Ce que l'audience de James (commentateur de Baseball) n'avait pas réussi à comprendre, c'était que les statistiques étaient proches du "point". Le point était compréhensible; le point faisait que la vie sur Terre était un peu plus intelligible."
Moneyball (2003)

   Les organisations de toutes tailles sont assises sur des montagnes de données; ce dont ils ont réellement besoin ce sont des ingénieurs de la connaissance (knowledge ingeneers) qui peuvent extraire des pépites des informations à partir de ces données.
Plus tôt cette année (dans "The coming data deluge"  IEEE Spectrum, février 2011), j'ai mentionné le concept de Data Mining, qui utilise des logiciels sophistiqués et des outils de base de données pour extraire des modèles, corrélations, et informations utiles à partir d'ensembles de données importants et complexes.
Le Data Mining commence avec le Data Preprocessing: l'acquisition de la donnée brute, qui est stockée dans un Data Warehouse ou Data Mart. Cela continu avec le Data Cleansing (nettoyage) qui supprime la donnée non significative et inutile (aussi appelée donnée sale/dirty data ou bruit/noise) et recherche la donnée manquante.
Comme la citation de M Lewis le suggère, le "point" du Data Mining est la découverte de la connaissance (Knowledge Discovery), l'extraction de l'information non évidente ou surprenante cachée dans l'ensemble de données. Dans les cercles du Data Mining, il est systématique que moins la connaissance extraite est évidente, plus elle représente une valeur pour l'organisation. Les modèles les moins évidents représentent de nouvelles opportunités, que ce soit pour la recherche, la productivité, le marketing, ou quoi que ce soit d'autre. Ceci est illustré au mieux par la connexion légendaire entre les couches et la bière ou les Data Miners ont notés que les ventes de couches et de bière allaient souvent de paire. Pourquoi? Parce que les nouveaux pères à qui on demandait de prendre des couches au retour du travail prenaient aussi de la bière. Quand les distributeurs les mirent l'un à coté de l'autre, la vente des deux décolla.
Un autre terme pour la découverte de connexions encore inconnues dans les ensembles de données, spécialement quand il y a plus de deux variables, est le Pattern Mining (la recherche de modèles), et les modèles extraits appelés règles d'association (Association Rules).

De nombreux ensembles de données sont fait de quantités importantes de texte, comme les emails, et donc les projets de Data Mining utilisent classiquement l'analyse textuelle pour extraire des connections entre les données, un processus appelé Text Mining. Un autre chemin prometteur est l'Audio Mining (aussi appelé audio indexing), qui est le processus d'extraction et d'indexation des mots d'un fichier audio. On utilise alors ces indexes comme une données pour la fouille (Mining). Ce n'est pas surprenant que des ingénieurs en sont aussi venus à d'ingénieuses méthodes d'indexation d'autres types de medias, incluant l'image mining et le video mining. Si l'ensemble de données est constitué de données géographiques, on parlera de Spatial (Geospatial) Mining. Dans ce monde de plus en plus "social", en arrivent au Crowd Mining (fouille des foules) avec lequel ils tentent de déterrer des connaissances utiles des grandes bases de données d'informations sociales. A un niveau plus général, le Web Mining se réfère à la récolte de modèles utiles à partie des ensembles de données des contenu du Web, de son utilisation (logs des serveurs), et de sa structure (liens hypertextes).
Si l'ensemble de données est trop important pour être efficace, les Data Miners peuvent souvent n'en prendre qu'un échantillon, une technique appellée Data Dredging, Data Fishing ou Data Snooping (repectivement draguer, pêcher ou fouiller/fouiner des données).
Le Data Mining semble innocent en surface, mais les avocats de la vie privée alertent sur le fait qu'il peut être utilisé pour des buts non négligeables. Quand les fournisseurs de service internet ou Google stockent massivement les données qui détaillent les activités en ligne de centaine de millions de personnes, les méthodes automatisées de data mining (Automated Data Mining) peuvent analyser ces données pour recherche des modèles d'activité suspecte. Comme l'informaticien Jonathan Zittrain l'a pointé du doigt, "Quand les gouvernements commencent à suspecter les gens parce qu'ils étaient à tel endroit à tel moment, cela peut devenir inquiétant".
Suivant le fait que ce soit une bénédiction ou un fléau, informatif ou intrusif, vous avez pu voir qu'ici, que le champs du data mining est une source riche de nouveau mots et phrases. Alors que je constate cela, mon travail à l'IEEE Spectrum est de passer au crible ce materiel brut d'articles, papiers, blogs, et livres pour découvrir de nouvelles pépites lexicales et de vous les présenter dans ces colonnes. Appelez-le le Word Mining.    
Cet article est originalement parut sous le nom "La Ruée vers l'Or de la Donnée" (The data Gold Rush)

Opinion : Le Déluge de Données à venir

Article traduit de l'Anglais. Source : http://spectrum.ieee.org/at-work/innovation/the-coming-data-deluge
Par Paul McFedries / Février 2011 
 
"Ce nouveau modèle se rapporte, aux données capturées par des instruments ou générées par des simulations avant d'être traité par du logiciel, et à l'information ou la connaissance résultants afin d'être stockés sur des ordinateurs. Les scientifiques n'ont qu'à seulement prêter attention à ces données très tard dans ce pipeline.
Les techniques et technologies pour cette science consommatrice de données (data intensive science) sont si différentes qu'il devient préférable de distinguer cette science consommatrice de données des sciences informatiques,   comme  nouvelle et représentant un quatrième paradigme dans l'exploration scientifique."
Jim Gray, Informaticien
 
D'après le dernier Jim Gray (perdu en mer en 2007), jusqu'à récemment, la science à été majoritairement le produit de 3 paradigmes correllés : Expérimental, Théorique et informatique. Malgré tout, le paradigme informatique génére maintenant tant de données qu'il en émerge un quatrième, qui requière de nouveaux outils et techniques de stockage, d'organisation, de filtrage, de partage et d'analyse de ces montagnes de données. Gray appela ce nouveau paradigme eScience et le caractérisa par l' "IT rencontre les scientifiques". Que vous soyez scientifique ou informaticien, cette nouvelle "science de la donnée massive (Data Intensive Science)" est une chose fascinante, et pour le neologiste, de ce territoire émerge un nouveau vocabulaire.
Dans le passé, la pulpart des disciplines scientifiques pouvaient être décrites comme Small Data ou Data Poor. La plupart des expérimentations ou études devaient faire face à seulement quelques centaines voire milliers de données ponctuelles. Maintenant, grâce aux nouveaux instruments et simulateurs massivement complexes, beaucoup de disciplines génèrent des ensembles de données massives correspondantes appelé Big Data ou Data Rich.  Considérez le Large Hadron Collider (Accélérateur de particule du CERN) qui peut éventuellement générer 15 peta octets de données par an. Un peta octet représente à peu prêt un million de gigaoctets, ce qui le qualifie de véritable déluge de données.

Et si vous pensez que le genome humain complet représente beaucoup de données, les neuroscientifiques ont eux même pour objectif de créer un "connectome", une carte complète des circuits neuronaux du cerveau. Le problème? D'après les chercheurs MF Cohen et JW Litchman, une image cubique de 1mm de coupe du cerveau comprendrait 1 petaoctet de données (à une résolution de 5 nanomètres).  Il existe à peu près un million de mm cube de matière neurale à cartographier, représentant à peu près 1000 exaoctets (un exaoctet représente environ 1000 petaoctets), ce qui qualifie ceci, comme Jim Gray l'appela un jour, d'Exaflood de données.
Ces ensembles massifs de données requièrent un calcul massif (Massive Computation), ainsi, les scientifiques doivent devenir des scientifiques de la donnée (Data Scientists), et utiliser les derniers logiciels et outils de base de données pour faire du Datamining, qui est l'extraction de modèles et de connaissances à partir d'ensembles de données importants et complexes.
Peut être le plus grand ensemble de données serait la collection des actions, choix et préférences que chaque personne effectue tous les jours, ce qui représente son ou sa donnée exaustive (Data Exaust). Utiliser de telles données pour un but scientifique et appelé Citizen Science. C'est de la donnée parasitée (Noisy Data) laquelle est en grande partie inductrice d'erreur voire non siginificative mais il y a moyen d'y trouver un signal.
Un bon exemple est le Google Flu Trends. Dans le passé, les épidémiologistes auraient observé les pic de grippes émergeants en examinant laborieusement les rapports des physiciens, grippes et prescriptions de médicaments, et autres sources du monde réel. Cette surveillance symptomatique a traditionnellement trop été consommatrice de temps pour être d'une grande utilité. Au contraire, Google Flu Trends, examine les termes recherchés en rapport avec la grippe, ce qui permet aux chercheurs de capter en temps réel les modèles grippaux.
Avec la croissance des capteurs Terrestres et autres appareils fournissant des données brutes sur l'état de la planète, beaucoup de scientifiques envisagent maintenant de combiner ces appareils dans un "macroscope" planétaire distribué qu'ils pourraient utiliser pour zoomer sur une multitude d'états globaux.
A mesure que cette eResearch devient sophistiquée et plus valable, les scientifiques des données (data scientists) réalisent que ces énormes ensembles de données doivent être partagés parmi de nombreux confrères, laboratoires et institutions. C'est une bonne manière de commencer que de rédiger des articles et développer des produits à des fins de recherche de plus en plus largement disponibles, mais ce dont on a le plus besoin ce sont de large bibliothèques de données numériques (Digital Data Libraries) qui stockent non seulement des documents comme des articles de recherche mais aussi les données sur lesquelles ces articles ont été basés. Maintenant, tout ce que nous avons besoin c'est que quelqu'un vienne avec un système numérique "Dewey Décimal" (Système de classification universel voir wikipedia) pour classer toutes ces données. Un système "Dewey binary" peut être...