jeudi 1 décembre 2011

L'IT possède 26 mots pour le Data Mining


Article de Paul McFedries traduit de l'Anglais. (Décembre 2011)

"L'intelligence du Baseball fût assimilée dans l'esprit du public en énumérant les statistiques des arcanes de ce sport. Ce que l'audience de James (commentateur de Baseball) n'avait pas réussi à comprendre, c'était que les statistiques étaient proches du "point". Le point était compréhensible; le point faisait que la vie sur Terre était un peu plus intelligible."
Moneyball (2003)

   Les organisations de toutes tailles sont assises sur des montagnes de données; ce dont ils ont réellement besoin ce sont des ingénieurs de la connaissance (knowledge ingeneers) qui peuvent extraire des pépites des informations à partir de ces données.
Plus tôt cette année (dans "The coming data deluge"  IEEE Spectrum, février 2011), j'ai mentionné le concept de Data Mining, qui utilise des logiciels sophistiqués et des outils de base de données pour extraire des modèles, corrélations, et informations utiles à partir d'ensembles de données importants et complexes.
Le Data Mining commence avec le Data Preprocessing: l'acquisition de la donnée brute, qui est stockée dans un Data Warehouse ou Data Mart. Cela continu avec le Data Cleansing (nettoyage) qui supprime la donnée non significative et inutile (aussi appelée donnée sale/dirty data ou bruit/noise) et recherche la donnée manquante.
Comme la citation de M Lewis le suggère, le "point" du Data Mining est la découverte de la connaissance (Knowledge Discovery), l'extraction de l'information non évidente ou surprenante cachée dans l'ensemble de données. Dans les cercles du Data Mining, il est systématique que moins la connaissance extraite est évidente, plus elle représente une valeur pour l'organisation. Les modèles les moins évidents représentent de nouvelles opportunités, que ce soit pour la recherche, la productivité, le marketing, ou quoi que ce soit d'autre. Ceci est illustré au mieux par la connexion légendaire entre les couches et la bière ou les Data Miners ont notés que les ventes de couches et de bière allaient souvent de paire. Pourquoi? Parce que les nouveaux pères à qui on demandait de prendre des couches au retour du travail prenaient aussi de la bière. Quand les distributeurs les mirent l'un à coté de l'autre, la vente des deux décolla.
Un autre terme pour la découverte de connexions encore inconnues dans les ensembles de données, spécialement quand il y a plus de deux variables, est le Pattern Mining (la recherche de modèles), et les modèles extraits appelés règles d'association (Association Rules).

De nombreux ensembles de données sont fait de quantités importantes de texte, comme les emails, et donc les projets de Data Mining utilisent classiquement l'analyse textuelle pour extraire des connections entre les données, un processus appelé Text Mining. Un autre chemin prometteur est l'Audio Mining (aussi appelé audio indexing), qui est le processus d'extraction et d'indexation des mots d'un fichier audio. On utilise alors ces indexes comme une données pour la fouille (Mining). Ce n'est pas surprenant que des ingénieurs en sont aussi venus à d'ingénieuses méthodes d'indexation d'autres types de medias, incluant l'image mining et le video mining. Si l'ensemble de données est constitué de données géographiques, on parlera de Spatial (Geospatial) Mining. Dans ce monde de plus en plus "social", en arrivent au Crowd Mining (fouille des foules) avec lequel ils tentent de déterrer des connaissances utiles des grandes bases de données d'informations sociales. A un niveau plus général, le Web Mining se réfère à la récolte de modèles utiles à partie des ensembles de données des contenu du Web, de son utilisation (logs des serveurs), et de sa structure (liens hypertextes).
Si l'ensemble de données est trop important pour être efficace, les Data Miners peuvent souvent n'en prendre qu'un échantillon, une technique appellée Data Dredging, Data Fishing ou Data Snooping (repectivement draguer, pêcher ou fouiller/fouiner des données).
Le Data Mining semble innocent en surface, mais les avocats de la vie privée alertent sur le fait qu'il peut être utilisé pour des buts non négligeables. Quand les fournisseurs de service internet ou Google stockent massivement les données qui détaillent les activités en ligne de centaine de millions de personnes, les méthodes automatisées de data mining (Automated Data Mining) peuvent analyser ces données pour recherche des modèles d'activité suspecte. Comme l'informaticien Jonathan Zittrain l'a pointé du doigt, "Quand les gouvernements commencent à suspecter les gens parce qu'ils étaient à tel endroit à tel moment, cela peut devenir inquiétant".
Suivant le fait que ce soit une bénédiction ou un fléau, informatif ou intrusif, vous avez pu voir qu'ici, que le champs du data mining est une source riche de nouveau mots et phrases. Alors que je constate cela, mon travail à l'IEEE Spectrum est de passer au crible ce materiel brut d'articles, papiers, blogs, et livres pour découvrir de nouvelles pépites lexicales et de vous les présenter dans ces colonnes. Appelez-le le Word Mining.    
Cet article est originalement parut sous le nom "La Ruée vers l'Or de la Donnée" (The data Gold Rush)

Aucun commentaire:

Enregistrer un commentaire