Article de Paul McFedries traduit de l'Anglais. (Décembre 2011)
"L'intelligence du Baseball fût assimilée dans l'esprit du
public en énumérant les statistiques des arcanes de ce sport. Ce que l'audience de James (commentateur de Baseball) n'avait pas réussi à comprendre, c'était
que les statistiques étaient proches du "point". Le point était
compréhensible; le point faisait que la vie sur Terre était un peu plus
intelligible."
Moneyball (2003)
Les organisations de toutes tailles sont assises sur des montagnes de données; ce dont ils ont réellement besoin ce sont des ingénieurs de la connaissance (knowledge ingeneers) qui peuvent extraire des pépites des informations à partir de ces données.
Les organisations de toutes tailles sont assises sur des montagnes de données; ce dont ils ont réellement besoin ce sont des ingénieurs de la connaissance (knowledge ingeneers) qui peuvent extraire des pépites des informations à partir de ces données.
Plus tôt cette année (dans "The coming data
deluge" IEEE Spectrum, février
2011), j'ai mentionné le concept de Data Mining, qui utilise des logiciels
sophistiqués et des outils de base de données pour extraire des modèles,
corrélations, et informations utiles à partir d'ensembles de données importants
et complexes.
Le Data Mining commence avec le Data Preprocessing:
l'acquisition de la donnée brute, qui est stockée dans un Data Warehouse ou
Data Mart. Cela continu avec le Data Cleansing (nettoyage) qui supprime la
donnée non significative et inutile (aussi appelée donnée sale/dirty data ou bruit/noise) et recherche la donnée manquante.
Comme la citation de M Lewis le suggère, le
"point" du Data Mining est la découverte de la connaissance
(Knowledge Discovery), l'extraction de l'information non évidente ou
surprenante cachée dans l'ensemble de données. Dans les cercles du Data Mining,
il est systématique que moins la connaissance extraite est évidente, plus
elle représente une valeur pour l'organisation. Les modèles les moins évidents
représentent de nouvelles opportunités, que ce soit pour la recherche, la
productivité, le marketing, ou quoi que ce soit d'autre. Ceci est illustré au
mieux par la connexion légendaire entre les couches et la bière ou les Data Miners
ont notés que les ventes de couches et de bière allaient souvent de paire. Pourquoi?
Parce que les nouveaux pères à qui on demandait de prendre des couches au
retour du travail prenaient aussi de la bière. Quand les distributeurs les
mirent l'un à coté de l'autre, la vente des deux décolla.
Un autre terme pour la découverte de connexions encore
inconnues dans les ensembles de données, spécialement quand il y a plus de deux
variables, est le Pattern Mining (la recherche de modèles), et les modèles
extraits appelés règles d'association (Association Rules).
De nombreux ensembles de données sont fait de quantités
importantes de texte, comme les emails, et donc les projets de Data Mining
utilisent classiquement l'analyse textuelle pour extraire des connections entre
les données, un processus appelé Text Mining. Un autre chemin prometteur est
l'Audio Mining (aussi appelé audio indexing), qui est le processus d'extraction
et d'indexation des mots d'un fichier audio. On utilise alors ces indexes comme
une données pour la fouille (Mining). Ce n'est pas surprenant que des
ingénieurs en sont aussi venus à d'ingénieuses méthodes d'indexation d'autres
types de medias, incluant l'image mining et le video mining. Si l'ensemble de
données est constitué de données géographiques, on parlera de Spatial
(Geospatial) Mining. Dans ce monde de plus en plus "social", en
arrivent au Crowd Mining (fouille des foules) avec lequel ils tentent de
déterrer des connaissances utiles des grandes bases de données d'informations
sociales. A un niveau plus général, le Web Mining se réfère à la récolte de
modèles utiles à partie des ensembles de données des contenu du Web, de son
utilisation (logs des serveurs), et de sa structure (liens hypertextes).
Si l'ensemble de données est trop important pour être
efficace, les Data Miners peuvent souvent n'en prendre qu'un échantillon, une
technique appellée Data Dredging, Data Fishing ou Data Snooping (repectivement draguer,
pêcher ou fouiller/fouiner des données).
Le Data Mining semble innocent en surface, mais les avocats
de la vie privée alertent sur le fait qu'il peut être utilisé pour des buts non
négligeables. Quand les fournisseurs de service internet ou Google stockent
massivement les données qui détaillent les activités en ligne de centaine de
millions de personnes, les méthodes automatisées de data mining (Automated Data Mining) peuvent analyser ces données pour recherche des modèles d'activité
suspecte. Comme l'informaticien Jonathan Zittrain l'a pointé du doigt,
"Quand les gouvernements commencent à suspecter les gens parce qu'ils
étaient à tel endroit à tel moment, cela peut devenir inquiétant".
Suivant le fait que ce soit une bénédiction ou un fléau,
informatif ou intrusif, vous avez pu voir qu'ici, que le champs du data mining
est une source riche de nouveau mots et phrases. Alors que je constate cela,
mon travail à l'IEEE Spectrum est de passer au crible ce materiel brut
d'articles, papiers, blogs, et livres pour découvrir de nouvelles pépites
lexicales et de vous les présenter dans ces colonnes. Appelez-le le Word
Mining.
Cet article est originalement parut sous le nom
"La Ruée vers l'Or de la Donnée" (The data Gold Rush)
Aucun commentaire:
Enregistrer un commentaire