Machine Learning : opération préparation des données

Pour résoudre certains défis en entreprise, la compréhension et la gestion des données sont des étapes primordiales pour une utilisation efficace de l’apprentissage automatique, connu également sous le terme Machine Learning. Dans cet ordre d’idées, le succès de tout projet en apprentissage machine dépend du choix de l’algorithme et de la préparation des données.

Notre objectif est d’expliquer les différentes sources de collectes d’informations pour par la suite exposer les étapes préliminaires à la création et à l’alimentation du cycle de l’apprentissage automatique.

Identifier les données importantes

Toute entreprise base ses décisions stratégiques sur des données provenant de différentes sources traditionnelles et externes. En sachant que ces informations varient constamment, il convient de développer des stratégies pour identifier celles qui sont les plus pertinentes.

Au nombre des données, se trouvent les sources d’informations structurées et non-structurées.

Sources d’informations structurées

Les informations structurées constituent un ensemble d’informations stockées dans les bases de données relationnelles d’une entreprise. En général, ces données sont à la fois bien structurées et définies. Nous pouvons par exemple citer les données de capteurs (radiofréquence RFID, balises, dispositifs médicaux), données Weblog, données au point de vente, données financières, météorologiques, etc.

Informations non-structurées

Les données non structurées sont encore sous-utilisées par les entreprises et servent essentiellement à faire du stockage. Bien que ces informations soient non-structurées, elles possèdent tout de même d’une structure implicite. Le Cloud, le mobile et les réseaux sociaux sont les principaux précurseurs du développement des données non structurées.

Au nombre des informations non-structurées, se trouvent les données de médias sociaux (Youtube, Facebook, Twitter, etc), données mobiles (message textes, note, calendrier, images) et image satellite (données météorologiques).

Gouvernance des données

La gouvernance des données dépend du domaine d’expertise de l’entreprise. Dans cette catégorie, il est essentiel de veiller à sécuriser les données privées et d’autoriser leurs accès à un nombre restreint de personnes. Un contrôle serré doit être exercé sur ceux qui ont accès à la visualisation et modification de ces données.

Les étapes du cycle de l’Apprentissage Machine

  1. Identifier les sources de données pertinentes pour développer votre algorithme d’apprentissage automatique.
  2. Préparer les données selon des normes sécurisées et gouvernées.
  3. Sélectionner un algorithme d’apprentissage automatique pertinent pour vos données.
  4. Entraîner l’algorithme afin de créer un modèle en fonction du type de données et de l’algorithme sélectionné.
  5. Procéder à l’évaluation des modèles afin de choisir les algorithmes les plus performants.
  6. Déployer ces modèles sur différentes plateformes.
  7. Faire des prédictions à partir des nouvelles données entrantes
  8. Évaluer les prévisions et les intégrer au sein du cycle de l’apprentissage automatique afin d’améliorer la précision.

 

Source :

Judith Hurwitz et Daniel Kirsch. 2018. Machine Learning, IBM Limited Edition.

 

Photo par Franck V. via Unsplash.

 

Abonnez-vous à nos infolettres pour ne rien manquer