Choisir le meilleur outil pour vos scientifiques de données

Par Thao Tram Ngo
septembre 9, 2019
Data scientist using a tool with chart visuals hovering above a tablet
Partager

La plupart des managers conviendront que les scientifiques de données aiment travailler. C’est un domaine pour ceux qui aiment le défi de transformer des données brutes en un modèle entièrement déployé pour comprendre le monde et il y a toujours un niveau supérieur de fidélité et de détail à portée de main. Ce qu’ils n’aiment pas, c’est le travail fastidieux. Pour un scientifique des données, le nettoyage des données, ou récurage, est la définition même du travail fastidieux et il peut souvent prendre jusqu’à 80% de son temps.

En plus de frustrer votre équipe, consacrer une grande partie du temps de votre personnel hautement qualifié et hautement rémunéré au nettoyage est un gaspillage de ressources colossal. Les entreprises peuvent économiser beaucoup en optimisant le processus avec des outils de science des données basés sur l’IA, permettant ainsi aux principales parties prenantes de se consacrer aux tâches qui ont un impact plus important sur l’activité commerciale sous-jacente.

L’automatisation du nettoyage des données et d’autres tâches relativement modestes par l’intelligence artificielle nécessite d’investir dans une infrastructure permettant de développer, former, déployer et exécuter ses algorithmes. Dans cet article, nous examinons vos quatre options principales: construire une solution en interne, acheter une solution prête à l’emploi, louer une solution et nouer un partenariat avec un fournisseur sur une base « au besoin ».

Option n° 1 : Créer en interne un outil de science des données à partir de zéro

Scientifiques de données utilisant un ordinateur portatif dans un centre de données d'analytiques IdO

La Sloan Review du MIT recommande un modèle « usine à données » pour optimiser le potentiel de monétisation interne et externe : de la même façon que sur une chaîne de fabrication le même moule est sans cesse réutilisé, vous devriez automatiser la collecte, le nettoyage, l’enrichissement et l’interface de vos données. Votre plateforme de données devrait répondre aux besoins suivants :

  • Analyse : l’interface est-elle suffisamment intuitive pour faciliter l’analyse à vos scientifiques des données ou ajoute-t-elle un niveau de complexité supplémentaire ?
  • Synthèse : facilite-t-elle l’expérimentation de vos idées et l’évaluation de nouvelles stratégies ?
  • Modélisation : quelle est sa capacité à générer des modèles prédictifs sophistiqués ?
  • Interactivité : rend-elle facile le partage des informations avec les parties prenantes et les partenaires ? S’intègre-t-elle facilement avec les bibliothèques internes et open-source ?
  • Évolutivité : votre plateforme évoluera-t-elle efficacement avec une demande et une portée accrues ?

Construire votre propre solution s’accompagne des avantages et inconvénients les plus évidents. Vos scientifiques de données et vos développeurs devraient avoir une meilleure idée que la plupart des observateurs extérieurs du profil des données que vous devez gérer, des questions auxquelles les données doivent répondre et quelles approches ont fait leurs preuves dans le passé.

Après tout, ce que vous faites fondamentalement, c’est d’entraîner une IA à appliquer au processus de nettoyage les principes mis en œuvre par un employé humain expérimenté. Non seulement cela, mais si vous parvenez à développer une solution propriétaire exceptionnelle, vous disposerez d’un avantage concurrentiel sur vos pairs.

Le principal inconvénient est que les coûts de développement initiaux peuvent être élevés par rapport aux autres options sur la table.

Entre la réaffectation du personnel existant et le recrutement d’une aide supplémentaire, vous vous engagez dans un projet qui risque de coûter plus de ressources que vous n’en économisez en résolvant le problème initial, sans parler du temps et des coûts nécessaires à la maintenance de la solution après son déploiement.

Option n° 2 : Achat d’une solution prête à l’emploi

Scientifiques de données qui analysent des données IdO en les visualisant sur plusieurs écrans d'ordinateurs

L’achat d’une solution prête à l’emploi évite une partie des coûts de développement initiaux liés à la création de votre propre plateforme. Cependant, les coûts – dans le temps – peuvent être comparables. En effet, dans la plupart des cas, ces packages préconfigurés nécessitent une importante personnalisation (et donc un développement interne) afin de répondre au profil de données de votre entreprise.

Vous pouvez en outre vous retrouver dans une situation sans issue si les limitations techniques de la solution achetée rendent tout développement ultérieur impossible ou irréalisable.

Le côté positif de cette solution est qu’elle ouvre l’accès à de puissants outils développés par les leaders de l’industrie. Par exemple, l’un des plus remarquables aspects de SageMaker, l’outil d’entraînement de l’IA d’AWS, est sa fonction Ground Truth. L’entraînement d’une IA consiste à l’initier à un référentiel généré par l’homme et à lui apprendre à suivre les schémas établis. Ground Truth peut être dressé à imiter les étiqueteurs de données humains avec un degré élevé de précision.

Amazon estime actuellement que jusqu’à 70% des tâches d’étiquetage peuvent être automatisées, l’IA redirigeant automatiquement les 30% des cas incertains vers le personnel humain. (Bonne nouvelle pour vos scientifiques des données grincheux.)

Un autre acteur du secteur, Tableau, s’est distingué avec son outil Prep. Conçu spécifiquement pour faciliter le nettoyage des données, la classification floue de Prep aide à regrouper des tâches de classification similaires, réduisant ainsi les répétitions. C’est également un très bel exemple d’interface propre et en temps réel.

Option n° 3 : Louer une solution avec services annexes

Tablette transparente à allure futuristique utilisée par des scientifiques de données analytiques IdO

L’achat d’une solution de science des données vous permet d’en tirer parti autant que vous voulez – du moins tant qu’elle est utile ! Le problème, c’est que la technologie évolue rapidement et que le cycle de vie d’une plateforme de données peut être turbulent. Cela est particulièrement vrai si vous avez utilisé vos propres ajouts ad hoc au fil du temps.

Le leasing, en revanche, n’exige qu’un engagement à durée limitée et offre un support amélioré des fournisseurs. En effet, vos fournisseurs sont incités à ce que vous tiriez le meilleur parti de leurs produits pour vous garder comme client.

Certaines situations commerciales nécessitent plus de personnalisation que d’autres. La plateforme AIoT de Mnubo, par exemple, permet d’accéder à un bloc-notes Python complet pour vous aider à développer des adresses IP personnalisées. Cela simplifie également la révision de votre code et sa distribution dans le monde entier.

Cela améliore également la manière dont vous collectez et catégorisez les données, ce qui réduit le travail nécessaire pour les nettoyer. La sous-traitance de ce qui reste à Mnubo réduit pratiquement à néant le fardeau de votre propre équipe.

Cependant, il est possible que vos exigences rendent le leasing impraticable. Certains clients préfèrent la continuité de la possession de leur propre architecture.

Option n° 4 : Éviter de s’engager et travailler en partenariat « au besoin »

Si construire votre solution vous-même, c’est comme élever une famille et si l’acheter est analogue au mariage et la louer, à des sortes de fiançailles, alors le partenariat « au besoin » est fondamentalement l’« amitié particulière » de l’investissement dans une plateforme.

Cette option, en picorant les meilleurs produits et services à mesure que des opportunités (ou des complications) se présentent, met l’accent sur l’agilité et la personnalisation. Cette approche est extrêmement séduisante si vous disposez d’une connaissance approfondie du marché et d’un talent particulier pour la gestion des fournisseurs.

Certains produits, comme les outils de la science des données de Mnubo, sont conçus pour fonctionner avec le plus grand nombre possible de bibliothèques et d’outils tiers.

D’autres sont plus agressifs et / ou plus revendicatifs. Vous pouvez également trouver difficile de recevoir les prix avantageux que les vendeurs proposent souvent à une clientèle plus stable.

Finaliser votre décision

En fin de compte, vos scientifiques des données et vos cadres dirigeants devraient prendre la décision de concert.

Posez-vous les questions suivantes :

  • Pourquoi collectez-vous des données ?
  • Existe-t-il un marché externe pour les informations que vous en extrayez ?
  • Quelles ressources, humaines et matérielles, peuvent être investies ?
  • Comment l’IA peut-elle augmenter les performances globales ?

Une équipe de science des données heureuse est une équipe créative : il est temps de libérer ce potentiel.

BULLETIN

Restez informé

Vous aimerez aussi

5G network lit up across a city

IdO Consommateur, IdO Industriel

Comment la 5G va tout changer

Qu’est-ce que la 5G et comment va-t-elle changer le monde d’aujourd’hui? La 5G va tout…

Data scientist analyzing data on a laptop

IdO Consommateur

Rédiger un CV de Scientifique des Données

8 éléments à inclure dans votre CV de science des données J’ai souvent de jeunes…

Retaining customers with AI and IoT analytics

IdO Consommateur

Améliorer la Fidélisation du Client grâce à l’Analytique et l’IA

Exploiter les données pour améliorer la fidélisation de la clientèle La fidélisation de la clientèle…

Woman's hand opening the door of a convenience store IoT refrigerator shelves to pick a product

IdO Consommateur, IdO Industriel

5 cas d’utilisation de l’IoT dans le commerce de détail

Construire l’avenir du commerce de détail avec l’IoT et l’IA Les cas d’utilisation de l’IoT…

Voyez ce que notre plateforme peut faire pour vous

DÉCOUVREZ NOTRE PLATEFORME