Table des matières:
Vidéo: 1- Qu'est-ce qu'une Base De Données (BDD) ? - Comprendre le SQL (Novembre 2024)
Données et intelligence économique (BI) sont les deux faces d'une même pièce. Les avancées en matière de stockage, de traitement et d'analyse ont démocratisé les données à un point tel qu'il n'est plus nécessaire d'être un professionnel de la base de données ou un scientifique des données pour travailler avec des ensembles de données volumineux et en tirer des conclusions. La courbe d'apprentissage est encore longue, mais les outils de BI et de visualisation de données en libre-service redéfinissent la manière dont les entreprises exploitent toutes les données qu'elles collectent pour les transformer en analyses décisionnelles. Cependant, il existe une différence entre une entreprise de BI ou de base de données possédant des analyses avancées et une base de données d'intelligence artificielle (IA) spécialement conçue pour l'apprentissage automatique (ML) et les modèles d'apprentissage approfondi.
Les algorithmes ML font partie intégrante de la plupart des logiciels actuels. Les expériences des consommateurs se confondent avec l'intelligence artificielle via des assistants virtuels. Dans les logiciels de gestion, il existe des exemples tels que Salesforce Einstein qui agissent en tant que couche intelligente sous l'ensemble du portefeuille de gestion de la relation client (CRM) de l'entreprise. Les géants de la technologie, y compris Google et Microsoft, poussent encore plus loin notre avenir intelligent, non seulement avec des recherches, mais en réécrivant comment leur technologie fonctionne à partir de zéro avec l'IA.
L'un des défis des machines de formation et des modèles d'apprentissage en profondeur est le volume de données et la puissance de traitement nécessaires pour former un réseau neuronal, par exemple, sur la reconnaissance de formes complexes dans des domaines tels que la classification d'images ou le traitement de langage naturel (PNL). Par conséquent, les bases de données sur l'IA commencent à apparaître sur le marché afin d'optimiser le processus d'apprentissage et de formation à l'IA pour les entreprises. Nous nous sommes entretenus avec le fournisseur de bases de données relationnelles Kinetica, qui a créé sa propre base de données d'intelligence artificielle, avec l'aide de GPU, et Pam Baker, experte résidente en BI et bases de données, afin de démystifier ce qu'est une base de données d'IA et son fonctionnement par rapport aux bases de données traditionnelles. Plus important encore, nous leur avons demandé de l'aider à trier le battage publicitaire et à parler de marketing pour déterminer si cette technologie émergente a une réelle valeur commerciale.
Que sont les bases de données AI?
L'évolution rapide de la nature de l'espace d'intelligence artificielle peut rendre difficile l'établissement d'une terminologie. Vous entendez souvent des termes tels que ML, apprentissage en profondeur et IA, utilisés de manière interchangeable alors qu’ils développent encore des techniques dans le cadre plus large de l’IA. En tant que tel, Baker a déclaré qu'il existe deux définitions très différentes de ce qu'est une base de données sur l'IA, en fonction de la personne à qui vous parlez: l'une pratique, l'autre plus "pie-in-the-sky".
"Il existe un certain consensus dans le secteur selon lequel une base de données sur l'IA fonctionnerait entièrement à partir de requêtes en langage naturel. L'interface utilisateur serait telle que vous n'auriez pas à vous fier à des termes de recherche et à des expressions clés pour trouver le informations dont vous avez besoin, permettant à l'utilisateur d'invoquer des ensembles de données avec la PNL ", a déclaré Baker. "Vous pouvez faire valoir que IBM Watson peut poser des requêtes en langage naturel au système, mais vous devez déjà être connecté aux données et choisir les données vous-même. Donc, pour le moment, cette définition est exagérée."
La définition plus pratique, et le sujet de cet explicatif, utilise essentiellement une base de données spécialement conçue pour accélérer la formation du modèle ML. Un certain nombre de sociétés de technologie développent déjà des puces d’IA dédiées pour alléger la lourde charge de traitement des nouveaux produits matériels, à mesure que les fournisseurs déploient davantage de fonctionnalités basées sur l’intelligence artificielle nécessitant une puissance de calcul importante. Du côté des données, l’utilisation d’une base de données d’intelligence artificielle peut vous aider à mieux cerner le volume, la rapidité et les défis complexes de gouvernance et de gestion des données associés à la formation ML et aux modèles d’apprentissage approfondi pour gagner du temps et optimiser les ressources.
Crédit d'image: Todd Jaquith à Futurism.com. Cliquez pour développer l'infographie complète
"À l'heure actuelle, beaucoup d'efforts sont déployés pour accélérer la formation du ML grâce à différentes tactiques", a expliqué Baker. «L’une consiste à séparer l’infrastructure des chercheurs en intelligence artificielle chargés du codage, afin que les fonctions automatisées gèrent l’infrastructure et forment le modèle ML. Ainsi, au lieu de passer environ trois mois, vous pouvez envisager 30 jours ou 30 minutes."
Kinetica décompose cette idée en une plate-forme de base de données intégrée optimisée pour la modélisation ML et l'apprentissage en profondeur. La base de données AI associe entreposage de données, analyses avancées et visualisations dans une base de données en mémoire. Mate Radalj, vice-président et ingénieur logiciel principal du groupe de technologie de pointe de Kinetica, a expliqué qu'une base de données d'intelligence artificielle devrait être en mesure d'ingérer, d'explorer, d'analyser et de visualiser simultanément des données complexes en évolution rapide, en quelques millisecondes. L’objectif est de réduire les coûts, de générer de nouveaux revenus et d’intégrer les modèles ML afin que les entreprises puissent prendre des décisions plus efficaces, axées sur les données.
"Une base de données sur l'IA est un sous-ensemble d'une base de données générale", a déclaré Radalj. "À l'heure actuelle, les bases de données AI sont très populaires. Cependant, de nombreuses solutions utilisent des composants distribués. Spark, MapReduce et HDFS tournent constamment entre eux plutôt qu'en mémoire. Ils n'ont pas la confluence de facteurs comme notre base de données, L’intérêt majeur pour nous est un provisionnement plus rapide et une empreinte matérielle réduite de la formation basée sur un modèle, avec un redressement rapide et des analyses intégrées à la même plate-forme."
Comment fonctionne une base de données d'IA
Il existe un certain nombre d'exemples de bases de données sur l'IA dans la pratique. Microsoft Batch AI propose une infrastructure en nuage pour la formation en apprentissage approfondi et des modèles ML s'exécutant sur des GPU Microsoft Azure. La société dispose également de son produit Azure Data Lake qui permet aux entreprises et aux spécialistes de l’informatique de traiter et d’analyser plus facilement les données dans une architecture distribuée.
Un autre exemple est l'approche AutoML de Google, qui réorganise fondamentalement la manière dont les modèles ML sont formés. Google AutoML automatise la conception de modèle ML pour générer de nouvelles architectures de réseau neuronal basées sur des ensembles de données particuliers, puis tester et itérer des milliers de fois afin de coder de meilleurs systèmes. En fait, l'IA de Google peut désormais créer de meilleurs modèles que les chercheurs humains.
"Regardez Google AutoML: ML écrit du code ML pour ne plus avoir besoin de personnel", a déclaré Baker. «Cela vous donne une idée de la différence extrême qui existe entre ce que font les fournisseurs. Certains essaient de faire passer l’analyse avancée en ML - et ce n’est pas le cas. Et d’autres pratiquent le ML à un niveau tellement avancé qu’il dépasse les entreprises peuvent comprendre pour le moment ".
Ensuite, il y a Kinetica. La start-up basée à San Francisco, qui a levé 63 millions de dollars de fonds de capital de risque, fournit une base de données SQL hautes performances optimisée pour une ingestion et une analyse rapides des données. Kinetica est ce que Radalj a décrit comme une base de données distribuée à traitement massivement parallèle (MPP) dans laquelle chaque nœud comporte des données en mémoire, un processeur et un processeur graphique co-localisés.
Radalj a expliqué que ce qui différencie une base de données d'IA d'une base de données traditionnelle, repose sur trois éléments fondamentaux:
- Ingestion accélérée de données,
- Colocalisation des données en mémoire (traitement parallèle sur les nœuds de la base de données), et
- Plate-forme commune pour les scientifiques, les ingénieurs en logiciel et les administrateurs de base de données, qui permet d'itérer et de tester les modèles plus rapidement et d'appliquer les résultats directement à l'analyse.
Radalj a décomposé chacun de ces trois éléments fondamentaux et expliqué comment la base de données relative à l'IA est liée à la valeur métier tangible. La disponibilité et l’ingestion de données sont essentielles, a-t-il déclaré, car la possibilité de traiter des données en streaming en temps réel permet aux entreprises d’agir rapidement sur des informations basées sur l’IA.
"Nous avons un client de détail qui voulait suivre les taux de vente par magasin, toutes les cinq minutes", a déclaré Radalj. "Nous voulions utiliser l'intelligence artificielle pour prévoir, sur la base des données historiques des dernières heures, si elles devaient reconstituer l'inventaire et optimiser ce processus. Toutefois, pour le réapprovisionner par ordinateur, il est nécessaire de prendre en charge 600 à 1 200 requêtes par seconde. Nous Nous sommes une base de données SQL et une base de données d’intelligence artificielle afin que nous puissions ingérer des données à ce rythme. Notre mission commerciale a abouti à une application qui a généré davantage de retour sur investissement."
Baker a convenu que le ML nécessitant une grande quantité de données, il serait donc très important de l'intégrer rapidement pour une base de données sur l'IA. Le deuxième facteur, le concept de "co-localité de données en mémoire", nécessite un peu plus d'explications. Une base de données en mémoire stocke les données dans la mémoire principale plutôt que dans un stockage sur disque séparé. Cela permet de traiter les requêtes plus rapidement, en particulier dans les bases de données d'analyse et d'analyse décisionnelle. Par co-localité, Radalj a expliqué que Kinetica ne sépare pas les nœuds de calcul CPU et GPU des nœuds de stockage.
En conséquence, la base de données d'intelligence artificielle prend en charge le traitement parallèle (qui imite la capacité du cerveau humain à traiter plusieurs stimuli), tout en restant distribué sur une infrastructure de base de données évolutive. Cela évite un encombrement matériel plus important, résultant de ce que Radalj a appelé "transmission de données" ou de la nécessité d’envoyer des données entre différents composants de base de données.
"Certaines solutions utilisent un orchestrateur tel qu'IBM Symphony pour planifier le travail de divers composants, tandis que Kinetica insiste sur la livraison de fonctions par rapport à des ressources colocalisées, avec une optimisation avancée pour minimiser la transmission de données", a déclaré Radalj. "Cette colocalisation se prête à des performances et à un débit supérieurs, en particulier pour les requêtes lourdes hautement simultanées sur des ensembles de données volumineux."
En ce qui concerne le matériel de base de données actuel, Kinetica est partenaire de Nvidia, qui propose une gamme de plus en plus étendue de processeurs graphiques pour intelligence artificielle et explore les possibilités offertes par Intel. Radalj a également déclaré que la société gardait un œil sur les infrastructures émergentes en matière de matériel informatique et d'informatique en nuage, telles que les unités de traitement du tenseur de Google (TPU).
Enfin, il y a l'idée d'un processus de formation modèle unifié. Une base de données d'intelligence artificielle n'est efficace que si les avantages d'une ingestion et d'un traitement plus rapides servent des objectifs plus vastes et orientés vers les entreprises pour le niveau ML et les efforts d'apprentissage approfondis d'une entreprise. Radalj qualifie la base de données d'intelligence artificielle de Kinetica de "plate-forme de pipeline de modèles" assurant un hébergement de modèle basé sur la science des données.
Tout cela se prête à des tests et à une itération plus rapides pour développer des modèles ML plus précis. Selon Baker, la collaboration peut aider tous les ingénieurs et chercheurs à former un modèle d'apprentissage approfondi ou plus profond en combinant ce qui fonctionne, au lieu de réinventer continuellement toutes les étapes du processus de formation. Radalj a déclaré que l'objectif est de créer un flux de travail dans lequel une ingestion, une transmission en continu et une interrogation de lot plus rapides génèrent des résultats de modèle pouvant être immédiatement appliqués à la BI.
«Les scientifiques, les ingénieurs en logiciel et les administrateurs de bases de données disposent d’une plate-forme unique où le travail peut être clairement défini sur la science des données, l’écriture de programmes logiciels, les modèles de données SQL et les requêtes», a déclaré Radalj. "Les gens travaillent ensemble plus proprement dans ces différents domaines lorsqu'il s'agit d'une plate-forme commune. L'objectif le plus souvent avec l'exécution de ML et l'apprentissage en profondeur est de vous permettre d'utiliser les résultats de cette analyse - les coefficients et variables - en conjonction avec l'analyse, et utiliser la sortie pour des choses comme la notation ou pour prédire quelque chose d’utile."
Hype ou réalité?
La valeur ultime d’une base de données AI, du moins de la façon dont Kinetica la définit, consiste à optimiser les ressources de calcul et de base de données. Cela vous permet à son tour de créer de meilleurs modèles d'apprentissage approfondi et de niveau supérieur, de les former plus rapidement et plus efficacement, et de maintenir une ligne directe sur la manière dont cette intelligence artificielle sera appliquée à votre entreprise.
Radalj a donné l'exemple d'une entreprise de gestion de flotte ou de camionnage. Dans ce cas, une base de données d'intelligence artificielle pourrait traiter des flux massifs d'informations en temps réel provenant d'une flotte de véhicules. Ensuite, en modélisant ces données géospatiales et en les associant à des analyses, la base de données pourrait réorienter de manière dynamique les camions et optimiser les itinéraires.
"Il est plus facile de configurer, de prototyper et de tester rapidement. Le mot" modélisation "est utilisé dans l'IA, mais il s'agit de passer en revue différentes approches: plus il y a de données, mieux c'est. Vous pouvez les exécuter encore et encore, les tester, les comparer et venir avec les meilleurs modèles ", a déclaré Radalj. "Les réseaux de neurones ont vu le jour parce qu'il y a plus de données que jamais. Et nous apprenons à être en mesure de les calculer."
En fin de compte, la base de données co-localisée et la plateforme de pipeline de modèles de Kinetica ne sont qu'une approche dans un espace qui peut signifier beaucoup de choses différentes selon les personnes que vous demandez. Selon Baker, le défi que doit relever l'acheteur sur un marché en constante évolution et à titre expérimental consiste à comprendre exactement ce que propose un fournisseur de base de données d'intelligence artificielle.
"En tant que concept d'entreprise, l'apprentissage en profondeur, ML, etc., est un concept solide. Nous sommes en train de résoudre des problèmes techniques qui peuvent être résolus, même si nous ne les avons pas encore résolus", a déclaré Baker. "Cela ne veut pas dire que c'est un espace mature, parce que ce n'est absolument pas le cas. Je dirais que" méfiez-vous des acheteurs ", car quelque chose qui ressemble à ML peut être ou ne pas l'être. Il pourrait s'agir simplement d'une analyse avancée variée.
Pour ce qui est de savoir si les bases de données d'intelligence artificielle font actuellement l'objet d'un battage publicitaire ou si elles représentent une tendance importante pour l'évolution des affaires, Baker a déclaré que c'était un peu des deux. Elle a dit que Big Data, en tant que terme marketing, n’était plus à la mode. Baker a déclaré qu'il existait maintenant une certaine convergence de marché entre une analyse avancée, basée sur des données, et de vrais algorithmes de ML et d'apprentissage en profondeur. Quoi qu'il en soit, qu'il s'agisse d'une base de données pour la modélisation ML ou de l'IA consciente créée par la culture pop, tout commence et finit avec les données.
"Les données seront utilisées en entreprise jusqu'à la fin du temps imparti; elles sont au cœur de nos activités", a déclaré Baker. "Lorsque vous parlez de science-fiction, l'intelligence artificielle est une intelligence réalisée par vous-même. C'est à ce moment-là que vous commencez à parler de singularités et de robots qui envahissent le monde. Que cela se produise ou non, je ne sais pas. Je vais partir. cela à Stephen Hawking."