Accueil Entreprise Google simplifie l'apprentissage machine avec SQL

Google simplifie l'apprentissage machine avec SQL

Table des matières:

Vidéo: C'est quoi Google Panda (l'algorithme simplifié) [e08] (Novembre 2024)

Vidéo: C'est quoi Google Panda (l'algorithme simplifié) [e08] (Novembre 2024)
Anonim

Google a maintenant ajouté des fonctionnalités d'apprentissage automatique (ML) à son offre Google BigQuery, son offre de base de données en nuage à l'échelle du pétaoctet (PB). Désormais surnommée BigQuery ML, la nouvelle version vous permet d’utiliser de simples instructions SQL (Structured Query Language) pour créer et déployer des modèles ML pour l’analyse prédictive.

Ce n'est pas seulement une bonne nouvelle pour les scientifiques qui utilisent Google. Il est également avantageux pour les entreprises souhaitant améliorer leurs capacités d'analyse de données, car cela ajoute un concurrent plus efficace à une liste plutôt restreinte de fournisseurs capables de fournir ce niveau de sophistication via le cloud. Les deux autres noms les plus connus sont Relational Database Service d'Amazon et Microsoft Azure SQL, et vous en trouverez d'autres dans notre récent tour d'horizon des services de base de données en nuage.

Le fléau de tous les vendeurs et acheteurs de produits de données a toujours été le manque de compétences. Cela a été particulièrement vrai pour ceux qui s'intéressent à la BC et à l'analyse prédictive, car ces disciplines nécessitent souvent une connaissance des nouvelles technologies et des langages d'interrogation.

"Des centaines d'analystes travaillent avec des données, et la plupart utilisent SQL, explique Sudhir Hasbe, directeur de la gestion des produits chez Google Cloud, à PCMag. Quelque chose devait céder si le pouvoir d’une armée d’analystes de données devait être libéré du goulet d’étranglement créé par trop peu de scientifiques du data surchargés.

La réponse de Google à ce dilemme n’est rien de moins que remarquable. Bien que le ML soit une tendance en vogue et qu'il apparaisse dans des produits de toutes sortes partout dans le monde, il reste fermement un territoire de scientifiques de données. Beaucoup de fournisseurs ont progressé dans la simplification de la technologie, mais la vérité est que vous pouvez la simplifier beaucoup et qu'il est encore trop difficile pour plus de 99% de la population humaine de l'utiliser. Cependant, nous devons être en mesure de l'utiliser car ML peut faire plus, et le faire plus rapidement qu'un groupe d'humains super intelligents.

Google installe ML dans BigQuery dans Google afin qu’il se trouve plus près des données. L'application apportera des fonctionnalités ML plus rapides que les modèles ML traditionnels, notamment parce que l'analyse des données peut être effectuée à la source. Désormais en version bêta, BigQuery ML permet aux analystes (et aux spécialistes des données) d’effectuer des analyses prédictives telles que la prévision des ventes et la création de segments de clientèle directement au-dessus des données où elles sont stockées. Cela seul est une mise à niveau respectable et notable.

Toutefois, Google est allé plus loin en ajoutant une fonctionnalité permettant aux analystes de données d'utiliser de simples instructions SQL pour créer et déployer des modèles ML. À l'heure actuelle, les options sont les modèles de régression linéaire et de régression logistique pour l'analyse prédictive car ce sont les deux modèles les plus couramment utilisés.

Voici une illustration fournie par Google pour montrer comment les analystes de données utiliseraient cette fonctionnalité:

Google envisage d'ajouter de nouvelles options ML à cette fonctionnalité au fil du temps, selon Hasbe. "Nous avons besoin que nos clients nous disent quels modèles ils souhaitent que nous ajoutions afin que nous fournissions les modèles les plus utiles en premier", a-t-il déclaré.

Mises à jour supplémentaires de Google BigQuery

En tête de liste des mises à niveau après ML, on trouve une fonctionnalité de mise en cluster, des systèmes d’information géographique BigQuery (BigQuery GIS), un nouveau connecteur de données Google Sheets et un nouveau connecteur de données Google Sheets.

La mise en cluster est également en version bêta et permet la création de tables en cluster dans un mouvement d'optimisation des données qui regroupe des lignes avec des clés de cluster similaires. Cela réduit les coûts, car cela améliore les performances et permet à Google BigQuery de ne facturer à l'utilisateur que les données analysées plutôt que l'intégralité de la table ou de la partition.

BigQuery GIS est actuellement en alpha et est utilisé pour l'analyse de données géospatiales. Alors que l'équipe de Google Cloud s'est associée à Google Earth Engine pour créer BigQuery GIS, vous devez apporter vos propres données géospatiales à la table. Ce n'est pas un problème dans et entre plusieurs industries, y compris les systèmes de voiture connectée, l'Internet des objets (IoT), la fabrication, la vente au détail, les villes intelligentes et la télématique. Sans parler des agences gouvernementales allant de l’Environmental Protection Agency (EPA) et de la National Geospatial-Intelligence Agency à la National Oceanic and Atmospheric Administration (NOAA) et toutes les branches militaires, bien sûr.

BigQuery GIS utilise la bibliothèque S2, qui compte aujourd'hui plus d'un milliard d'utilisateurs via divers produits tels que Google Earth Engine et Google Maps. Si vous avez besoin de plus de données géospatiales, le gouvernement fédéral en partage énormément sur GeoPlatform.

Un nouveau connecteur de données Google Sheets va probablement ravir de nombreux analystes de données, car il est si pratique à utiliser au quotidien. Vous pouvez accéder à Google BigQuery à partir de Google Sheets (tableur) et utiliser des outils Google Sheets tels que Explore, qui combine une collaboration, une visualisation de données et un outil de requête en langage naturel.

Google BigQuery a également une nouvelle interface utilisateur en version bêta. L'un des éléments les plus intéressants est la fonctionnalité de visualisation en un clic, prise en charge par Google Data Studio. Tout compte fait, c’est une excellente série de mises à niveau pour un service déjà élégant. Ces mises à niveau seront testées lors de la prochaine série d'examens de la solution DBaaS (base de données en tant que service) de PCMag, une fois les bogues résolus et les produits dépassant leurs statuts alpha et bêta respectifs.

EIC PCMag Dan Costa discute de l’avenir des données:
Google simplifie l'apprentissage machine avec SQL