Accueil Réflexion prospective Big data: une «opportunité d'un billion de dollars» difficile

Big data: une «opportunité d'un billion de dollars» difficile

Vidéo: Big Data - КЛЮЧ К ПРАВДЕ (Novembre 2024)

Vidéo: Big Data - КЛЮЧ К ПРАВДЕ (Novembre 2024)
Anonim

Lors du Sommet de la technologie d'entreprise de Bloomberg tenu hier, une des choses qui m'avait impressionné était la nécessité de traiter les données de manière nouvelle, autrement dit de traiter avec ce que l'on appelle souvent le "Big Data".

Certaines des discussions ont porté sur la valeur des mégadonnées et sur le point de savoir s’il s’agissait vraiment d’une «opportunité d’un billion de dollars», tandis que d’autres traitaient des défis spécifiques que chaque organisation et l’ensemble du secteur doivent relever pour déployer plus largement ces nouvelles techniques.

Gerard Francis, directeur mondial de Bloomberg Enterprise Solutions, Bloomberg LP, a commencé la journée en suggérant que la chose la plus importante que les entreprises puissent faire est de "capitaliser sur la valeur des données en les utilisant", et de se concentrer sur l'accès, la qualité et le flux de données. données au sein d'une organisation. Dans les panels suivants, il a été beaucoup question de nouveaux outils traitant des données, ainsi que de problèmes spécifiques liés au stockage, à la gestion et à la recherche de personnes chargées de traiter les données.

Dans un panel général sur les tendances des entreprises, Dwight Merriman, président et cofondateur de MongoDB, a déclaré que la couche de données de la piste d'application présentait "la plus grande perturbation et le plus grand changement que nous ayons vus depuis 25 ans". Il a déclaré que les entreprises utilisaient des bases de données relationnelles depuis 25 ans ou plus, ce qui en faisait la technologie la plus ancienne de la pile. Mais il se produit maintenant des problèmes avec le stockage basé sur fichiers, tels que Hadoop et les nouvelles technologies de base de données, souvent regroupés sous le nom "NoSQL". Il a souligné que le Big Data ne concerne pas les "grandes" sociétés mais plutôt la forme des données, les types de données et l'évolution vers le traitement des données en temps réel.

Le directeur de l'information de Google, Benjamin Fried, a convenu que la plupart des entreprises ne rencontraient pas de problèmes de "données volumineuses". Un grand nombre de jeux de données, avec des données telles que les données sur les ressources humaines et les données financières, n’ont pas cette taille, a-t-il déclaré. Ce qui est important, c’est la flexibilité dont vous avez besoin pour traiter correctement les données.

Qu'est-ce que le Big Data?

Gary Bloom de MarkLogic, Mark Bregman de Neustar, Mark Palmer de Streambase et Vipul Nagrath de Bloomberg

Ce concept - cette flexibilité est aussi importante que la taille des données - a été repris dans un autre panneau plus tard dans la journée. Les participants ont convenu que les entreprises traitaient depuis longtemps les applications utilisant beaucoup de données, mais leur ampleur a récemment changé. Par exemple, Mark F. Bregman, vice-président directeur et directeur de la technologie de Neustar, a déclaré que certaines entreprises "stockent maintenant tout" dans l'espoir que cela s'avérera précieux.

"Big est mieux défini comme complexité", selon Gary Bloom, PDG et président de MarkLogic. Il a noté que de nombreuses applications dites "big data" impliquent un grand nombre de types de données différents, mais pas le type de volume que vous entendez normalement dans les applications "big data".

Il a cité un exemple de trafic aérien qui combine des données météorologiques, des données d'aéroport, des données géospatiales, des données de vol, des données de réservation de compagnie aérienne et des données sociales. Il a noté qu'il était très difficile de gérer des données hétérogènes avec des bases de données relationnelles traditionnelles, rappelant les commentaires précédents de Merriman de MongoDB, selon lesquels il s'agissait du "premier changement de génération de bases de données en 25 ans" depuis le passage du grand système à l'ère des bases de données relationnelles.

Il a noté que de nombreuses personnes parlent de données de médias sociaux, mais que ces données doivent être combinées avec d'autres données afin d'obtenir réellement un élément sur lequel vous pouvez capitaliser. La combinaison de ces données constitue "la valeur réelle".

Bien sûr, certaines applications impliquent beaucoup d'informations, Bregman affirmant que l'hétérogénéité n'est qu'un facteur. Il a cité les données DNS, qui peuvent facilement générer 8 To d'informations par jour, et la nécessité de stocker de telles choses dans Hadoop. Bregman et les autres ont noté qu'en ce qui concerne la "capitalisation des données", la valeur réelle ne réside pas dans les données brutes, mais plutôt dans les analyses lorsque cela devient une chose que vous pouvez utiliser. Les autres membres du groupe ont accepté.

Le PDG de Streambase, Mark Palmer, a déclaré qu’il était important dans de nombreuses applications de combiner de grandes quantités de données avec des analyses en continu. et a parlé de la valeur supplémentaire qui pourrait être créée en combinant des analyses traditionnelles et en temps réel.

Mais il a reconnu que la complexité des données est un problème. Il a raconté comment Vivek Ranadivé, qui dirige Tibco (qui est maintenant propriétaire de Streambase), a acheté une équipe de basket-ball en partie pour déterminer comment la technologie peut améliorer l'expérience des supporters. Il a de nouveau parlé de "mélanger différents types de données", en partant d'un flux Twitter, mais également en exploitant d'autres types de données.

Bloom a noté que tout dépend de l'application, indiquant que "la latence est dans l'oeil du spectateur". Certaines applications doivent analyser les données sur le réseau avant même qu’elles atteignent la base de données, d’autres non.

Bregman a évoqué le problème suivant: au lieu qu'il soit difficile de déplacer les ressources de calcul, il devient maintenant beaucoup plus difficile de déplacer les données. Il a noté que pour de nombreuses applications, le "verrouillage" est l'emplacement des données. Une fois que vous avez stocké vos données dans un cloud public, il est très difficile de les déplacer. En conséquence, a-t-il déclaré, de nombreuses entreprises souhaitent stocker des quantités énormes de données dans leurs propres sites, puis pouvoir se déplacer vers différents fournisseurs pour la fonctionnalité de calcul. Empruntant un terme à Bloom de MarkLogic, il a expliqué à quel point les organisations pourraient avoir besoin d’un "centre de données centré sur les données" pour conserver des quantités énormes de données.

Le Big Data est-il une "opportunité d'un billion de dollars?"

Porter Bibb de MediaTech Capital Partners, Doug Cutting de Cloudera, Gaurav Dhillon de Snaplogic et Jason Kelly de Bloomberg Link

Un autre panel a discuté des opportunités et des défis apportés par le Big Data, en se référant à un commentaire de Porter Bibb, associé directeur chez MediaTech Capital Partners. M. Bibb a précisé que les entreprises utilisant les nouvelles techniques bénéficieraient de plus d'un billion de dollars. À ce jour, a-t-il déclaré, nous "n'avons même pas encore commencé à exploiter le potentiel offert par cette technologie".

Bibb a expliqué à quel point il était important que les organisations alignent leur stratégie de données avec celle-ci. Il craignait que la plupart des systèmes des entreprises et des gouvernements ne soient pas alignés.

Lors de cette première séance, Scott Weiss, de Andreessen Horowitz, a déclaré: "Hadoop, c'est comme un stockage cryogénique". Le modérateur Jason Kelly, de Bloomberg Link, a demandé à l'architecte en chef de Cloudera, Doug Cutting, qui était l'un des créateurs d'Hadoop, comment il a regardé cette.

Cutting a déclaré que Hadoop permettait aux utilisateurs de travailler avec plus de données. Il a déclaré que les organisations extraient les données de la bande, la rendant plutôt en ligne et utilisable. Les clients sont en train de passer de 90 jours de données à cinq ou 10 ans de données dans une "archive active".

Un certain nombre de problèmes spécifiques liés au traitement de toutes ces données ont de nouveau été abordés dans ce panel. Le PDG de Snaplogic, Gaurav Dhillon, a parlé de "gravité des données", soulignant que cela n’a aucun sens de prendre les données sur site de Hadoop et de les transférer dans le cloud. Toutefois, s’il existe des données dans le nuage, telles que l’analyse des flux de clics, il n’a aucun sens de les transférer sur site. En conséquence, a-t-il déclaré, il ne voyait que très peu "d'opportunités transfrontalières" dans le transfert des données.

Cutting a déclaré qu'il ne pensait pas qu'il y avait vraiment une pénurie de scientifiques de données. Au lieu de cela, il a dit qu'il y a beaucoup de gens qui comprennent les mathématiques et les affaires, mais qu'ils n'ont tout simplement pas les outils. Vous pouvez apprendre les bases des outils et leur travail en quelques semaines, a-t-il déclaré, mais comprendre votre entreprise prend des années. Pourtant, beaucoup de gens comprennent cela.

Dhillon a également fait part de ses préoccupations concernant la législation traitant des informations pouvant être stockées où. Il a déclaré que certains marchés verticaux exigent que les informations soient stockées sur site, mais s'est inquiété de choses telles que l'obligation de ne pas transférer les données de leur pays d'origine. Une grande partie de ceci est une réaction excessive à des choses telles que les révélations Snowden et les violations de données, a-t-il déclaré, soulignant que "la hâte de légiférer n'est jamais bonne".

Lorsqu'on lui a demandé s'il craignait que les violations Snowden et Target ne fassent peur aux clients à propos des données, Cutting a déclaré qu'il craignait que tant de personnes ne s'inquiètent. De nombreuses personnes ont peur de la technologie, a-t-il déclaré, et le secteur n'a pas réussi à rassurer les clients sur l'idée que leurs données n'étaient pas utilisées. "Tu n'as pas besoin d'être effrayant", dit-il.

À la fin, il y avait beaucoup de discussions sur les évaluations, Bibb suggérant que le récent investissement d'Intel dans Cloudera était un «gros problème», car il valide ce que fait la société. Il a déclaré que d'autres grandes sociétés telles qu'Oracle, IBM, Microsoft et Amazon planaient autour de sociétés d'analyse prédictive. "La ruée vers l'or ne fait que commencer."

Dhillon a déclaré que les évaluations reflètent ce que les entreprises de plomberie apportent au marché du Big Data. Il a dit qu'il était heureux de voir que de tels «pick and picks» obtiennent de bonnes évaluations, mais il craignait un peu que les évaluations prennent de l'avance sur le marché.

Bibb a déclaré qu'il pensait que les grandes données pourraient être surexposées dans les médias, mais qu'elles étaient sous-exposées dans le "c-suite" (c'est-à-dire les PDG, directeurs financiers et autres cadres supérieurs). Il a déclaré que "le potentiel économique est énorme et reste à découvrir"

Big data: une «opportunité d'un billion de dollars» difficile