Vidéo: Alexa, Siri, Google Home : les assistants vocaux nous espionnent-ils ? - La Quotidienne (Novembre 2024)
Les assistants intelligents - Siri, Google Now, Cortana, etc. - sont passés d’une curiosité à une astuce de salon il ya quelques années encore à des outils essentiels que beaucoup de gens utilisent dans leur vie quotidienne. La semaine dernière, lors de la conférence sur les assistants intelligents à New York présentée par Opus Research, j'ai été impressionné par les progrès réalisés par le logiciel dans divers secteurs, notamment les progrès des entreprises financières, du secteur de l'assurance et du secteur médical dans la construction d'agents spécifiques..
Le fondateur d'Opus Research, Dan Miller, a expliqué que bon nombre des technologies de base, telles que la reconnaissance vocale, existent depuis plus de 20 ans. Bien qu'il ait récemment constaté d'importantes améliorations plutôt qu'une révolution, il a déclaré: "Nous sommes sur une trajectoire évolutive", avec de nombreux produits sur un continuum avec des capacités différentes. Il a noté qu'il existe des centaines d'assistants intelligents en entreprise qui peuvent être utilisés pour une conversation textuelle simple en anglais à l'aide d'un ensemble de données fixe, et pour des tâches telles que la navigation sur un site Web ou une FAQ. À l’autre extrémité du spectre, il n’ya probablement que quelques douzaines d’applications «dynamiques, à l’esprit humain», plus propices à la conversation et au contexte.
Miller a souligné les applications primées lors de la conférence. Julie d'Amtrak a commencé en tant qu'agent de service téléphonique à réponse vocale interactive il y a plusieurs années, mais est devenue un agent qui fonctionne sur le site Web pour guider les voyageurs à travers Amtrak.com, sur la base d'un agent de Next IT. Telefonica Mexico a un agent nommé Nico qui possède un avatar et fournit également une assistance via Twitter et Facebook, basée sur la plate-forme d'AgentBot. ING Pays-Bas a Inge, une application qui vous permet de vérifier le solde de votre compte bancaire ou de virer de l'argent par la voix, à l'aide de la technologie biométrique vocale de Nuance, afin d'authentifier votre identité.
Les mentions honorables incluent des applications de soins de santé, telles qu'une application qui vous aide à choisir un plan de soins de santé. Parmi les autres applications dont j'ai entendu parler à l'émission, citons Domino's Pizza, qui possède une application appelée Dom qui vous permet d'utiliser la commande vocale pour commander une pizza; et BMW, qui a un agent virtuel dans le cadre de son bras de financement automatique Up2drive.
Brett Beraneck de Nuance a expliqué comment les progrès réalisés dans les réseaux de neurones d'apprentissage en profondeur ont amélioré la compréhension du langage naturel ainsi que la reconnaissance vocale, et comment cela se conjugue pour susciter un intérêt accru sur le terrain. L’assistant Nina de Nuance en est un exemple récent. Depuis lors, il s’est développé en un grand nombre d’applications spécifiques, allant des systèmes de réponse vocale interactifs des sociétés d’assurance aux applications de magasinage. Chacune de ces applications a une personnalité différente, en fonction de ce qu’elle essaie de vous aider à faire.
Une des nouvelles fonctionnalités dont il a parlé est la biométrie vocale, dans laquelle votre voix remplace un mot de passe. Il a expliqué comment des sociétés telles que ING en Europe développent des agents qui utilisent non seulement la reconnaissance vocale et le traitement du langage naturel, mais commencent également à utiliser la voix pour reconnaître la personne qui appelle. Il a dit que c'était à la fois plus sûr et plus naturel qu'un mot de passe traditionnel.
Alors que des études récentes craignaient que les enregistrements vocaux ne puissent tromper de tels systèmes, Nuance a noté que la technologie actuelle inclut des fonctionnalités visant à détecter les anomalies à partir de la voix enregistrée et a souligné d'autres études prenant en compte un point de vue différent. En outre, les concepteurs peuvent utiliser différents niveaux de biométrie vocale pour différentes fonctions, telles que la reconnaissance simple pour vérifier le solde d'un compte ou vous demander de répéter une séquence aléatoire de mots pour des transferts d'argent importants.
La biométrie vocale semble certainement gagner du terrain. Lors du symposium Gartner de la semaine dernière, une session sur les "cas clients" dans les services financiers incluait une application Citibank qui utilisait cette fonctionnalité.
MyWave a un assistant appelé Frank qui doit être activé par plusieurs entreprises pour vous permettre d’interagir avec elles de manière plus conversationnelle, au lieu de laisser chaque entreprise développer la sienne. Les premières utilisations incluent une banque néo-zélandaise et une application appelée Saveawatt conçue pour vous aider à choisir votre fournisseur d'électricité.
Geraldine McBride, PDG, a expliqué que la société essayait de créer des assistants permettant de combler le fossé entre les clients et les applications de service, avec ce qu'elle appelle des "relations gérées par le client" ou CMR, une version des applications de CRM traditionnelles. Une grande différence, a-t-elle déclaré, est que le client est responsable de toutes ses données, plutôt que de l'entreprise.
Autre société relativement nouvelle, Expect Labs propose un produit appelé MindMeld, qui sert de base à un certain nombre de sociétés qui souhaitent offrir une interface vocale pour remplacer les interfaces traditionnelles et gérer les questions et réponses. Cela pourrait être utilisé pour diverses applications, telles que regarder des émissions de télévision en demandant simplement le nom et en demandant au système d'interroger plusieurs systèmes. (Fire TV d’Amazon possède certaines de ces fonctionnalités, mais n’est pas intégré à votre décodeur câble, alors que l’un des investisseurs d’Expect Labs est la société de câblodistribution Liberty Global.)
Tim Tuttle, PDG, a expliqué que MindMeld avait tendance à utiliser la reconnaissance vocale déjà disponible dans la plupart des appareils et se concentrait plutôt sur la compréhension du langage naturel et la création d'un graphe de connaissances contenant les informations disponibles. Il a déclaré que la société essayait de faire évoluer le système pour inclure davantage d'informations provenant de sources multiples et de briser les hiérarchies des différentes catégories d'informations qui font partie de la plupart de ces systèmes. Comprendre vraiment les questions signifie être capable de comprendre l'intention de différentes catégories, a-t-il déclaré.
Selon un certain nombre de participants, les statistiques suggèrent qu'environ 10% de toutes les recherches sur le Web sont désormais effectuées via des agents de renseignement. (Le pionnier de l'IA, Andrew Ng, a déclaré que c'était le cas pour la recherche vocale à Baidu l'année dernière et que plusieurs personnes ont déclaré que c'était également le cas chez Google, mais je n'ai pas entendu de confirmation de première main.)
M. Miller, de l’Opus Research, a déclaré qu’il restait encore beaucoup de travail à faire. La précision de base des systèmes peut encore être améliorée, en particulier en passant de ce que vous dites à ce que vous voulez dire, et à ce que vous devez faire par la suite. Lors de la conférence, Stephen Hoover, président-directeur général de Xerox PARC, a déclaré que les systèmes actuels permettent de comprendre avec exactitude ce que nous entendons, mais que 10% constituent toujours un problème, car c'est ce dont la plupart des gens se souviennent lorsqu'ils traitent. un système. Et Miller a déclaré qu'il y avait place pour une meilleure personnalisation, car si le système sait à qui il parle, il peut donner de meilleurs résultats. Par exemple, il a noté que Facebook sait qui utilise le système parce que vous êtes connecté. et a ajouté que le faire de manière transparente avec plus d'agents deviendrait plus important.
C'est certainement une catégorie fascinante, et je suppose que nous allons tous passer beaucoup plus de temps à parler à nos téléphones et à nos ordinateurs et à interagir avec des agents qui ne sont pas tout à fait humains. Je trouve cela une des tendances les plus intrigantes de l'informatique ces jours-ci.