Base de données vectorielle Pinecone promet de maîtriser la gestion des données ML avec la version 2.0

  • Français


  • Pinecone a mis à niveau sa base de données vectorielles, destinée aux entreprises qui cherchent à augmenter la productivité dans les projets d’apprentissage automatique.

    Construit par l’équipe derrière Amazon Sagemaker, Pinecone est conçu pour permettre aux ingénieurs en apprentissage automatique de rechercher dans des catalogues d’intégrations, les représentations vectorielles continues de variables distinctes fondamentales pour les algorithmes de ML courants tels que word2vec.

    Avec son itération 2.0, la société promet le stockage de métadonnées – telles qu’un sujet, un auteur et une catégorie – avec chaque élément, permettant aux utilisateurs de filtrer les recherches vectorielles selon ces critères en une seule étape.

    Edo Liberty, fondateur et PDG de Pinecone, a déclaré que si les bases de données relationnelles utilisent SQL pour organiser et interroger les données, et que les documents texte nécessitent un index, les modèles d’apprentissage automatique se rapportent aux significations ou aux sentiments représentés dans des vecteurs multidimensionnels.

    “Vous ne vous souciez pas des mots spécifiques; vous vous souciez des significations et des sentiments. Vous devez le faire avec l’IA, et la façon dont cela est fait n’est pas renvoyé dans un index inversé, c’est fait avec une représentation vectorielle des objets, c’est ainsi que les modèles d’apprentissage en profondeur représentent du texte.”

    L’ancien directeur de la recherche et de l’ingénierie chez Yahoo et AWS a ajouté : « Les entreprises ont ces représentations des données et ont des métadonnées qui leur sont associées afin que vous sachiez si la phrase provient d’un document spécifique, son heure spécifique et prononcée par une personne spécifique et ainsi de suite. Tout cela est indexé par Pinecone, rendu disponible pour la recherche et le slice et le dé. “

    Le deuxième développement prôné par le fournisseur consiste à combiner des données en mémoire et sur disque sur un seul système, ce qui, selon Liberty, effectuerait les mêmes charges de travail pour un dixième du coût en évitant d’extraire les données du disque vers des systèmes RAM plus coûteux.

    Liberty a également déclaré que la société avait amélioré la mise à l’échelle horizontale avec une architecture conçue pour utiliser Kafka et Kubernetes pour rendre la base de données vectorielle aussi fiable que n’importe quelle autre base de données d’entreprise.

    Hyoun Park, analyste en chef chez Amalgam Insights, a déclaré qu’à mesure que la machine et l’apprentissage en profondeur deviennent de plus en plus des capacités commerciales normales, les organisations rencontreront des limitations de performances dans les bases de données relationnelles standard.

    Pour ceux qui partent de zéro pour créer une architecture ML, il serait avantageux de commencer sur des bases de données conçues de manière appropriée.

    “La recherche vectorielle est un aspect important à prendre en compte”, a-t-il déclaré, “car elle permet un meilleur contexte, une plus grande utilisation du langage humain et un meilleur alignement des binaires graphiques et audio avec les taxonomies sémantiques existantes.

    « D’un point de vue pratique, la recherche vectorielle aide les entreprises à mieux aligner le texte, la parole, les images, les vidéos et les sons complexes avec les services, les catégories et les objectifs existants.

    Park a déclaré que la recherche vectorielle devrait être considérée comme la “prochaine étape” pour les organisations qui souhaitent intégrer “l’intégralité de leur écosystème de données dans leurs efforts d’apprentissage automatique et d’IA”. ®

    L'équipe de Comparaland

    L'équipe rédactionnnelle du site

    Pour contacter personnellement le taulier :

    Laisser un commentaire

    Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *