Google présente un connecteur de streaming pour BigQuery

par L'équipe de Comparaland · 19 septembre 2022

Google affirme qu’un nouveau service de streaming aidera les développeurs à obtenir des données dans son entrepôt de données BigQuery à partir de systèmes transactionnels adjacents.

Disponible en préversion, Datastream pour BigQuery est conçu pour offrir aux développeurs la possibilité de répliquer à partir de sources de bases de données opérationnelles telles qu’AlloyDB pour PostgreSQL, PostgreSQL, MySQL et Oracle, directement dans BigQuery, le système d’entrepôt de données cloud basé sur le système de fichiers distribué Colossus de Google.

Google a déclaré qu’il envisageait un “nuage de données unifié, combinant des bases de données, des analyses et l’apprentissage automatique dans une plate-forme unique qui offre l’échelle, la vitesse, la sécurité et la simplicité dont les entreprises modernes ont besoin”, selon un blog faisant la publicité du nouveau service.

Datastream utilise une architecture sans serveur à mise à l’échelle automatique qui permet aux utilisateurs de configurer un pipeline ELT (Extract, Load, Transform) pour répliquer les données du système OLTP source dans BigQuery plus ou moins en temps réel. Les analyses qui en résultent sont destinées à informer les utilisateurs des circonstances commerciales et à aider à prévoir ce qui pourrait se passer ensuite.

Le service sans serveur utilise également la fonctionnalité Change Data Capture (CDC) de Google et la fonctionnalité UPSERT de l’API Storage Write pour répliquer les mises à jour directement à partir des systèmes sources dans les tables BigQuery, de sorte que les ingénieurs et les développeurs de données n’ont pas à créer et à gérer des pipelines de données complexes, des tables intermédiaires, des fusions conversion logique ou manuelle de types de données spécifiques à la base de données en types de données BigQuery.

“Configurez simplement votre base de données source, votre type de connexion et votre destination dans BigQuery et vous êtes prêt”, a déclaré Andi Gutmans, responsable de l’ingénierie des bases de données, dans le blog. “Datastream pour BigQuery remplira les données historiques et répliquera en permanence les nouvelles modifications au fur et à mesure qu’elles se produisent. Et à mesure que les schémas de base de données changent, Datastream gère de manière transparente les modifications de schéma et ajoute automatiquement de nouvelles tables et colonnes à BigQuery.”

Les organisations qui collectent et analysent leurs données dans Google Cloud peuvent voir le sens de l’offre, mais certains fournisseurs essaieront de persuader les développeurs de casser cette noix particulière d’une autre manière. Snowflake, par exemple, a sa fonction Snowpipe, qu’il a présentée pour la première fois en 2017. Amazon a quelque chose appelé AWS Glue. D’autres demandent pourquoi déplacer les données et encouragent les utilisateurs à effectuer des analyses dans des systèmes transactionnels, comme le fait Oracle avec MySQL HeatWave, désormais disponible dans AWS, et comme Le registre débattu ici.

Parmi les autres nouveautés de la division cloud de la chocolaterie, citons le contrôle d’accès basé sur les rôles au service de base de données OLTP de Google, Spanner.

“Avec des fonctionnalités telles qu’une piste d’audit intégrée et un accès contextuel, la gestion des identités et des accès facilite l’octroi d’autorisations au niveau de l’instance et de la base de données aux utilisateurs de Spanner”, a déclaré le chef de produit Mark Donsky dans un blog.

Google propose également des instances d’essai gratuites de Spanner. ®

Google présente un connecteur de streaming pour BigQuery

Laisser un commentaire Annuler la réponse

Statistiques du site

Logiciels