Créer un data lakehouse ouvert, géré et intelligent sur Google Cloud
Unifiez et gérez vos données multimodales avec un lakehouse de données hautes performances intégré à l'IA de pointe de Google. Exploitez tout le potentiel d'Apache Iceberg et de la première solution Spark sans serveur du secteur proposant l'autoscaling pour simplifier le traitement des données, les analyses et les initiatives d'IA.
Les nouvelles innovations dans les formats de données ouverts, la gouvernance intelligente des données pour l'IA, l'accélération du traitement des données et les outils de développement avancés assistés par l'IA se combinent pour simplifier la gestion des données et accélérer l'innovation.
BigLake
Bénéficiez de l'ouverture d'Apache Iceberg avec une gestion de stockage de niveau professionnel
BigLake fournit un moteur de stockage Iceberg natif pour l'interopérabilité de Cloud Storage, une gestion unifiée des métadonnées d'exécution, des fonctionnalités d'analyse avancée et de science des données, ainsi qu'une gestion des données automatisée avec une gouvernance intégrée. Tout moteur compatible avec Iceberg peut utiliser la gestion automatisée des tables de BigLake pour améliorer les performances des requêtes et réduire les coûts.
“Notre partenariat avec Google Cloud a été déterminant dans notre démarche visant à créer le lakehouse ouvert de nouvelle génération de Snap, et à démocratiser Spark et Iceberg au sein de notre communauté de développeurs.”
Zhengyi Liu, responsable senior, ingénieur logiciel, Snap
Google Cloud Serverless pour Apache Spark
Spark sans serveur offre des performances élevées et un traitement ultrarapide, sans qu'il soit nécessaire de gérer des clusters.
Transformez votre lakehouse avec Google Cloud Serverless pour Apache Spark. Profitez d'un démarrage rapide et d'une absence de frais généraux opérationnels, tout en améliorant les performances de vos charges de travail Spark avec le nouveau Lightning Engine. Cette combinaison efficace avec Gemini améliore la productivité et permet de réduire le coût total de possession de 60 %.
“Nous considérons que SQL et Spark sont deux méthodes complémentaires pour accéder aux données et les transformer. Spark nous est particulièrement utile dans les cas d'utilisation qui nécessitent une logique métier complexe, qui, bien que de niche, sont extrêmement critiques pour l'entreprise. Une plate-forme unifiée pour SQL, Spark et l'IA, avec une expérience de développement dans des notebooks, simplifiera considérablement ces cas d'utilisation critiques.”
Andrés Sopeña Pérez, responsable de l'ingénierie de contenu, Trivago
Dataplex Universal Catalog
Simplifiez la découverte, la compréhension et la fiabilité des données pour votre data lakehouse
Dataplex Universal Catalog est la solution de gouvernance unifiée des données à l'IA pour Google Cloud. Ce catalogue optimisé par l'IA centralise les métadonnées métier, techniques et opérationnelles dans Google Cloud, et fournit des insights optimisés par l'IA. Il est compatible avec des formats ouverts tels qu'Apache Iceberg, ce qui permet d'intégrer la gouvernance à l'ensemble de votre lakehouse.
“Dataplex a joué un rôle déterminant dans la transformation de notre plate-forme de données en un écosystème de données sécurisé, efficace et évolutif. En mettant l'accent sur la gouvernance des données, leur découverte, l'observabilité et la conformité de la sécurité, nous sommes équipés pour relever les défis de la gestion des données à l'ère du numérique. Dataplex permet à nos équipes de libérer tout le potentiel des données et de stimuler la croissance et l'innovation de Box.Inc.”
Asmita Kulkarni, responsable produit principal, Box.Inc
BigQuery Studio et les extensions IDE
Amélioration d'Apache Spark pour les charges de travail avancées de science des données et d'IA/de ML dans les architectures de lakehouse, en simplifiant le développement et les opérations
Dataproc améliore Spark pour l'IA/le ML sur les lakehouses avec de nouvelles innovations pour les environnements d'exécution du ML avec des pilotes de GPU et des bibliothèques de ML courantes. Les notebooks Colab Enterprise dans BigQuery Studio et les IDE tiers offrent des fonctionnalités MLOps intégrées avec Vertex AI et des pipelines de production simplifiés pour accélérer la science des données.
“Shopify a investi dans une équipe aux compétences variées pour rester à la pointe des tendances en matière de data science et d'ingénierie. Lors des premiers tests de BigQuery Studio, nous avons apprécié la capacité de Google à connecter différents outils pour différents utilisateurs dans une expérience simplifiée. Nous considérons que cela nous permet de réduire les frictions au sein de notre équipe sans sacrifier l'évolutivité que nous attendons de BigQuery.”
Zac Roberts, responsable de l'ingénierie des données, Shopify
BigLake
Bénéficiez de l'ouverture d'Apache Iceberg avec une gestion de stockage de niveau professionnel
BigLake fournit un moteur de stockage Iceberg natif pour l'interopérabilité de Cloud Storage, une gestion unifiée des métadonnées d'exécution, des fonctionnalités d'analyse avancée et de science des données, ainsi qu'une gestion des données automatisée avec une gouvernance intégrée. Tout moteur compatible avec Iceberg peut utiliser la gestion automatisée des tables de BigLake pour améliorer les performances des requêtes et réduire les coûts.
“Notre partenariat avec Google Cloud a été déterminant dans notre démarche visant à créer le lakehouse ouvert de nouvelle génération de Snap, et à démocratiser Spark et Iceberg au sein de notre communauté de développeurs.”
Zhengyi Liu, responsable senior, ingénieur logiciel, Snap
Google Cloud Serverless pour Apache Spark
Spark sans serveur offre des performances élevées et un traitement ultrarapide, sans qu'il soit nécessaire de gérer des clusters.
Transformez votre lakehouse avec Google Cloud Serverless pour Apache Spark. Profitez d'un démarrage rapide et d'une absence de frais généraux opérationnels, tout en améliorant les performances de vos charges de travail Spark avec le nouveau Lightning Engine. Cette combinaison efficace avec Gemini améliore la productivité et permet de réduire le coût total de possession de 60 %.
“Nous considérons que SQL et Spark sont deux méthodes complémentaires pour accéder aux données et les transformer. Spark nous est particulièrement utile dans les cas d'utilisation qui nécessitent une logique métier complexe, qui, bien que de niche, sont extrêmement critiques pour l'entreprise. Une plate-forme unifiée pour SQL, Spark et l'IA, avec une expérience de développement dans des notebooks, simplifiera considérablement ces cas d'utilisation critiques.”
Andrés Sopeña Pérez, responsable de l'ingénierie de contenu, Trivago
Dataplex Universal Catalog
Simplifiez la découverte, la compréhension et la fiabilité des données pour votre data lakehouse
Dataplex Universal Catalog est la solution de gouvernance unifiée des données à l'IA pour Google Cloud. Ce catalogue optimisé par l'IA centralise les métadonnées métier, techniques et opérationnelles dans Google Cloud, et fournit des insights optimisés par l'IA. Il est compatible avec des formats ouverts tels qu'Apache Iceberg, ce qui permet d'intégrer la gouvernance à l'ensemble de votre lakehouse.
“Dataplex a joué un rôle déterminant dans la transformation de notre plate-forme de données en un écosystème de données sécurisé, efficace et évolutif. En mettant l'accent sur la gouvernance des données, leur découverte, l'observabilité et la conformité de la sécurité, nous sommes équipés pour relever les défis de la gestion des données à l'ère du numérique. Dataplex permet à nos équipes de libérer tout le potentiel des données et de stimuler la croissance et l'innovation de Box.Inc.”
Asmita Kulkarni, responsable produit principal, Box.Inc
BigQuery Studio et les extensions IDE
Amélioration d'Apache Spark pour les charges de travail avancées de science des données et d'IA/de ML dans les architectures de lakehouse, en simplifiant le développement et les opérations
Dataproc améliore Spark pour l'IA/le ML sur les lakehouses avec de nouvelles innovations pour les environnements d'exécution du ML avec des pilotes de GPU et des bibliothèques de ML courantes. Les notebooks Colab Enterprise dans BigQuery Studio et les IDE tiers offrent des fonctionnalités MLOps intégrées avec Vertex AI et des pipelines de production simplifiés pour accélérer la science des données.
“Shopify a investi dans une équipe aux compétences variées pour rester à la pointe des tendances en matière de data science et d'ingénierie. Lors des premiers tests de BigQuery Studio, nous avons apprécié la capacité de Google à connecter différents outils pour différents utilisateurs dans une expérience simplifiée. Nous considérons que cela nous permet de réduire les frictions au sein de notre équipe sans sacrifier l'évolutivité que nous attendons de BigQuery.”
Zac Roberts, responsable de l'ingénierie des données, Shopify
Temps de lecture : 10 min
Temps de lecture : 10 min
Temps de lecture : 10 min
Temps de lecture : 15 min
10 min
Temps de lecture : 15 min