Sim, eu disse Data Ocean e não Data Warehouse ou Data Lake! Isto porque ambos são conceitos normalmente restritos a um determinado domínio, tal como uma organização, que atualmente é limitado para as capacidades do BigQuery.
A Google tem trabalhado para aumentar as capacidades do BigQuery e torná-lo cada vez mais uma interface analítica unificada em qualquer nível de armazenamento, independentemente do formato e localização dos dados. Ter uma arquitetura em que o armazenamento e a processamento estão separados é um fator importante para alavancar esta estratégia.
O BigLake, serviço recentemente anunciado na Google Data Cloud Summit 2022, exemplifica este investimento, através da expansão do BigQuery para unificar Data Warehouses e Data Lakes com uma governação refinada em ambientes multi-cloud.
Algo assinalável, porque remove todas as fronteiras de dados e ultrapassa a barreira entre Data Lakes e Data Warehouses. Não é necessário copiar os dados ou movê-los entre os seus armazenamentos de objectos, simplesmente obtém um único local para aceder a todos os seus dados.
Permite também, por exemplo, parcerias entre empresas para partilhar informação estratégica, sem a necessidade de transferir dados, numa única plataforma analítica, de forma totalmente controlada e segura.
Esta é uma das recentes notícias anunciadas pela Google, mas o ecossistema analítico em torno do BigQuery não é apenas isto, conforme seguidamente apresentado:
Funcionalidades
- BigQueryML: permite construir e executar modelos Machine Learning no BigQuery. As integrações com Vertex AI e TensorFlow permitem treinar e executar modelos poderosos sobre dados estruturados em minutos. Tudo isto apenas com o SQL.
- BigQuery GIS: combina de forma única a arquitetura sem servidor do BigQuery com suporte nativo para análise geoespacial usando o SQL padrão.
- BigQuery Omni: uma solução analítica flexível e multi-cloud, Anthos, que permite analisar dados através das clouds, a utilizar SQL padrão e a interface familiar do BigQuery.
- BigQuery BI Engine: um serviço de análise in-memory integrado com o BigQuery que permite aos utilizadores analisar interativamente grandes e complexos conjuntos de dados com tempo de resposta de consulta de sub-segundos e elevada simultaneidade.
- BigQuery Data Transfer Service: transfere automaticamente dados para BigQuery de fontes de dados externas, como a Google Marketing Platform, o Google Ads, o YouTube, aplicações SaaS parceiras, Teradata e Amazon S3, de forma programada e totalmente gerida.
- Connected Sheets: permite aos utilizadores analisar milhares de milhões de linhas de dados do BigQuery em tempo real no Google Sheets não sendo necessário possuir conhecimentos de SQL.
- BigLake: um motor de armazenamento que permite unificar Data Warehouses e Data Lakes, permite-lhes efetuar um controlo de acesso uniforme e preciso e acelera o desempenho da consulta em armazenamento multi-cloud e formatos abertos. As ligações de fontes de dados externas não são uma novidade para o BigQuery, uma vez que já era possível criar tabelas externas ou funções de consulta federada.
- Pesquisa em BigQuery: permite-lhe utilizar o SQL para encontrar facilmente elementos de dados únicos escondidos em texto não estruturado e dados JSON semiestruturados, sem ter de conhecer previamente o esquemas da tabela.
- Funções Remotas: permite-lhe expandir as funcionalidades de BigQuery SQL com software fora do BigQuery através da integração direta com as Cloud Functions, o ambiente serverless do Google Cloud para funções com uma única finalidade. Permite a implementação de funções noutras linguagens para além do SQL e JavaScript ou com as bibliotecas ou serviços que não são permitidos nas funções definidas pelo utilizador no BigQuery.
- Dados JSON em SQL padrão: O SQL padrão do BigQuery suporta agora os dados tipo JSON para armazenamento de dados JSON. Deste modo pode inserir dados JSON semiestruturados em BigQuery sem a necessidade de definir previamente um esquema. Permite armazenar e consultar dados que nem sempre aderem a esquemas e tipos de dados fixos.
- Conector BigQuery para SAP: uma forma rápida, simples, económica e extremamente escalável de tornar os dados SAP totalmente acessíveis dentro do BigQuery, aproveitando as ferramentas e os conjuntos de competências existentes do SAP Landscape Transformation Replication Server (SLT) dos clientes. Atualmente é oferecido sem qualquer custo.
- Datasets públicos: oferecem um poderoso repositório de dados com mais de 200 conjuntos de dados públicos com grande procura de diferentes indústrias.
- BigQuery Sandbox: acesso inteiramente livre ao poder total do BigQuery sujeito a determinados limites. Não é necessário um cartão de crédito nem criar ou ativar uma conta de faturação.
- Nível de utilização livre: Como parte integrante do Google Cloud Free Tier, o BigQuery oferece alguns recursos gratuitos até um limite específico. Estes limites de utilização gratuita estão disponíveis durante e após o período experimental gratuito.
Soluções relacionadas
- Serverless Spark through BigQuery: O editor PySpark na Consola BigQuery, fornecido através do Serverless Spark backend. Encontre informações relacionadas aqui e aqui.
- Analytics Hub: um modelo de publicação e subscrição de conjuntos de dados BigQuery. Permite a troca eficiente e segura de ativos de dados entre organizações para enfrentar os desafios da fiabilidade dos dados e dos custos.
- Google Cloud Cortex Framework: um conjunto de modelos, blocos de construção e arquiteturas de referência que irão simplificar e acelerar o planeamento, a engenharia e as implementações em Google Cloud Platform. Pode iniciar rapidamente os insights com Dados SAP em BigQuery com arquiteturas analíticas de referência, visualizações BigQuery pré-definidas e alterar scripts de captura de dados, modelos BigQuery ML e Plug and Play Looker dashboards.
- Dataplex: uma camada de dados inteligente que ajuda a unificar os dados distribuídos sem qualquer movimento de dados, organizando-os em função das necessidades das empresas e com uma gestão, monitorização e governação centralizada.
- Vertex AI: unifica o AutoML e a AI Platform numa API unificada, client library e interface de utilizador. Há também o Vertex AI Workbench um único ambiente de desenvolvimento para todo o fluxo de trabalho da ciência dos dados, e o Vertex AI Model Registry um repositório central para gerir e governar o ciclo de vida dos modelos ML.
- Cloud Data Loss Prevention (DLP): um serviço totalmente gerido que dá acesso a uma poderosa plataforma de inspeção, classificação e anonimização de dados sensíveis. Existem serviços tais como Data profiles para dados BigQuery que analisam automaticamente todas as tabelas e colunas em toda a organização, pastas individuais, e projetos, identificando onde residem os dados sensíveis e de alto risco. Pode encontrar mais informação sobre DLP automático para BigQuery aqui e aqui.
- Log Analytics: dá-lhe o poder analítico do BigQuery diretamente no Cloud Logging com uma nova interface de utilizador otimizada para analisar os dados de log. Pode usar o SQL para realizar análises avançadas de logs e também disponibilizá-los diretamente no BigQuery. Pode correlacionar os seus logs com outros dados empresariais armazenados no BigQuery, dando-lhe uma visão mais ampla dos seus serviços Google Cloud.
- Recomendações de assistência ativa para BigQuery: cria recomendações para clientes que utilizam faturação a pedido. Estas recomendações ajudam-no a compreender as suas necessidades de capacidade BigQuery e os tradeoffs de custo e desempenho da compra de diferentes quantidades de capacidade de slot. Esta funcionalidade é fornecida pelo Active Assist, uma parte da solução AIOps do Google Cloud que utiliza dados, inteligência, e Machine Learning para reduzir a complexidade da Cloud e o trabalho administrativo.
Tópicos adicionais
- Data security and governance: conceitos de governação de dados e quais os controlos de que poderá necessitar para proteger os recursos do BigQuery.
- BigQuery Admin Reference Guide: um conjunto de artigos incluindo monitorização, governação, processamento e otimização de consultas, hierarquia de recursos, etc.
- Google Cloud Ready – BigQuery: um programa de validação através do qual as equipas de engenharia do Google Cloud avaliam e validam as integrações e os conetores BigQuery utilizando uma série de testes de integração de dados e benchmarks.
- Industry Solutions: As soluções Google Cloud podem ajudar a melhorar a eficiência e a agilidade, reduzir custos, participar em novos modelos de negócio e captar novas oportunidades de mercado. O BigQuery é uma parte essencial destas soluções analíticas.
- Migrating data warehouses to BigQuery: este documento faz parte de uma série que o ajuda na transição de um Data Warehouse nas suas instalações para o BigQuery. Numa seção posterior são apresentados detalhes sobre a transição de tecnologias específicas de armazenamento de dados para o BigQuery, tais como Netezza, Oracle, Amazon Redshift, Teradata e Snowflake.
Conclusão
Estas são apenas um subconjunto das funcionalidades e soluções do BigQuery, não é uma lista exaustiva. O BigQuery está totalmente integrado com os serviços Google Cloud e não só, em conformidade com a estratégia Open Cloud da Google, que é cada vez mais aberta e democrática, tal como podemos constatar, por exemplo, através do BigLake e do BigQuery Omni.Pode encontrar muito mais informação no blog dos produtos e soluções Google Cloud e documentação tal como: BigQuery Documentation, BigQuery Release Notes, Dataproc Serverless Spark e Spark on Google Cloud.