Vivemos na era da Big Data. Para se perceber a relevância desta afirmação, de acordo com Statista a estimativa do volume de dados produzidos em 2022 é de cerca de 97 Zettabytes, o que equivale a 97 mil milhões de Terabytes de Dados a serem produzidos, recolhidos, copiados e consumidos pela Humanidade em apenas um ano. Desses dados, estima-se que apenas dois por cento sejam armazenados para uso futuro, o que ainda equivale a 1,94 Zettabytes (1,94 mil milhões de Terabytes).
Com esta quantidade incrível de dados a ser produzida, todos os dias surgem novas formas interessantes de utilizar essa informação e a área de IA/ML é agora mais relevante do que nunca.
Neste artigo, quero partilhar uma visão global dos produtos Google Cloud que poderão impulsionar a sua viagem no universo da Inteligência Artificial, independentemente se está a começar uma carreira em Data Science e a explorar novas ferramentas ou se já é um Data Pro que procura novos recursos para melhorar e facilitar o seu trabalho diário.
Google Colab: se está a começar, este é o seu ponto de partida
Se não tem experiência anterior com ambientes cloud e costuma executar todos os seus projetos no seu ambiente local, definitivamente é aqui que deve começar.
O Google Colab permite escrever código e criar projetos diretamente do seu browser e oferece um serviço gratuito onde pode executar projetos numa máquina limitada (mas bastante decente) com CPU e GPU disponíveis. Também pode aceder ao seu Google Drive e gerir os seus dados diretamente do interface; partilhar o seu trabalho com facilidade a partir do botão “Partilhar”; e guardar o seu notebook numa pasta do Google Drive à sua escolha para que possa retomar o seu trabalho a qualquer momento. Como o Google Colab é construído sobre Jupyter Notebooks, pode trabalhar com todas as suas bibliotecas Python que já conhece; se Python não é sua linguagem principal e costuma usar R, o Google Colab também oferece um kernel de R.
Dica: se decidir experimentar o Google Colab, recomendo que ative o modo Corgi ou Cat (ou até ambos!). Não fará nada de especial além de lhe colocar um sorriso na cara, mas na minha opinião é absolutamente necessário e nunca uso o Colab sem esses modos ativados.
BigQuery ML: modelos confiáveis dentro do seu data warehouse
O BigQueryML foi projetado para oferecer uma solução democratizada que permite criar e implementar modelos e use-cases bastante conhecidos no seu Data Warehouse usando Standard SQL. Esta solução é, na minha opinião, mais adequada se SQL for a sua linguagem de programação principal e seus dados forem tabulares. BigQueryML tem um vasto conjunto de modelos que o ajudarão na experimentação inicial e que elimina a necessidade de mover dados.
Se a sua empresa está no estágio inicial de experimentação com análise preditiva e o BigQuery é seu data warehouse, o BigQuery ML é o melhor produto para o ajudar a criar e implementar modelos de base muito bons para mostrar o potencial da análise preditiva aproveitando o seu data warehouse e as suas capacidades.
VertexAI: a plataforma gerenciada dos seus sonhos
O VertexAI é um produto relativamente recente da Google (lançado em setembro de 2021), mas, na minha opinião, é uma das melhores e mais abrangentes plataformas de IA disponíveis no mercado. Longe vão os dias em que um Data Scientist precisava de ser um exército de TI de uma pessoa só e desenvolver todo o processo, desde a Análise Exploratória de Dados até à Monitorização de Modelos, de maneira minuciosa e morosa devido à complexidade da infraestrutura subjacente.
Acredita-se que a maioria dos modelos de machine learning nunca cheguem a produção e aqueles que chegam podem levantar vários problemas relacionados com technical debt e é cada vez mais importante ter uma plataforma, que para além de fornecer vários serviços e integrações, também seja construída para centralizar e dar visibilidade aos seus artefactos de data science (se quiser saber mais sobre a technical debt, recomendo o artigo da Google sobre “Hidden Technical Debt in Machine Learning Systems”) . O VertexAI e todos os seus recursos incríveis permitem criar produtos de ML de ponta a ponta com muito menos atrito e, esperamos, menos complexidade.
Nos próximos parágrafos, apresentarei alguns serviços que o ajudarão a criar um protótipo de produto de ML do zero. Deixo também a nota que este é apenas um pequeno subconjunto de recursos do VertexAI descritos da perspectiva do Data Scientist. A VertexAI é uma plataforma muito abrangente e existe uma grande probabilidade de que tenha uma solução que possa usar para agilizar seu processo.
VertexAI Workbench:
- Este é o seu centro de controlo. A partir deste ambiente de desenvolvimento único, você pode gerir a totalidade do seu projeto de Data Science. No workbench, pode configurar todos os requisitos para o seu projeto, pode iniciar os seus notebooks e encontrará várias integrações, desde a exploração de dados usando SQL dentro de células de notebook, até à integração rápida de modelos com fluxos de trabalho MLOps sem a necessidade de escrever novo código ou novos fluxos. É de notar que pode importar os seus modelos BigQuery ML para VertexAI e usá-los nesta interface.
AutoML:
- Se precisar de estabelecer um modelo de base rápido e simples com pouco ou nenhum código envolvido, este é o recurso ideal para si. Pode usar o AutoML para vários casos reais, desde dados tabulares a imagens ou vídeo. Após a conclusão do processo de treino, terá acesso às métricas de desempenho, ao peso das variáveis, e aos hiperparâmetros usados no modelo caso deseje replicar essa experiência no futuro. Também poderá optar por colocar em produção o modelo resultante, o que pode ser feito diretamente no VertexAI.
VertexAI Vizier:
- Se optar por criar o seu proprio modelo, certamente terá uma etapa para estudo de hiperparâmetros, etapa esta que é conhecida pela sua complexidade e morosidade. VertexAI oferece um serviço incrivelmente poderoso, mas de uso intuitivo, que executará essa pesquisa por si e como resultado devolve os melhores hiperparâmetros encontrados.
Atenção: o Vizier é um mecanismo de otimização black-box. Pode não fazer muita diferença na maioria dos casos, mas convém manter esse detalhe em mente.
Vertex AI Feature Store:
- Durante a Análise Exploratória de Dados, é muito provável que tenha criado variáveis novas com base nas originais (também conhecido como Feature Engineering). Essas novas variáveis podem ser reutilizadas em outros modelos ou projetos e usando a Feature Store, pode armazená-las num repositório centralizado. Este serviço permitirá a partilha, a descoberta e a reutilização destes recursos em escala. Isto ajudará as equipas a acelerar o desenvolvimento e a implementação de novas aplicações de ML.
VertexAI Pipelines:
- Como o nome sugere, este serviço permite a gestão de todo o pipeline de ponta a ponta, desde a análise até à implementação. Já que executar essas etapas uma a uma de maneira manual pode ser muito trabalhoso e demorado, este serviço funciona como uma plataforma na qual poderá organizar todas essas etapas como um pipeline para ajudar a reduzir a complexidade e o tempo de produtização do produto. Também o ajudará a gerir artefactos, dependências e linhagem de ML (que são fontes conhecidas de technical debt).
VertexAI Model Monitoring:
- Como provavelmente já experienciou, quando um modelo chega a produção geralmente perde desempenho em algum momento devido à existência de model drift ou data drift. Tendo isto em conta, este serviço atua como um sistema que monitoriza automaticamente o desempenho do modelo, treina o modelo novamente quando necessário ou emite um aviso quando um data drift é detectado.
Com estes serviços, poderá criar e produzir os seus modelos de ML de maneira bastante mais simples e agradável. Ainda assim, para opções de implementação mais complexas, talvez seja melhor pedir ajuda a um colega de MLOps. Outros serviços que também considero muito úteis para pipelines de produtos mais maduros são Vertex Explainable AI, Vertex ML Metadata e VertexAI Tensorboard.
Conclusão
Neste artigo, partilhei um pouco da minha visão e experiência pessoal com os produtos da Google Cloud no espaço de IA. Escrevi este texto da perspectiva de uma profissional de data que se sentiu muito sobrecarregada quando estava a começar a sua carreira com ambientes de cloud, e espero que este artigo possa ser um primeiro guia para as enormes possibilidades dentro deste universo incrível.