Databricks ETL
Vamos replicar o processo de ETL para gerar o DATABASE da aula anterior, mas agora utilizando o seu workspace.
Criar Bucket
Mas antes, vamos criar um Bucket na AWS S3 para armazenar os dados.
Exercise
Exercício
Exercício
Criar o Schema
Exercício
Configurar fonte de dados
Quando programarmos a rotina de ETL, precisaremos acessar os dados no S3. Vamos configurar uma fonte de dados para isto.
Exercício
Info
Para ver todas as External locations, clique em Catalog no menu lateral esquerdo.
Em seguida, clique na engrenagem e em External locations.
Exercício
Answer
Espero que esteja tudo certo!
Criar ETL
Agora que temos o Schema e a External location criados, podemos criar o processo de ETL.
Exercício
Exercício
Exercício
Exercício
Exercício
Exercício
Permissões do Schema
Seu acesso ao workspace está como Admin. Vamos configurar as permissões do Schema para que outros usuários possam acessá-lo.
Exercício
Exercício
Answer
O usuário consegue acessar a tabela sfbikeshare.trip
, pois o grupo analistas_bi
tem permissão de Data reader no Schema sfbikeshare
.
Este pipeline poderia ser agendado para rodar periodicamente, garantindo que o DATABASE sfbikeshare
esteja sempre atualizado com os dados mais recentes.
Outra opção seria implementar uma arquitetura Medalion, conforme visto nas aulas anteriores. Assim, teríamos a ingestão em uma tabela RAW e uma série de tansformações para camadas mais enriquecidas.
Info
Confira os conectores disponíveis no menu Ingestion do Databricks.
Uma outra característica interessante do Databricks é a integração com repositórios Git. Assim, você pode versionar o código do seu ETL e trabalhar em equipe de forma mais adequada. Mas este assunto não será abordado no curso.
Por hoje é só!