Prática Databricks
Agora que você já tem uma compreensão básica do que é o Databricks e como ele se encaixa no ecossistema de dados, vamos colocar esse conhecimento em prática.
Importante
Nesta aula você irá explorar um ambiente já configurado pelo professor.
Na próxima aula, você aprenderá como configurar seu próprio ambiente!
Acessando o Ambiente
Catalogo de Dados
Vamos explorar o catálogo de dados disponível no ambiente.
Computação
Exercicio
Answer
DBU / h significa Databricks Unit por hora. É uma unidade de medida que o Databricks utiliza para calcular o custo de uso da plataforma com base nos recursos computacionais consumidos.
Cada tipo de instância (e por consequência, o cluster) tem um valor diferente de DBU, refletindo sua capacidade de processamento e memória.
O custo total é calculado multiplicando o número de DBUs consumidos pelo tempo de uso em horas.
Workspaces e Notebooks
Exercicio
Exercicio
Exercicio
Exercicio
Answer
O Databricks solicita que você selecione um cluster para executar o código.
Selecione o cluster já iniciado e clique em Attach and run.
Executando SQL
Exercicio
Exercicio
Answer
Você verá que existe um erro na query.

Se você clicar em Diagnose, o Databricks abre um chat com seu assistente de IA para ajudar a resolver o problema.
Aceite a sugestão!
Exercicio
Exercicio
Exercicio
Exercicio
Exercicio
Answer
SELECT s.*
FROM station AS s
ORDER BY dock_count DESC
LIMIT 5;
Exercicio
Exercicio
Answer
A query retorna as 10 estações com mais viagens iniciadas (coluna qtde_trips
), junto com o número de docks (coluna dock_count
) de cada estação.
Exercicio
Answer
%python
from pyspark.sql import functions as F
station_df = spark.table("station")
trip_df = spark.table("trip")
result_df = (
station_df.join(
trip_df,
station_df.id == trip_df.start_station_id,
"inner"
)
.groupBy(
station_df.id,
station_df.dock_count
)
.agg(
F.count("*").alias("qtde_trips")
)
.orderBy(
F.col("qtde_trips").desc()
)
.limit(10)
)
display(result_df)
Compartilhando o Notebook
Exercicio
Genie
O Genie é o assistente de IA do Databricks que permite interagir com seus dados utilizando linguagem natural.
Exercicio
Exercicio
Exercicio
Conclusão
O Databricks é uma plataforma poderosa que unifica diversas ferramentas e tecnologias para facilitar o trabalho com dados em larga escala.
Nesta primeira aula, você explorou o ambiente Databricks, aprendeu a criar e executar notebooks, e utilizou o assistente de IA Genie para interagir com os dados. Ou seja, uma visão de Analista de Dados.
Na próxima aula, você aprenderá como configurar seu próprio ambiente Databricks na AWS e explorará mais funcionalidades da plataforma, focando no papel de Engenheiro de Dados.