31/10 A 3/11 – ONLINE
5 e 6/11 – ESPM SÃO PAULO

Como consultar as principais bases de dados públicos em um só lugar

DIA:
06/11

HORÁRIO:
15:45h

DURAÇÃO:
1:30h

Sala:
C511

Nível:
Básico

Sobre o workshop

Para fazer jornalismo de dados, é preciso saber quais perguntas se quer responder a partir dos dados. Esta foi a missão que guiou o workshop ministrado por Gustavo Alcântara, da Base dos Dados (BD). Por meio de sua plataforma, a BD disponibiliza mais de 90 conjuntos de dados públicos, extraídos de sites oficiais e já tratados por sua equipe para tornar a informação mais acessível.

Gustavo deu início a oficina mostrando como acessar o conteúdo da Base dos Dados por meio do mecanismo de busca do próprio site, que permite a filtragem por temas, órgão fornecedor, capilaridade e temporalidade. A plataforma também oferece informações sobre a natureza dos dados, como o dicionário de colunas com tipo de dado e descrição, cobertura temporal e frequência de atualização.

Com os dados selecionados, os participantes seguiram para a análise no BigQuery, servidor da Google que opera a partir da linguagem SQL. A ferramenta permite a manipulação de uma quantidade de dados muito maior do que a possível em editores de planilhas e exibe os resultados das consultas com mais agilidade. Com o auxílio de consultas (queries) do SQL para funções básicas de filtragem e ordenação, Gustavo ensinou a fazer buscas de recortes nos microdados.

Durante a atividade, o instrutor apresentou quatro questões para que os participantes respondessem a partir de consultas aos dados da BD utilizando o BigQuery: o desempenho escolar no Índice de Desenvolvimento da Educação Básica (Ideb); a proporção de gados por pessoa; a emissão e absorção de gás carbônico por unidade federativa do país; e o consumo médio de energia elétrica residencial. As perguntas foram respondidas utilizando funções básicas do SQL, como filtragem por mais de uma condição e ordenação decrescente, além de métodos mais elaborados, como o cruzamento de duas tabelas por meio de uma chave comum entre elas.

A definição prévia das perguntas e recortes que se deseja fazer ajuda a reduzir o número de tabelas e facilita o cruzamento com outras fontes, quando o arquivo trabalhado não é suficiente. A realização de consultas aos dados, por sua vez, descomplica as análises, tornando-as mais acessíveis. Obtidas as respostas, Gustavo mostrou ainda que é possível exportar as consultas feitas no BigQuery e salvar uma cópia do arquivo no Google Drive ou exportar em diferentes formatos, como CSV, JSON ou em planilha.

Referências da atividade

lucasrodrigues

Lucas Rodrigues

Data Engineer. Responsável pela área de infraestrutura da BD, atuando diretamente na construção de ETLs, pipelines de dados e manutenção dos pacotes, além de supervisionar e prover suporte técnico a analistas da organização.

REALIZAÇÃO

DESENVOLVIDO COM

APOIO

Visite os sites das edições anteriores: 20162017201820192020 e 2021.

Nosso conteúdo está disponível sob a licença Creative Commons Atribuição 4.0 Internacional, e pode ser compartilhado e reutilizado para trabalhos derivados, desde que citada a fonte.