5 e 6/11 – ESPM SÃO PAULO
Como consultar as principais bases de dados públicos em um só lugar
Para fazer jornalismo de dados, é preciso saber quais perguntas se quer responder a partir dos dados. Esta foi a missão que guiou o workshop ministrado por Gustavo Alcântara, da Base dos Dados (BD). Por meio de sua plataforma, a BD disponibiliza mais de 90 conjuntos de dados públicos, extraídos de sites oficiais e já tratados por sua equipe para tornar a informação mais acessível.
Gustavo deu início a oficina mostrando como acessar o conteúdo da Base dos Dados por meio do mecanismo de busca do próprio site, que permite a filtragem por temas, órgão fornecedor, capilaridade e temporalidade. A plataforma também oferece informações sobre a natureza dos dados, como o dicionário de colunas com tipo de dado e descrição, cobertura temporal e frequência de atualização.
Com os dados selecionados, os participantes seguiram para a análise no BigQuery, servidor da Google que opera a partir da linguagem SQL. A ferramenta permite a manipulação de uma quantidade de dados muito maior do que a possível em editores de planilhas e exibe os resultados das consultas com mais agilidade. Com o auxílio de consultas (queries) do SQL para funções básicas de filtragem e ordenação, Gustavo ensinou a fazer buscas de recortes nos microdados.
Durante a atividade, o instrutor apresentou quatro questões para que os participantes respondessem a partir de consultas aos dados da BD utilizando o BigQuery: o desempenho escolar no Índice de Desenvolvimento da Educação Básica (Ideb); a proporção de gados por pessoa; a emissão e absorção de gás carbônico por unidade federativa do país; e o consumo médio de energia elétrica residencial. As perguntas foram respondidas utilizando funções básicas do SQL, como filtragem por mais de uma condição e ordenação decrescente, além de métodos mais elaborados, como o cruzamento de duas tabelas por meio de uma chave comum entre elas.
A definição prévia das perguntas e recortes que se deseja fazer ajuda a reduzir o número de tabelas e facilita o cruzamento com outras fontes, quando o arquivo trabalhado não é suficiente. A realização de consultas aos dados, por sua vez, descomplica as análises, tornando-as mais acessíveis. Obtidas as respostas, Gustavo mostrou ainda que é possível exportar as consultas feitas no BigQuery e salvar uma cópia do arquivo no Google Drive ou exportar em diferentes formatos, como CSV, JSON ou em planilha.
Lucas Rodrigues
Data Engineer. Responsável pela área de infraestrutura da BD, atuando diretamente na construção de ETLs, pipelines de dados e manutenção dos pacotes, além de supervisionar e prover suporte técnico a analistas da organização.
REALIZAÇÃO
DESENVOLVIDO COM
APOIO
Nosso conteúdo está disponível sob a licença Creative Commons Atribuição 4.0 Internacional, e pode ser compartilhado e reutilizado para trabalhos derivados, desde que citada a fonte.