7 passos em 1: como simplificar sua análise de dados com a Base dos Dados

Atividade exclusiva para pessoas inscritas no Coda.Br 2021.

Inscreva-se já OU faça login

SOBRE O WORKSHOP

Toda análise começa em uma ideia. Mas, depois de encontrar a sua, há um longo caminho até tirá-la do papel. Primeiro, você precisa descobrir onde os dados estão, baixá-los, entender como a base está estruturada, fazer uma faxina no conjunto de dados para, só depois, dar início à análise. Se você fica com medo só de pensar em todo esse processo, este workshop é para você. A cientista de dados Fernanda Scovino mostra como usar a Base dos Dados +, datalake público com mais de 70 conjuntos de dados tratados e prontos para análise. A melhor parte: usando apenas SQL, uma linguagem de consulta simples, no Google BigQuery

Na primeira parte da oficina, Scovino apresenta a Base dos Dados+ e mostra como a plataforma está democratizando o acesso a dados abertos de qualidade no Brasil. Com o objetivo de otimizar o processo longo e trabalhoso de estruturação de uma base, o website reúne conjuntos de dados de fontes como IBGE, TSE, Ministérios da Saúde, Senado Federal e até de organizações internacionais. Além do tratamento, as bases seguem uma metodologia de padronização universal, o que facilita o cruzamento de informações. O acesso aos dados pode ser feito por download diretamente do site ou por consulta via BigQuery, R ou Python.

Ficou com vontade de ver como funciona na prática? Na segunda parte do workshop, reconstruímos, a partir de bases disponíveis na plataforma, a análise da evolução dos preços dos combustíveis, de 2004 até 2021, com os valores corrigidos pela inflação. Para isso, foram utilizados conjuntos de dados da Agência Nacional de Petróleo, Gás Natural e Biocombustíveis (ANP), que divulga semanalmente a série histórica com microdados dos preços de combustíveis em postos no Brasil. A base da ANP foi cruzada com os dados do Índice Nacional de Preços ao Consumidor Amplo (IPCA). 

Com duas etapas de código no SQL, o workshop mostra como fazer subconsultas ao conjunto de dados da ANP, extrair informações relevantes, filtrar dados e juntar com outros dados da base do IPCA. Nessa hora, é possível ver como a padronização de códigos feita pela plataforma otimiza a consulta no BigQuery. O resultado é uma tabela contendo os preços dos combustíveis desde 2004, atualizados pela inflação de 2021, permitindo que eles possam ser comparados entre si. Ao final, Scovino ainda apresenta como transformar a consulta em um gráfico na ferramenta Google DataStudio. Agora, você já não precisa ter medo de transformar a sua ideia em realidade. 

NÍVEL

Intermediário.

DURAÇÃO

1:30h

REFERÊNCIAS DA ATIVIDADE

Este workshop é de nível de conhecimento intermediário e recomenda-se que as pessoas participantes possuam conhecimento básico de SQL. Os seguintes conteúdos podem ajudar a acompanhar melhor a atividade:

fernandascovino

Fernanda Scovino

Cientista de Dados na Secretaria de Transportes da Prefeitura do Rio de Janeiro, co-fundadora da Base dos Dados. Formada em Matemática Aplicada pela FGV/EMAp, atuou previamente com ciência de dados e desenvolvimento na Impulso-gov, Elogroup e CTS/FGV. Atualmente é conselheira executiva do Laboratório de Inovação em Políticas Públicas e membro do GT da Sociedade Civil para Governo Aberto da CGU.

REALIZAÇÃO

DESENVOLVIDO COM

APOIO

APOIO DE MÍDIA

Visite os sites das edições anteriores: 2016201720182019 e 2020