5 e 6/11 – ESPM SÃO PAULO
CRUZANDO DADOS COM PANDAS
Neste bootcamp online, as pessoas participantes passaram por todas o conhecimento básico do framework Pandas, enquanto analisavam a base de dados pública sobre acidentes de trânsito no Recife – PE.
Pandas é um framework Python, um dos mais utilizados na Ciência de Dados por ter uma curva de aprendizado muito baixa, facilitando a vida de quem utiliza os dados em planilhas, quando estas ultrapassam a quantidade de linhas que podem ser interpretadas pelos editores de planilhas.
A atividade começou com uma apresentação para alinhar expectativas, apontando os benefícios de se aprender a programar, das semelhanças que existem entre uma função em um editor de planilha e um script numa linguagem de programação e assuntos que não seriam cobertos durante a atividade.
Durante a atividade, foi utilizado um notebook dividido em 5 metas. Na primeira, o objetivo era conseguir pegar os dados diretamente do site e abrir no notebook. Esta etapa foi feita fazendo um paralelo com o funcionamento de planilhas. Explicações do que seriam dataframes e séries, assim como o métodos para abrir e salvar arquivos, foram cobertas aqui.
A segunda contou com análises e apresentações das maneiras mais comuns de filtrar e agrupar, apontando também possíveis problemas que podem acontecer neste processo.
A seguir, foi apresentada uma exploração mais avançada utilizando filtros compostos, noções de estatística. Com métodos simples, de apenas uma linha, o Pandas consegue entregar algumas análises robustas que ajuda a ter uma noção geral sobre os dados que estão sendo explorados, a partir de uma análise mais estatística,
Já na quarta etapa, participantes aprenderam como cruzar dados. Aqui foram unidas a base de acidentes, uma outra base que organizava os bairros em regiões, permitindo avançar com análises que indicavam quais regiões acontecem mais acidentes e abrindo espaço para investigações mais interessantes.
Por fim, a quinta etapa ensinou como juntar várias bases em uma. A base utilizada era por ano, então foram selecionados todos os anos disponíveis no Portal de Dados abertos no Recife e incluídos em uma base só. Desta forma, participantes tiveram a oportunidade de reproduzir as análises anteriores, com o bônus de poder visualizá-las em gráficos simples e fazer comparativos entre os anos.
ANICELY SANTOS
Assistente Pedagógico na Escola de Dados, é formada em Análise e Desenvolvimento de Sistemas e pós-graduanda em Ciência de Dados e Analytics (UPE). Trabalhou na prefeitura do Ipojuca como analista de dados no programa Mãe Coruja, premiado pela Organização das Nações Unidas (ONU) e pela Organização dos Estados Americanos (OEA) como modelo de Gestão de Política Pública.
GIULIO CARVALHO
É coordenador do programa Ciência de Dados para Inovação Cívica da Open Knowledge Brasil (OKBR). Graduado do curso de Engenharia da Computação pela UFPE, possui 5 anos de experiência com raspagem e engenharia de dados. Desde 2019, é membro ativo e faz parte da organização do Grupo de Usuários de Python de Pernambuco (PUG-PE). Desde 2020, integra a equipe de mantenedoras do projeto Querido Diário e também a rede de Pessoas Embaixadoras de Inovação Cívica da OKBR.
REALIZAÇÃO
DESENVOLVIDO COM
APOIO
Nosso conteúdo está disponível sob a licença Creative Commons Atribuição 4.0 Internacional, e pode ser compartilhado e reutilizado para trabalhos derivados, desde que citada a fonte.