31/10 A 3/11 – ONLINE
5 e 6/11 – ESPM SÃO PAULO

CRUZANDO DADOS COM PANDAS

DIA:
02/11

HORÁRIO:
13:00h

DURAÇÃO:
5h

Nível:
Básico

Sobre o bootcamp

Neste bootcamp online, as pessoas participantes passaram por todas o conhecimento básico do framework Pandas, enquanto analisavam a base de dados pública sobre acidentes de trânsito no Recife – PE. 

Pandas é um framework Python, um dos mais utilizados na Ciência de Dados por ter uma curva de aprendizado muito baixa, facilitando a vida de quem utiliza os dados em planilhas, quando estas ultrapassam a quantidade de linhas que podem ser interpretadas pelos editores de planilhas.

A atividade começou com uma apresentação para alinhar expectativas, apontando os benefícios de se aprender a programar, das semelhanças que existem entre uma função em um editor de planilha e um script numa linguagem de programação e assuntos que não seriam cobertos durante a atividade.

Durante a atividade, foi utilizado um notebook dividido em 5 metas. Na primeira, o objetivo era conseguir pegar os dados diretamente do site e abrir no notebook. Esta etapa foi feita fazendo um paralelo com o funcionamento de planilhas. Explicações do que seriam dataframes e séries, assim como o métodos para abrir e salvar arquivos, foram cobertas aqui.

A segunda contou com análises e apresentações das maneiras mais comuns de filtrar e agrupar, apontando também possíveis problemas que podem acontecer neste processo.

A seguir, foi apresentada uma exploração mais avançada utilizando filtros compostos, noções de estatística. Com métodos simples, de apenas uma linha, o Pandas consegue entregar algumas análises robustas que ajuda a ter uma noção geral sobre os dados que estão sendo explorados, a partir de uma análise mais estatística, 

Já na quarta etapa, participantes aprenderam como cruzar dados. Aqui foram unidas a base de acidentes, uma outra base que organizava os bairros em regiões, permitindo avançar com análises que indicavam quais regiões acontecem mais acidentes e abrindo espaço para investigações mais interessantes. 

Por fim, a quinta etapa ensinou como juntar várias bases em uma. A base utilizada era por ano, então foram selecionados todos os anos disponíveis no Portal de Dados abertos no Recife e incluídos em uma base só. Desta forma, participantes tiveram a oportunidade de reproduzir as análises anteriores, com o bônus de poder visualizá-las em gráficos simples e fazer comparativos entre os anos.

Referências da atividade

any_novo

ANICELY SANTOS

Assistente Pedagógico na Escola de Dados, é formada em Análise e Desenvolvimento de Sistemas e pós-graduanda em Ciência de Dados e Analytics (UPE). Trabalhou na prefeitura do Ipojuca como analista de dados no programa Mãe Coruja, premiado pela Organização das Nações Unidas (ONU) e pela Organização dos Estados Americanos (OEA) como modelo de Gestão de Política Pública.

giulio

GIULIO CARVALHO

É coordenador do programa Ciência de Dados para Inovação Cívica da Open Knowledge Brasil (OKBR). Graduado do curso de Engenharia da Computação pela UFPE, possui 5 anos de experiência com raspagem e engenharia de dados. Desde 2019, é membro ativo e faz parte da organização do Grupo de Usuários de Python de Pernambuco (PUG-PE). Desde 2020, integra a equipe de mantenedoras do projeto Querido Diário e também a rede de Pessoas Embaixadoras de Inovação Cívica da OKBR.

REALIZAÇÃO

DESENVOLVIDO COM

APOIO

Visite os sites das edições anteriores: 20162017201820192020 e 2021.

Nosso conteúdo está disponível sob a licença Creative Commons Atribuição 4.0 Internacional, e pode ser compartilhado e reutilizado para trabalhos derivados, desde que citada a fonte.