5 e 6/11 – ESPM SÃO PAULO
análise de dados com pandas usando o colab research
Parte da rotina de jornalistas de diversas áreas, a análise e a visualização de dados podem ganhar produtividade e eficiência com a utilização da linguagem de programação Python. Com ela, é possível usar bibliotecas que já contêm as funções desejadas a fim de otimizar o processo e conduzir análises com base em boas práticas. Neste workshop, o cientista da computação André Filipe Batista ensinou a fazer uma análise exploratória a partir de dados reais e a criar a visualização de um gráfico interativo usando duas bibliotecas: Pandas e Altair.
Para a atividade, André se baseou em uma visualização de dados de saúde e riqueza de países amplamente divulgada pelo cientista Hans Rosling, médico sueco especializado no uso de dados de saúde para a proposição de mudanças de políticas públicas e autor do livro Factfulness. O desafio dos participantes foi recriar um famoso gráfico de comparação entre o PIB per Capita e a expectativa de vida dos países ao longo de quase seis décadas. Para isso, foi analisada uma versão atualizada dos dados utilizados por Rosling, disponibilizada em formato CSV.
Para fazer análise e inferências sobre dados, a indicação é usar a biblioteca Pandas, que trabalha bem com tabelas e filtros. Para começar, os participantes criaram um novo notebook na plataforma gratuita Google Colab e importaram os dados. Em seguida, começaram a trabalhar com filtragem por meio de uma consulta para criar comparações, a partir da evolução temporal das variáveis presentes nas tabelas e de recortes regionais e nacionais, e analisar duas variáveis ao mesmo tempo. Também é possível, com as funções do Pandas, extrair as principais estatísticas descritivas, como média, mediana, maior e menor valor.
A segunda parte do workshop focou na visualização dos dados. A biblioteca Altair foi utilizada para a criação dos gráficos em Python. O cientista de dados orientou aos alunos que criassem um gráfico de pontos, que foi refinado com customização por cores, tamanho, interatividade e edição de títulos e legendas. Com a inserção dos novos elementos visuais, é possível incorporar ao gráfico novas informações, para além do que é registrado nos eixos x e y. Para finalizar, André mostrou como exportar o gráfico resultante da análise em diferentes formatos, tanto como código quanto como produto, para sua utilização em apresentações ou reportagens digitais.
ANDRE FILIPE BATISTA
Doutor em Engenharia da Computação pela Universidade de São Paulo (USP). Graduação e mestrado em ciência da computação com ênfase em inteligência artificial. Mais de 10 anos de experiência no mercado de tecnologia da informação e computação de alto desempenho. Atua também como cientista de dados na área da Saúde; realizou pós-doutorado em Data Science aplicado à Saúde na Escola de Saúde Pública da Universidade de São Paulo, com parcerias internacionais, em destaque com a Universidade de Harvard.
REALIZAÇÃO
DESENVOLVIDO COM
APOIO
Nosso conteúdo está disponível sob a licença Creative Commons Atribuição 4.0 Internacional, e pode ser compartilhado e reutilizado para trabalhos derivados, desde que citada a fonte.