Dados sem caô – Analisando representatividade de candidaturas eleitorais
SOBRE O WORKSHOP
A primeira parte do workshop “Dados sem caô: analisando a representatividade de candidaturas eleitorais” foi destinada à apresentação do histórico do data_labe e seus integrantes. A oficina foi ministrada por Paulo Mota, o Polinho, e Samantha Reis, que compõem a equipe do data_labe. Eles explicaram que a organização começou com a proposta de investigar sobre dados de saneamento básico, mas se expandiu para outras áreas importantes relacionadas ao complexo de favelas da Maré, no Rio de Janeiro. A proposta da atividade, que ocorreu no segundo dia do Coda Amazônia, era demonstrar que entender mais sobre dados pode não ser tão difícil quanto parece.
Polinho e Samantha contaram que a ideia de analisar candidaturas surgiu a partir da reportagem do data_labe “Existe uma Wakanda política brasileira”, de 2016, que trazia a seguinte reflexão: será que alguma cidade brasileira obedecia a porcentagem de 10% do total de candidaturas negras, equiparado ao valor recebido para as eleições? Para o workshop, a análise foi dentro do contexto de candidaturas indígenas.
A metodologia para conseguir as informações começou por buscar os dados obtidos da Base dos Dados sobre candidaturas, receitas e resultados. A construção dessa base foi necessária para diferenciar das demais reportagens que existiam a respeito. O objetivo principal era criar um relatório com os dados encontrados, como explicaram Polinho e Samantha.
Cada etapa do que seria abordado no workshop foi apresentada aos participantes, com o intuito de ambientá-los no tema dos dados. Os ministrantes enfatizaram que o objetivo da atividade é aprender o básico, para que consigam avançar na utilização da apostila “Dados sem caô”. No primeiro momento, também foi apresentado o passo a passo sobre cada linha de código do RStudio e como executá-las a partir das instalações dos pacotes R necessários para as análises do workshop.
Etapas
A partir das linhas do RStudio, foram apresentados detalhes da sintaxe da linguagem R e a execução do chunks (pedaços de códigos no RStudio). Na primeira análise, uma pequena tabela com informações agregadas foi criada, o que tornou possível a observação de que existem, entre os candidatos indígenas, mais candidaturas masculinas do que femininas.
A partir dessa tabela, além da explicação do que seria uma variável categórica, criou-se uma pequena visualização usando o pacote ggplot, com a ênfase de que “uma boa opção de visualização de variável do tipo categórica é o gráfico de barras.”
Após compreender sobre as variáveis categóricas, as variáveis numéricas foram apresentadas, com indicação para o gráfico histograma, como o mais eficiente para visualizar esse tipo de variável. A partir da utilização do summary, utilizou-se o resumo estatístico das variáveis numéricas da coluna idade. Foi possível explicar os conceitos de estatística básica a partir dos dados apresentados.
Com esses conceitos explicados, os participantes foram conduzidos a plotar um gráfico do tipo histograma para entenderem as diferenças nas candidaturas, a partir das faixas etárias. Como desafio, foi sugerido que criassem uma tabela com as faixas etárias. Na resolução, foi possível perceber a porcentagem cumulativa dos dados. O ggplot foi utilizado novamente para fazer um gráfico de barras, mas desta vez com mais de uma variável e aplicação de cores diferentes. Nesse momento, foram abordados conceitos simples de storytelling.
A última etapa foi observar as candidaturas indígenas a partir dos estados. Nessa fase, Polinho e Samantha trabalharam conceitos básicos de limpeza de dados, para poder apresentá-los de forma concisa e esteticamente mais organizada em um relatório paginado. Por essa perspectiva, gerou-se a dúvida “será que a porcentagem de indígenas que se candidatam fora da sua cidade natal é muito alta?”. Esse questionamento foi norteador para explicar como criar indicadores, como de deslocamento, e explicar como insights podem ser gerados e respondidos durante uma análise de dados.
As pessoas participantes foram, então, guiadas a criar um mapa utilizando a plataforma Flourish, já que os dados apresentados nesta última análise possuíam UFs e quantidades. Conceitos básicos de utilização da plataforma para conseguir criar um mapa com os dados foram brevemente explicados e, ao final do workshop, os ministrantes mostraram outras análises qualitativas com os demais dados da base. Também comentaram sobre a elaboração dos modelos matemáticos para entender as associações entre o resultado das análises dos dados e conceitos básicos sobre causalidade e correlação. Por fim, um relatório HTML com os resultados foi gerado a partir do pacote rmarkdown.
NÍVEL
Básico
Referências
Paulo Mota
Ativista da área de ciência de dados para a popularização do tema. É epidemiologista na área de ciência de dados populacionais pelo IESC/UFRJ, nascido em Manaus. Atualmente trabalha no data_labe um laboratório de dados no Complexo da Maré. Homem gay, filho de Kaiango e programa em R.
Samantha Reis
Física médica, analista de dados do data_labe e apaixonada por Python.
REALIZAÇÃO
CORREALIZAÇÃO
PATROCÍNIO
APOIO