5 e 6/11 – ESPM SÃO PAULO
INTRODUÇÃO À ESTATÍSTICA USANDO R
Apresentado por Haydée Svab, cientista de dados e co-fundadora da ASK-AR, este workshop te guiará pelos primeiros passos na estatística utilizando a linguagem de programação R. Os conceitos básicos ensinados na atividade permitirão que você produza análises completas e bem fundamentadas em R.
Para acompanhar a oficina, os participantes acessaram o RStudio Cloud, mas também é possível usar o R fazendo o download do RStudio Desktop. A instrutora começou criando um novo arquivo e instalando os pacotes necessários para o projeto: tidyverse, janitor, inspectdf e data.table. Em seguida, selecionou uma base de dados sobre as eleições no Brasil para ser analisada.
A partir de operações básicas como mínima e máxima, foram extraídas informações dos candidatos mais e menos votados. Haydée também mostrou como gerar agrupamentos e filtragem de colunas, o que possibilita a captura dos dados por gênero ou seleção dos candidatos por cargo específico.
Os participantes testaram a aplicação das funções média e mediana no conjunto de dados e a palestrante alertou para as repetições de dados ou a presença de campos sem valores (NA) e explicou que esses problemas são facilmente solucionados com a função distinct e pelo tratamento e remoção dos valores NA.
Também foram abordadas as medidas de dispersão, que são mais complexas, mas essenciais para entrevistar grandes bases de dados. Tanto a dispersão absoluta (variância e desvio padrão) quanto a dispersão relativa (coeficiente de variância) apresentam resultados que medidas de posição, como a média e a mediana, não mostram: a variabilidade dos dados. Com essa informação em mãos, vemos como os dados divergem do valor médio e como eles são distintos entre si. Essa característica traz uma investigação mais minuciosa dos dados e, quem sabe, é aquilo que faltava para você conseguir suas respostas.
Junto de dispersão, outra análise faz a diferença: a correlação. Durante o workshop, Haydée mostrou que a correlação não é uma relação de causalidade como muitos pensam. Ela apresenta uma associação, onde duas variáveis representam dependência, podendo ser causal ou não. A correlação espúria, por exemplo, expõe essa ideia: qual a relação do consumo de queijo com prêmios de engenharia civil ao longo dos anos? Nenhuma! A correlação espúria, portanto, é uma relação estatística com variáveis que se associam, porém sem causa-efeito entre elas.
Por fim, a palestrante comentou sobre os outliers, números discrepantes e ideais para descobrir dados que saem totalmente do padrão. Como uma dica final, porém muito valiosa, Haydée incentivou os participantes a testarem todas as operações citadas nos conjuntos de dados de interesse, assim terão análises mais amplas e conseguirão resultados melhores.
HAYDÉE SVAB
É cientista de dados, pesquisadora em mobilidade urbana e cidades inteligentes, mestra em Eng. e Planejamento de Transportes (USP), especialista em Democracia Participativa (UFMG) e formada em Eng. Civil (Poli-USP). Hoje é sócia e co-fundadora da ASK-AR (consultoria em análise de dados), membro do Conselho Deliberativo da AEAMESP e do Conselho de Governança da Open Knowledge Brasil, além de co-fundadora e co-organizadora do RLadies-São Paulo. Foi engenheira do Metrô-SP e consultora do BID, Banco Mundial, IDEC, Ciclocidade, Greenpeace, Conectas, Revista AzMina, Repórter Brasil e Revista Piauí.
REALIZAÇÃO
DESENVOLVIDO COM
APOIO
Nosso conteúdo está disponível sob a licença Creative Commons Atribuição 4.0 Internacional, e pode ser compartilhado e reutilizado para trabalhos derivados, desde que citada a fonte.