31/10 A 3/11 – ONLINE
5 e 6/11 – ESPM SÃO PAULO

INTRODUÇÃO À ESTATÍSTICA USANDO R

DIA:
06/11

HORÁRIO:
14:00h

DURAÇÃO:
1:30h

Sala:
C504

Nível:
Básico

Sobre o workshop

Apresentado por Haydée Svab, cientista de dados e co-fundadora da ASK-AR, este workshop te guiará pelos primeiros passos na estatística utilizando a linguagem de programação R. Os conceitos básicos ensinados na atividade permitirão que você produza análises completas e bem fundamentadas em R.

Para acompanhar a oficina, os participantes acessaram o RStudio Cloud, mas também é possível usar o R fazendo o download do RStudio Desktop. A instrutora começou criando um novo arquivo e instalando os pacotes necessários para o projeto: tidyverse, janitor, inspectdf e data.table. Em seguida, selecionou uma base de dados sobre as eleições no Brasil para ser analisada.

A partir de operações básicas como mínima e máxima, foram extraídas informações dos candidatos mais e menos votados. Haydée também mostrou como gerar agrupamentos e filtragem de colunas, o que possibilita a captura dos dados por gênero ou seleção dos candidatos por cargo específico.

Os participantes testaram a aplicação das funções média e mediana no conjunto de dados e a palestrante alertou para as repetições de dados ou a presença de campos sem valores (NA) e explicou que esses problemas são facilmente solucionados com a função distinct e pelo tratamento e remoção dos valores NA.

Também foram abordadas as medidas de dispersão, que são mais complexas, mas essenciais para entrevistar grandes bases de dados. Tanto a dispersão absoluta (variância e desvio padrão) quanto a dispersão relativa (coeficiente de variância) apresentam resultados que medidas de posição, como a média e a mediana, não mostram: a variabilidade dos dados. Com essa informação em mãos, vemos como os dados divergem do valor médio e como eles são distintos entre si. Essa característica traz uma investigação mais minuciosa dos dados e, quem sabe, é aquilo que faltava para você conseguir suas respostas.

Junto de dispersão, outra análise faz a diferença: a correlação. Durante o workshop, Haydée mostrou que a correlação não é uma relação de causalidade como muitos pensam. Ela apresenta uma associação, onde duas variáveis representam dependência, podendo ser causal ou não. A correlação espúria, por exemplo, expõe essa ideia: qual a relação do consumo de queijo com prêmios de engenharia civil ao longo dos anos? Nenhuma! A correlação espúria, portanto, é uma relação estatística com variáveis que se associam, porém sem causa-efeito entre elas.

Por fim, a palestrante comentou sobre os outliers, números discrepantes e ideais para descobrir dados que saem totalmente do padrão. Como uma dica final, porém muito valiosa, Haydée incentivou os participantes a testarem todas as operações citadas nos conjuntos de dados de interesse, assim terão análises mais amplas e conseguirão resultados melhores.

Referências

charset=Ascii

HAYDÉE SVAB

É cientista de dados, pesquisadora em mobilidade urbana e cidades inteligentes, mestra em Eng. e Planejamento de Transportes (USP), especialista em Democracia Participativa (UFMG) e formada em Eng. Civil (Poli-USP). Hoje é sócia e co-fundadora da ASK-AR (consultoria em análise de dados), membro do Conselho Deliberativo da AEAMESP e do Conselho de Governança da Open Knowledge Brasil, além de co-fundadora e co-organizadora do RLadies-São Paulo. Foi engenheira do Metrô-SP e consultora do BID, Banco Mundial, IDEC, Ciclocidade, Greenpeace, Conectas, Revista AzMina, Repórter Brasil e Revista Piauí.

REALIZAÇÃO

DESENVOLVIDO COM

APOIO

Visite os sites das edições anteriores: 20162017201820192020 e 2021.

Nosso conteúdo está disponível sob a licença Creative Commons Atribuição 4.0 Internacional, e pode ser compartilhado e reutilizado para trabalhos derivados, desde que citada a fonte.