18  e 19/11 – ESPM SÃO PAULO (CAMPUS ÁLVARO ALVIM)
R. DR. ÁLVARO ALVIM, 123 – VILA MARIANA

PPRIMEIROS PASSOS NO JORNALISMO DE DADOS: INTRODUÇÃO AO R E AO TIDYVERSE

DIA:
19/11

HORÁRIO:
09:30h

DURAÇÃO:
1:30h

Nível:
Básico

Sobre o workshop

Texto por Renan Cavalcante

 

Neste workshop, os instrutores Ana Carolina Moreno e Jean Prado guiaram os participantes no fluxo de trabalho com dados a partir do RStudio, o  software livre de ambiente de desenvolvimento integrado para a linguagem de programação R.

O passo a passo começa com a instalação da coleção de pacotes Tidyverse. Para isso, deve-se executar o comando install.packages(“tidyverse”). Esse código, inclusive, serve para a instalação de outros pacotes – basta alterar o nome entre aspas.

Ao instalar um pacote no R, não é preciso realizar o processo novamente, mas deve-se importá-lo a cada novo projeto para que ele seja ativado. Para importar o Tidyverse é utilizado o código library(tidyverse), sem aspas entre os parênteses.

Com a coleção importada, é hora de trazer o arquivo da base de dados para o R, o que pode ser feito abrindo o arquivo, em formato .csv, com o comando read.csv(“nome_arquivo”), para carregar arquivos separados por vírgulas; ou read.csv2(“nome_arquivo”), para os separados por ponto e vírgula.

Em seguida, deve-se realizar a limpeza e transformação dos dados, com o auxílio de funções específicas para essas etapas, contidas no Tidyverse.

Já para a fase de análise dos dados, essas são algumas das funções mais utilizadas:

FUNÇÃO O QUE FAZ

select seleciona colunas específicas da base

filter seleciona linhas específicas da base

mutate cria colunas ou altera valores em uma coluna

group_by agrupa linhas de valores iguais em uma coluna

summarise par do group_by, cria o resumo desses grupos

arrange ordena a forma de visualizar a tabela

O próximo passo é gerar visualizações para facilitar a comunicação das descobertas feitas na etapa da análise. Para isso, os instrutores apresentaram o pacote ggplot do Tidyverse, que permite a criação de gráficos. A lógica por trás do ggplot é que cada linha inserida corresponda a uma nova camada de personalização do gráfico. 

Primeiro, seleciona-se o tipo de gráfico e, em seguida, as colunas da tabela que serão representadas. Depois, é possível personalizar o gráfico para que a visualização cumpra seu papel de facilitar a absorção das informações pelo leitor. Para isso, o pacote disponibiliza diversas ferramentas que possibilitam a troca de cores, a criação de legendas, a escolha de fontes e a inserção de títulos.

 

Referências

Tidyverse

ggplot2

Pré-requisitos da atividade

R e RStudio instalado ou uma conta no Posit Cloud.

Ana Carolina Moreno

ANA CAROLINA MORENO

Jornalista de dados sênior da TV Globo e participante das R-Ladies SP desde 2019. Produz reportagens dirigidas por dados para televisão e internet. Participa do Conselho Consultivo da Associação de Jornalistas de Educação (Jeduca).

jean

JEAN PRADO

Analista de Mídias Sociais no Greenpeace Brasil. Jornalista de formação e tem paixão por dados.

Visite os sites das edições anteriores: 20162017201820192020, 2021 e 2022.

Nosso conteúdo está disponível sob a licença Creative Commons Atribuição 4.0 Internacional, e pode ser compartilhado e reutilizado para trabalhos derivados, desde que citada a fonte.