18 e 19/11 – ESPM SÃO PAULO (CAMPUS ÁLVARO ALVIM)
R. DR. ÁLVARO ALVIM, 123 – VILA MARIANA
PPRIMEIROS PASSOS NO JORNALISMO DE DADOS: INTRODUÇÃO AO R E AO TIDYVERSE
Texto por Renan Cavalcante
Neste workshop, os instrutores Ana Carolina Moreno e Jean Prado guiaram os participantes no fluxo de trabalho com dados a partir do RStudio, o software livre de ambiente de desenvolvimento integrado para a linguagem de programação R.
O passo a passo começa com a instalação da coleção de pacotes Tidyverse. Para isso, deve-se executar o comando install.packages(“tidyverse”). Esse código, inclusive, serve para a instalação de outros pacotes – basta alterar o nome entre aspas.
Ao instalar um pacote no R, não é preciso realizar o processo novamente, mas deve-se importá-lo a cada novo projeto para que ele seja ativado. Para importar o Tidyverse é utilizado o código library(tidyverse), sem aspas entre os parênteses.
Com a coleção importada, é hora de trazer o arquivo da base de dados para o R, o que pode ser feito abrindo o arquivo, em formato .csv, com o comando read.csv(“nome_arquivo”), para carregar arquivos separados por vírgulas; ou read.csv2(“nome_arquivo”), para os separados por ponto e vírgula.
Em seguida, deve-se realizar a limpeza e transformação dos dados, com o auxílio de funções específicas para essas etapas, contidas no Tidyverse.
Já para a fase de análise dos dados, essas são algumas das funções mais utilizadas:
FUNÇÃO O QUE FAZ
select seleciona colunas específicas da base
filter seleciona linhas específicas da base
mutate cria colunas ou altera valores em uma coluna
group_by agrupa linhas de valores iguais em uma coluna
summarise par do group_by, cria o resumo desses grupos
arrange ordena a forma de visualizar a tabela
O próximo passo é gerar visualizações para facilitar a comunicação das descobertas feitas na etapa da análise. Para isso, os instrutores apresentaram o pacote ggplot do Tidyverse, que permite a criação de gráficos. A lógica por trás do ggplot é que cada linha inserida corresponda a uma nova camada de personalização do gráfico.
Primeiro, seleciona-se o tipo de gráfico e, em seguida, as colunas da tabela que serão representadas. Depois, é possível personalizar o gráfico para que a visualização cumpra seu papel de facilitar a absorção das informações pelo leitor. Para isso, o pacote disponibiliza diversas ferramentas que possibilitam a troca de cores, a criação de legendas, a escolha de fontes e a inserção de títulos.
Referências
R e RStudio instalado ou uma conta no Posit Cloud.
ANA CAROLINA MORENO
Jornalista de dados sênior da TV Globo e participante das R-Ladies SP desde 2019. Produz reportagens dirigidas por dados para televisão e internet. Participa do Conselho Consultivo da Associação de Jornalistas de Educação (Jeduca).
JEAN PRADO
Analista de Mídias Sociais no Greenpeace Brasil. Jornalista de formação e tem paixão por dados.
Nosso conteúdo está disponível sob a licença Creative Commons Atribuição 4.0 Internacional, e pode ser compartilhado e reutilizado para trabalhos derivados, desde que citada a fonte.