18  e 19/11 – ESPM SÃO PAULO (CAMPUS ÁLVARO ALVIM)
R. DR. ÁLVARO ALVIM, 123 – VILA MARIANA

PPRIMEIROS PASSOS NO JORNALISMO DE DADOS: INTRODUÇÃO AO R E AO TIDYVERSE

DIA:
18/11

HORÁRIO:
11:15h

DURAÇÃO:
1:30h

Nível:
Básico

Sobre o workshop

Texto por Renan Cavalcante

 

Ao começar a trabalhar com dados, o jornalista descobre que nem todas as planilhas podem ser abertas utilizando o Excel. O editor de planilhas da Microsoft tem um limite de pouco mais de 1 milhão de linhas. Para efeito de comparação, a base de dados do Enem de 2018 possui mais de 5 milhões de linhas, uma para cada inscrito no exame. Para contornar o problema, são utilizadas linguagens de programação que auxiliam no trabalho jornalístico baseado em dados, como o R.

Neste workshop, os instrutores Ana Carolina Moreno e Jean Prado mostraram como é possível utilizar o R para analisar bases de dados em formato de tabela, nas quais cada linha é um registro e cada coluna traz detalhes sobre ela. Essas tabelas são conhecidas como data frame ou tibble e são comumente salvas no formato .csv.

Aqui, é fundamental aprender o ciclo do trabalho com dados: importar, limpar, transformar e visualizar. O primeiro passo é importar a base de dados para o R Studio. Depois, é hora da limpeza: formatar os dados para que cada linha seja uma variável e cada coluna uma observação. A próxima etapa é a transformação, em que são criadas novas observações importantes para o trabalho. E para concluir, cria-se a visualização dos dados em formato de gráficos ou mapas que facilitam a comunicação e entendimento das informações ali contidas.

É importante entender que não existe uma base de dados ideal. É necessário a adaptação através de transformações e cruzamentos com outras bases para que as análises sirvam para o trabalho. Também vale lembrar que as bases não são a realidade, mas sim uma representação dela. 

Introduzindo o Tidyverse

Durante a atividade, os palestrantes apresentaram o Tidyverse, um conjunto de pacotes que compartilha a mesma gramática e estrutura. Dentre eles, destacaram os mais relevantes para um trabalho jornalístico baseado em dados:

  • readr: para abrir bases de dados e salvar tabelas;
  • dplyr:  para manipular os dados (filtrar, criar colunas, agrupar, resumir, ordenar etc.);
  • stringr:  para organizar textos identificando padrões;
  • lubridate: para ajustar formatos de data e hora;
  • ggplot2:  para criar visualização de dados;
  • magrittr: para estruturar o código e deixá-lo mais legível.

 

Referências

Primeiros passos no jornalismo de dados: Introdução ao R e ao Tidyverse (1/3)

Como baixar e instalar o R

Tutorial em vídeo de como baixar e instalar o R

R para Ciência de Dados

Tidyverse

Pré-requisitos da atividade

R e RStudio instalado ou uma conta no Posit Cloud.

Ana Carolina Moreno

ANA CAROLINA MORENO

Jornalista de dados sênior da TV Globo e participante das R-Ladies SP desde 2019. Produz reportagens dirigidas por dados para televisão e internet. Participa do Conselho Consultivo da Associação de Jornalistas de Educação (Jeduca).

jean

JEAN PRADO

Analista de Mídias Sociais no Greenpeace Brasil. Jornalista de formação e tem paixão por dados.

Visite os sites das edições anteriores: 20162017201820192020, 2021 e 2022.

Nosso conteúdo está disponível sob a licença Creative Commons Atribuição 4.0 Internacional, e pode ser compartilhado e reutilizado para trabalhos derivados, desde que citada a fonte.