18 e 19/11 – ESPM SÃO PAULO (CAMPUS ÁLVARO ALVIM)
R. DR. ÁLVARO ALVIM, 123 – VILA MARIANA
PPRIMEIROS PASSOS NO JORNALISMO DE DADOS: INTRODUÇÃO AO R E AO TIDYVERSE
Texto por Renan Cavalcante
Ao começar a trabalhar com dados, o jornalista descobre que nem todas as planilhas podem ser abertas utilizando o Excel. O editor de planilhas da Microsoft tem um limite de pouco mais de 1 milhão de linhas. Para efeito de comparação, a base de dados do Enem de 2018 possui mais de 5 milhões de linhas, uma para cada inscrito no exame. Para contornar o problema, são utilizadas linguagens de programação que auxiliam no trabalho jornalístico baseado em dados, como o R.
Neste workshop, os instrutores Ana Carolina Moreno e Jean Prado mostraram como é possível utilizar o R para analisar bases de dados em formato de tabela, nas quais cada linha é um registro e cada coluna traz detalhes sobre ela. Essas tabelas são conhecidas como data frame ou tibble e são comumente salvas no formato .csv.
Aqui, é fundamental aprender o ciclo do trabalho com dados: importar, limpar, transformar e visualizar. O primeiro passo é importar a base de dados para o R Studio. Depois, é hora da limpeza: formatar os dados para que cada linha seja uma variável e cada coluna uma observação. A próxima etapa é a transformação, em que são criadas novas observações importantes para o trabalho. E para concluir, cria-se a visualização dos dados em formato de gráficos ou mapas que facilitam a comunicação e entendimento das informações ali contidas.
É importante entender que não existe uma base de dados ideal. É necessário a adaptação através de transformações e cruzamentos com outras bases para que as análises sirvam para o trabalho. Também vale lembrar que as bases não são a realidade, mas sim uma representação dela.
Introduzindo o Tidyverse
Durante a atividade, os palestrantes apresentaram o Tidyverse, um conjunto de pacotes que compartilha a mesma gramática e estrutura. Dentre eles, destacaram os mais relevantes para um trabalho jornalístico baseado em dados:
- readr: para abrir bases de dados e salvar tabelas;
- dplyr: para manipular os dados (filtrar, criar colunas, agrupar, resumir, ordenar etc.);
- stringr: para organizar textos identificando padrões;
- lubridate: para ajustar formatos de data e hora;
- ggplot2: para criar visualização de dados;
- magrittr: para estruturar o código e deixá-lo mais legível.
Referências
Primeiros passos no jornalismo de dados: Introdução ao R e ao Tidyverse (1/3)
R e RStudio instalado ou uma conta no Posit Cloud.
ANA CAROLINA MORENO
Jornalista de dados sênior da TV Globo e participante das R-Ladies SP desde 2019. Produz reportagens dirigidas por dados para televisão e internet. Participa do Conselho Consultivo da Associação de Jornalistas de Educação (Jeduca).
JEAN PRADO
Analista de Mídias Sociais no Greenpeace Brasil. Jornalista de formação e tem paixão por dados.
Nosso conteúdo está disponível sob a licença Creative Commons Atribuição 4.0 Internacional, e pode ser compartilhado e reutilizado para trabalhos derivados, desde que citada a fonte.