Texto por Tatianny Soares
Revisado pela Escola de Dados
“Não deixe o R te intimidar” foi a frase que deu o pontapé inicial na atividade conduzida por Cecília do Lago. Neste encontro, o objetivo foi desmistificar a linguagem R, tornando-a acessível para utilização como uma importante ferramenta na análise de dados.
O workshop proporcionou conhecimentos sobre o momento adequado para integrar o R nos procedimentos de apuração jornalística. Alguns cenários fundamentais incluem situações em que as proporções da investigação excedem as capacidades das planilhas tradicionais (Excel, Google Sheets, Calc) em lidar com a manipulação de dados, ou quando uma hipótese requer a exploração de abordagens de apuração durante o próprio processo.
Com o intuito de fazer os participantes refletirem sobre todo o processo de construção por trás de uma manchete, Cecília apresentou a proposta de analisar a matéria “The God of São Félix” no The Washington Post, finalista do prêmio Pulitzer. Ela conta que, para a produção da reportagem, trabalhou cruzando quatro bases de dados distintas e construindo uma análise do que seria o tópico-chave do artigo.
O objetivo da dinâmica foi mostrar como os dados usados na matéria foram apurados. Apesar de parecer ser uma atividade um pouco complexa, para alguém que já está em um nível avançado de aprendizado, a instrutora aqui queria apenas mostrar o potencial da linguagem para construção de grandes matérias.
Para fins didáticos, Cecília sugeriu iniciar com uma base de dados mais simples, realizando as mesmas tarefas que normalmente seriam executadas em planilhas. Era importante que os participantes escolhessem temas familiares, assim a única linguagem “estranha” no processo seria o próprio R.
Direto na ferramenta, Cecília mostrou a diferença do que é e o que não é R. Basicamente ela definiu como um “estagiário muito poderoso que faz tarefas repetitivas (mediante comandos) sem errar, mas fala uma linguagem diferente da sua, sendo muito bom com matemática, estatística e apuração de hipóteses. Por outro lado, o R precisa ser olhado como ferramenta e, sendo assim, não vai substituir as fontes, não vai fazer a matéria, e nem dizer se a apuração está certa ou errada.
Mas será que existem outras vantagens de trabalhar com programação em jornalismo de dados? A facilitadora nos mostra que sim: o código, por ser uma forma de linguagem, oferece a capacidade de documentar a análise de maneira transparente e sujeita a auditorias. A facilidade no compartilhamento de código ajuda significativamente a colaboração entre todos os indivíduos envolvidos.
A partir da base de dados do Instituto Chico Mendes de Conservação da Biodiversidade (ICMBIO) e fazendo analogia com o vocabulário culinário, para facilitar o entendimento de palavras específicas da linguagem, Cecília foi mostrando a parte básica do aprendizado.
Ela mostrou como fazer operações matemáticas, de forma bem semelhante a uma calculadora, e sugeriu um desafio matemático para que as pessoas participantes pudessem verificar a rapidez em fazer cálculos com a linguagem.
A instrutora também explorou funções específicas, como “filter” (filtro) para filtrar dados, e “glimpse”, que oferece uma visão rápida das colunas para melhor recordar a estrutura dos dados. Ela também mostrou outras funções que ajudam a ter uma noção geral de uma base de dados, principalmente quando ela é muito grande.
Para encerrar a atividade, Cecília apresentou as boas práticas no manejo de dados utilizando linguagem de programação e deu dicas úteis para otimizar o trabalho. Um exemplo: adicionar um ponto de interrogação antes de uma função no R, seguido por dois pontos, desencadeia uma explicação sobre a função caso esqueça do que se trata. Selecionar a função e pressionar a tecla F1 também proporciona informações detalhadas sobre a função selecionada.
“Muitas vezes, uma frase que leva apenas 15 segundos para ser lida em uma reportagem, exige um extenso trabalho de manipulação de dados no R para sustentar o argumento proposto!”, comentou Cecília.