A raspagem de dados é uma técnica em que um programa de computador extrai informações de uma interface feita para a leitura humana. No jornalismo, essa técnica vem sendo aplicada principalmente para extrair informações de páginas da Web e de documentos que não são organizados de forma estruturada, como PDFs. É, sem dúvida, uma das ferramentas mais importantes que um jornalista pode ter em investigações que envolvem a Web e sistemas digitais.

Contudo, longe de estar no kit de ferramentas dos jornalistas, programas de computador para raspar os dados são normalmente feitos por um(a) especialista da computação que entende as etapas necessárias: como baixar o conteúdo das páginas da Web, reconhecer padrões em seu código, programar uma rotina de extração e exportar os dados para um formato estruturado, como um arquivo CSV. Entusiastas da computação estão, cada vez mais, se interessando pelo jornalismo e produzindo trabalhos e ferramentas importantes, mas é preciso que os jornalistas também se esforcem em diminuir o espaço que existe entre a computação e o jornalismo.

Não é difícil imaginar como a raspagem de dados pode ser útil à apuração. Diversas informações estão espalhadas em sites da Web e em documentos PDF fornecidos por agências do governo, empresas e organizações. Não só o jornalismo investigativo, mas o de serviço, o esportivo e o cultural também se beneficiam das técnicas de raspagem. Extrair e compilar informações que estão espalhadas por aí em um formato estruturado pode permitir descortinar possíveis irregularidades, correlações, levantar questões importantes e abrir caminhos para a produção de serviços e ferramentas úteis.

Raspadores no jornalismo

Um jornalista-programador (ou vice-versa) poderia, por exemplo, escrever um programa de computador que “raspa” as fotos e as coordenadas geográficas de contas de Instagram (abertas) de agentes públicos e comparar as localizações com suas agendas públicas e aparições. Se a localização dos compromissos públicos não batem com as coordenadas das fotos do Instagram postadas na mesma hora, temos uma pauta em potencial: Onde estavam? Por que não estavam no compromisso público? Ou então escrever um robô como o do Los Angeles Times, que monitora o site de ocorrências da polícia de L.A. e avisa o chefe de reportagem quando alguma atriz, ator ou personalidade de Hollywood se envolveu em alguma situação digna de nota.

A raspagem de dados também pode ajudar jornalistas a monitorarem a prestação de contas de agências de governos que, apesar de publicarem informações na Web, ainda não o fazem de forma estruturada. É o caso da Secretaria da Segurança Pública do estado da Bahia, que divulga informações atualizadas sobre os homicídios no estado. As tabelas estão publicadas no site da secretaria, mas servem apenas para consulta humana. Em vez de tabular esses dados manualmente, o que potencialmente poderia levar a erros na contagem, um programador pode facilmente desenvolver um raspador que extrai as informações para uma planilha, facilitando a análise e contextualização dos dados.

A Secretaria da Segurança Pública da Bahia publica informações sobre homicídios no estado, mas as informações não estão num formato que facilita a análise de dados

É o caso também do DataSUS, portal do Ministério da Saúde que disponibiliza informações do Sistema Único de Saúde. Muitas informações importantes, como o registro de hospitais, seus profissionais, equipamentos e endereços, estão lá, publicadas (você pode até clicar em cada um dos hospitais para ter mais informações), mas num formato que não serve para o escrutínio jornalístico. Um raspador poderia, com bastante facilidade, navegar por essas tabelas, extrair e consolidar as informações de interesse do jornalista. Obs: desde que feito sem criar uma demanda excessiva ao servidor que hospeda as tabelas, o que poderia comprometer os acessos ao site.

Os dados no DataSUS foram publicados de forma que facilita a consulta humana, mas não a leitura por máquina

A raspagem de dados na Web já ajudou, por exemplo, a traçar o perfil da censura chinesa no Weibo, o Twitter deles. Os jornalistas-programadores da ProPublica, um publicação jornalística americana sem fins lucrativos, rasparam posts de milhares de contas durante meses e depois revisitaram essas contas para saber quais posts haviam sido apagados ou editados pelos agentes do governo. Após analisar os dados, eles puderam levantar quais termos e imagens eram considerados nocivos pelo regime chinês.

Jornalista-programador

Não faltam exemplos para mostrar como a raspagem de dados pode ajudar na produção de melhores reportagens. Para isso, contudo, é preciso que o jornalista saiba dialogar com os sistemas computacionais. Não é possível vislumbrar as possibilidades que a raspagem de dados proporciona à prática jornalística sem antes ter acesso às técnicas… e isso inclui, dependendo do grau de complexidade das aplicações, aprender a programar. É só com esse filtro teórico e prático que o jornalista terá condições de pensar em novas pautas, novas possibilidades e novos caminhos para sua apuração, num terreno onde só os alfabetizados em linguagens de programação sabem navegar.

Talvez a raspagem de dados seja a técnica a serviço do jornalismo que mais encontre justificativas para iniciar qualquer jornalista numa carreira de programação. A programação de “robôs” que fazem a coleta de dados automatizada em sistemas digitais é uma habilidade que qualquer jornalista deste século deve desenvolver. Se antes precisávamos fazer uma boa “raspagem social” para conduzir nossas apurações (conversando com fontes e construindo relações interpessoais duradouras), hoje, além disso, precisamos estender essas habilidades para o meio digital usando técnicas da informática para encontrar problemas escondidos no emaranhado de informações da Web, das redes sociais e das bases governamentais.

O jornalismo de dados faz um convite ao jornalista interessado em conhecer outras áreas, diminuindo o grau de dependência que temos em determinados assuntos. Poder conversar com um programador sobre uma ideia jornalística que tira vantagem dos meios tecnológicos só vai acontecer se nos permitimos entrar, nem que seja um pouco, no mundo da computação. Caso contrário, serão esses os profissionais que estarão à frente das iniciativas jornalísticas digitais. Serão eles, no limite, os jornalistas.

Aqui na Escola de Dados é possível aprender técnicas de raspagem de dados da Web e de arquivos PDF sem precisar aprender a programar. Contudo, é importante destacar que essas técnicas permitem raspagens de média complexidade, bastante úteis, mas com suas limitações. As técnicas que apresentamos, por exemplo, não permitem raspar dados de um website com frequência automatizada. Não permite também extrair informações de sites que precisam de alguma forma de autenticação para liberar os dados. Essas e outras limitações são vencidas por meio de raspadores feitos com código de programação.

Aprendendo a programar

Muitas universidades nos Estados Unidos já oferecem cursos que misturam habilidades do jornalismo e da ciência da computação. É o caso da Universidade de Columbia e da Universidade Northwestern. Aqui no Brasil o assunto “Jornalismo de Dados” está começando a entrar na grade acadêmica dos cursos de comunicação. Ainda vai demorar um tempo até que a programação de computadores tome forma suficiente dentro desse campo para conquistar cadeiras específicas.

Mas e aqueles de nós que quisermos aprender a programar? Felizmente, existem cursos online e gratuitos que podem ajudar jornalistas a escreverem seus primeiros programas de computador. Um ótimo exemplo em português é o Python para Zumbis, do Fernando Masaroni, da FATEC de São Carlos. Se você arranhar no inglês, melhor ainda. Um site excelente para começar a programar é o Codecademy, que possui recursos em português também, mas em menor quantidade. Outros recursos de altíssima qualidade incluem (em inglês) os cursos do edX e do Coursera e o Exercism.

O Python para Zumbis ensina qualquer um com acesso à internet e a um navegador os conceitos de programação, não há pré-requisitos