Desvendando 'Data Scraping': entenda como raspar dados pode facilitar o trabalho jornalístico

Por Eric Andriolo*

Você já ouviu falar em ‘data scraping‘ ou raspagem de dados? O termo pode até parecer novo, mas a técnica é usada por programadores há bastante tempo e agora vem atraindo a atenção de jornalistas que precisam acessar e organizar dados para reportagens.

Scraping é a atividade de extrair dados de sites e transportá-los para um formato mais simples e maleável para que possam ser analisados e cruzados com mais facilidade. Muitas vezes a informação necessária para reforçar uma história está disponível, mas em sites de navegabilidade ruim ou em bancos de dados difíceis de manipular. Para coletar automaticamente e visualizar essas informações, recorre-se a softwares conhecidos como scrapers.

Apesar de parecer coisa de ‘geek’, não é preciso perseguir cursos avançados de programação e conhecer linguagens complicadas para raspar dados. Segundo o webativista Pedro Markun, animador de diversas oficinas de scraping na Casa de Cultura Digital, em São Paulo, o nível de conhecimento necessário para aproveitar a técnica é “muito básico”.

“Scrapers são programas simples de lidar, o grande desafio e o exercício constante é encontrar um padrão nos dados das páginas web – algumas páginas são bem simples, outras são uma dor de cabeça sem fim”, explicou.

Markun possui um perfil público no site Scraperwiki, que permite escrever uma raspagem online ou acessar as de outras pessoas.

Assim como o Scraperwiki, existem outras ferramentas online que facilitam a raspagem de dados, como o Mozenda, um software de interface simples que automatiza boa parte do trabalho, e o Screen Scraper, uma ferramenta mais complexa, que trabalha com diversas linguagens de programação para extrair dados da Web. Outro software útil nesse sentido é o Firebug (para Firefox).

O Google disponibiliza o Google Refine para manipular dados confusos e transportá-los para formatos maleáveis.

Também é possível fazer download gratuito de Ruby, uma linguagem de programação simples e eficiente, que pode ser rodada no Nokogiri para fazer raspagem de documentos e sites.

Nem sempre os dados estão em formatos abertos e fáceis de scrapear. Documentos escaneados, por exemplo, precisam ser convertidos antes em texto. Essa função pode ser encontrada no Tesseract, uma ferramenta OCR (Reconhecimento Ótico de Caracteres) do Google que “lê” textos escaneados e os converte em texto virtual, para ser interpretado pelo computador.

Informações e manuais sobre o uso dessas ferramentas estão disponíveis em sites como o Propublica, um portal que oferece diversos artigos e tutoriais de ferramentas de raspagem para jornalismo, e em vídeos no YouTube.

Mesmo que você seja adepto da filosofia hacker, na qual leitura de tutorial e mão na massa costumam ser o caminho do aprendizado, pode acontecer de persistirem algumas dúvidas e dificuldades no uso dessas ferramentas. Uma boa opção é entrar em contato com programadores mais experientes em grupos de discussão como o Thackday e a Comunidade do Scraperwiki, que conta com alternativas pagas e gratuitas para encontrar alguém que ajude a fazer o scraping.

Lidar com dados pode até ser old school para jornalistas, mas saber como extraí-los e organizá-los ganhou outra importância na passagem da era da escassez para a da abundância de informação. Por isso, aproveite as dicas e boa raspagem!

*Este post foi publicado originalmente no Centro Knight para o Jornalismo nas Américas e sofreu pequenas alterações.

Fonte da capa: Card scraper por Just plain Bill, no Wikimedia Commons