Segundo dia no Rio: Turma aprende a obter e limpar dados

Por Déborah Araujo

Alunos aprendem a usar o Open Refine no segundo dia do curso de Jornalismo de Dados

Não basta apenas encontrar as informações, é preciso limpá-las. Essa foi a lição do segundo dia (09/12) do curso “Introdução ao Jornalismo de Dados”, na Escola de Comunicação da Universidade Federal do Rio de Janeiro (ECO/UFRJ). Na aula, o jornalista e programador Marco Túlio Pires, coordenador da Escola de Dados no Brasil, mostrou técnicas de obtenção e limpeza de dados.

Segundo ele, a maior parte das informações disponíveis na web não podem ser encontrados por máquinas de busca, como o Google, mas estão na chamada Deep web. Isto é, são informações que existem por trás da camada de páginas indexada pelos buscadores. Buscar produtos em portais de compras ou acessar bases de dados do sistema eleitoral são exemplos da deep web. “Os resultados dos buscadores mostram só a ponta do iceberg, dentro das páginas há ainda uma infinidade de informações que não aparecem como resultados das buscas”, ressalta Túlio.

O programador mostrou formas de realizar pesquisas mais refinadas a partir da ferramenta de busca avançada no Google ou de comandos de programação, como: “filetype“, para tipos de arquivo, como PDF, Excel, “ppt“; “+“; “–“; “OR“, para combinar ou evitar palavras em buscas mais específicas; ou “site“, para buscar o conteúdo em determinada página. Esses mecanismos possibilitam muitas vezes encontrar documentos como estudos acadêmicos, relatórios de meio ambiente e até licitações de obras que podem dar maior profundidade às reportagens. “Vocês não fazem ideia do quanto de arquivos as empresas deixam disponíveis na internet sem saber”,explicou o instrutor.

Após exercícios de busca avançada, a turma fez uma dinâmica de compartilhamento de diferentes bancos de dados nacionais e internacionais que cada um conhece e utiliza em seus trabalhos. A aluna Adriana Saraiva, assessora de imprensa do Instituto Brasileiro de Geografia e Estatístiica (IBGE), apresentou o Sistema IBGE de Recuperação Automática – Sidra e as possibilidades de busca e cruzamento de informações sobre a população e os municípios brasileiros.

Outra ferramenta que recebeu destaque foi o Open Refine, utilizado para limpar dados em planilhas. O programa deve ser baixado e é executável preferencialmente no Google Chrome, mas funciona offline, simulando um navegador de internet dentro da própria máquina. Apesar de ter menos funções para visualização dos dados que as planilhas Excel, o Open Refine é mais eficiente para o refinamento das informações e comporta praticamente qualquer formato de arquivo – de .doc e .xls a CSV, API e JSON. Sua principal vantagem é ser um programa de “edições em massa”.

Órgãos públicos em descompasso com a lei

O segundo dia do curso terminou com uma apresentação sobre as possibilidades da Lei de Acesso à Informação (LAI), em vigor no Brasil desde maio de 2012. Legislações pela transparência pública são uma exigência cada vez maior em todo o mundo, e no Brasil, a LAI é válida para todas as esferas do poder – federal, estadual e municipal. No entanto, cada órgão regulamenta o fornecimento dos dados à sua maneira.

No caso do Rio de Janeiro, a regulamentação da LAI está em descompasso com o espírito de abertura da lei. Natália Mazotte apresentou dados de uma pesquisa feita pela FGV que apontou o estado como o de pior desempenho no atendimento às demandas de informação dos cidadãos.

De acordo com alunos da turma que já fizeram pedidos de informação pela LAI, os órgãos federais são os que forneceram melhor atendimento. De acordo com Marco Túlio Pires, é preciso ser simples e “tomar cuidado com a forma como se pede às informações. A desculpa campeã para o dados não serem acessíveis pela LAI é responder que a informação é sigilosa”.