O Querido Diário é um projeto de código aberto da Open Knowledge Brasil que utiliza Python e outras tecnologias para libertar informações do Diário Oficial (DO) das administrações públicas no Brasil. A iniciativa mapeia, baixa e converte todas as páginas das publicações para um formato mais acessível, a fim de facilitar a análise de dados.

Preparamos um tutorial com orientações gerais para construir um raspador e contribuir com o projeto Querido Diário. Esse material de apoio foi construído no contexto do curso Python para Inovação Cívica, realizado em parceria com o programa Ciência de Dados para Inovação Cívica da Open Knowledge Brasil, e com o apoio da Python Software Foundation e do Jusbrasil. Ele foi desenvolvido com as contribuições iniciais de Adriano Belisario, Giulio Carvalho e Fabio Vessoni.

O tutorial abrange os seguintes tópicos:

  1. Colabore com o tutorial
  2. Mapeando e escolhendo Diários Oficiais
  3. Construindo o raspador
  4. Configurando um ambiente de desenvolvimento
  5. Conhecendo os raspadores
  6. Anatomia de um raspador
  7. Hello world: faça sua primeira requisição
  8. Dissecando o log
  9. Construindo um raspador de verdade
  10. Enviando sua contribuição
ACESSE AQUI O TUTORIAL NO GITHUB E SAIBA COMO CONSTRUIR UM RASPADOR NO PROJETO QUERIDO DIÁRIO

Se você prefere uma apresentação sobre o projeto em vídeo, confira o workshop Querido Diário: hoje eu tornei um Diário Oficial acessível da Ana Paula Gomes no Coda.Br 2020. Ainda que mudanças recentes possam ter alterado detalhes apresentados na oficina, o vídeo é uma ótima complementação ao tutorial. Você pode utilizar a timestamp na descrição do vídeo para assistir apenas trechos de seu interesse.

Os vídeos do terceiro módulo do curso ‘Python para Inovação Cívica’ também são um ótimo recurso complementar: confira aqui a playlist.