O Querido Diário é um projeto de código aberto da Open Knowledge Brasil que utiliza Python e outras tecnologias para libertar informações do Diário Oficial (DO) das administrações públicas no Brasil. A iniciativa mapeia, baixa e converte todas as páginas das publicações para um formato mais acessível, a fim de facilitar a análise de dados.
Preparamos um tutorial com orientações gerais para construir um raspador e contribuir com o projeto Querido Diário. Esse material de apoio foi construído no contexto do curso Python para Inovação Cívica, realizado em parceria com o programa Ciência de Dados para Inovação Cívica da Open Knowledge Brasil, e com o apoio da Python Software Foundation e do Jusbrasil. Ele foi desenvolvido com as contribuições iniciais de Adriano Belisario, Giulio Carvalho e Fabio Vessoni.
O tutorial abrange os seguintes tópicos:
- Colabore com o tutorial
- Mapeando e escolhendo Diários Oficiais
- Construindo o raspador
- Configurando um ambiente de desenvolvimento
- Conhecendo os raspadores
- Anatomia de um raspador
- Hello world: faça sua primeira requisição
- Dissecando o log
- Construindo um raspador de verdade
- Enviando sua contribuição
ACESSE AQUI O TUTORIAL NO GITHUB E SAIBA COMO CONSTRUIR UM RASPADOR NO PROJETO QUERIDO DIÁRIO
Se você prefere uma apresentação sobre o projeto em vídeo, confira o workshop Querido Diário: hoje eu tornei um Diário Oficial acessível da Ana Paula Gomes no Coda.Br 2020. Ainda que mudanças recentes possam ter alterado detalhes apresentados na oficina, o vídeo é uma ótima complementação ao tutorial. Você pode utilizar a timestamp na descrição do vídeo para assistir apenas trechos de seu interesse.
Os vídeos do terceiro módulo do curso ‘Python para Inovação Cívica’ também são um ótimo recurso complementar: confira aqui a playlist.