Querido Diário… Não te quero mais em PDF!

Atividade exclusiva para pessoas inscritas no Coda.Br 2021.

Inscreva-se já OU faça login

SOBRE O WORKSHOP

Todo ato público, para que seja válido no Brasil, deve ser publicado em um diário oficial. Desde o governo federal, tribunais e até as câmaras de vereadores, todos divulgam atos oficiais em arquivos que devem ser acessíveis pela população. No entanto, esses documentos são geralmente publicados em PDFs obscuros de acesso complicado. Para resolver esse problema, a Open Knowledge Brasil lançou o Querido Diário (QD): um projeto de código aberto que usa tecnologia para libertar e centralizar as informações publicadas nos diários oficiais dos municípios.

Neste workshop, você aprenderá mais sobre a arquitetura do projeto, sua caixa de ferramentas (Toolbox do QD), como converter um arquivo de formato fechado para formato aberto, como encontrar e analisar CNPJs em um texto e, por fim, cruzar os CNPJs encontrados nos diários oficiais com dados da Receita Federal e realizar uma análise exploratória.

A caixa de ferramentas oferece à comunidade do projeto o ferramental para executar suas próprias análises e manipulações com os dados que são obtidos pelo QD. Durante a atividade, o programador Giulio Carvalho percorreu o passo a passo das ações com um exemplo prático. Todo o código foi executado na linguagem de programação Python.

Primeiro, Carvalho escolheu um arquivo de diário oficial, originalmente publicado em PDF e fez a conversão para um formato aberto. Em seguida, conduziu uma busca pelos CNPJs citados no texto. Depois, fez uma análise com os CNPJs encontrados nos diários de todo o ano de 2020 em cinco municípios.

Para cruzar os dados da Receita Federal e fazer a análise exploratória, o palestrante utilizou a API do projeto Minha Receita, que fornece uma API web para a consulta de dados de um CNPJ. partir da API, é possível obter informações como a razão social, a situação cadastral, porte e a CNAE (Classificação Nacional de Atividades Econômicas) fiscal das empresas.

NÍVEL

Intermediário.

DURAÇÃO

1:30h

REFERÊNCIAS DA ATIVIDADE

giulio

Giulio Carvalho

Trabalha há 4 anos com raspagem e engenharia de dados e é graduando do curso de Engenharia da Computação pela UFPE. Desde 2019, é membro ativo e faz parte da organização do Grupo de Usuários de Python de Pernambuco (PUG-PE). Desde 2020, integra a equipe de mantenedoras do projeto Querido Diário e também a rede de Pessoas Embaixadoras de Inovação Cívica da Open Knowledge Brasil. Hoje atua como coordenador de Inovação Cívica da OKBR.

REALIZAÇÃO

DESENVOLVIDO COM

APOIO

APOIO DE MÍDIA

Visite os sites das edições anteriores: 2016201720182019 e 2020