*Este conteúdo integra o acervo de Boletins de Dados, nossos informativos mensais sobre as principais novidades e oportunidades relacionadas ao trabalho com dados. Para acessar as edições mais recentes reunidas na seção exclusiva e receber a próxima edição em sua caixa de entrada, junte-se ao nosso programa de membresia e apoie nosso trabalho.

Fevereiro/2021

Olá,

Neste mês, temos muitas novidades sobre os nossos cursos.

Em março, iremos anunciar uma nova edição do curso Jornalismo de dados para coberturas locais, que será gratuita e aberta à participação de qualquer pessoa.

Enquanto isso, os participantes do nosso programa de membresia podem se inscrever com 20% de desconto no Dados 360.

E nossa segunda turma do ‘Publicadores de Dados: da gestão estratégica à abertura’ já começou e conta com a participação de centenas de servidores públicos que trabalham com transparência e publicação de dados abertos, especialmente nos níveis estaduais e municipais.

Além disso, em março, também teremos webinars exclusivos para participantes do nosso programa de membresia. Em breve, enviaremos mais detalhes por email e compartilharemos informações em nosso grupo do Telegram, onde você também pode votar na enquete para definir o tema do próximo tutorial da Escola de Dados.

Boa leitura,

Adriano Belisário
Coordenador da Escola de Dados

Agenda

Oportunidades e prazos para não perder de vista


• 01/03 – Último dia para se candidatar às bolsas de reportagens de jornalismo investigativo em tecnoautoritarismo, oferecidas pelo The Intercept Brasil em parceria com a Data Privacy Brasil.

• 01-05/03 – Curso online ‘Ferramentas para jornalismo de dados‘, oferecido gratuitamente pelo IDP, com aulas sobre Open Refine, raspagem de dados, Google Sheets, SQL e Flourish.

• 01/03 – Workshop online da Base dos Dados, para quem quiser aprender a acessar os dados da plataforma em Python.

• 01/03 – Prazo de inscrição no programa de bolsas Fellowship Joan Shorenstein, de mídia, política e políticas públicas, da Harvard Kennedy School.

• 02/03 – Último dia para indicar mulheres que se destacam no jornalismo para o prêmio Courage in Journalism Awards, da International Women’s Media Foundation (IWMF).

• 03/03 – Fim das inscrições no programa Data Fellows do Center for Humanitarian Data, nas áreas de jornalismo de dados, análise preditiva e comunicações estratégicas.

• 06/03 – Celebração mundial do Open Data Day, com edições online no Brasil de cidades como Recife, Santa Catarina, Uberlândia, entre outras.

• 12/03 – Como promover a ação climática usando dados abertos? A melhor ideia em resposta ao Desafio Net Zero ganhará um apoio de mil dólares.

• 12/03 – Prazo final para submissão de artigos sobre uso de aprendizagem de  máquina para simulações, na International Conference on Learning Representations.

• 13/03 – Segunda rodada do Open Data Day, com a edição online de Porto Alegre sobre gastos públicos.

• 14/03 – Prazo para envio de currículos para a vaga de editor de dados no Organized Crime and Corruption Reporting Project.

• 15/03 – O InternetLab aceita a submissão de artigos, traduções e produções autorais inéditas para publicação na terceira edição da Revista Internet&Sociedade.

• 15/03 – Último dia da chamada de participação para o terceiro Workshop on Obfuscation.

• 25/03 – Data limite para inscrição de artigos e propostas para a sexta conferência internacional Data for Policy.

• 31/03 – Às 19h, Guilherme Felitti (Novelo Data) vai mostrar como descobrir APIs para facilitar a raspagem de dados, no webinar realizado pela Escola de Dados.

• 31/03 – Envie sua proposta de palestra ou tutorial sobre softwares livre ou de código aberto para a ConFLOSS 2021.

• 31/03 – Prazo máximo para a compra do ingresso regular para a GeoPython 2021.

• 31/03 – A DW Akademie aceita inscrições para seu programa de mestrado em Estudos de Mídia Internacional (IMS).

No mundo dos dados

Notícias e discussões quentes


Dados de vacinação

Os microdados da Campanha Nacional de Vacinação contra Covid-19 foram disponibilizados recentemente no OpenDataSus e um painel do site LocalizaSUS. Mas é preciso ter alguns cuidados ao analisá-los.

Os dados trazem registros duplicados e inconsistências, como pessoas que supostamente tomaram a segunda dose sem ter tomado a primeira. Além disso, havia inconsistências entre os números do painel e dos microdados. Ainda que ambos tenham a mesma fonte de dados, a Rede Nacional de Dados de Saúde, a diferença pode ocorrer por métodos e rotinas de extração diferentes, por exemplo.

E mais: a Fiocruz também disponibiliza um painel online sobre vacinação no Monitora Covid-19, trazendo taxas por habitantes, por exemplo. Para quem quiser uma perspectiva histórica sobre o assunto, a Agência Fiquem Sabendo abriu informações sobre gastos com campanhas de vacinação no país desde 2010.

Pontos e pessoas: visualizando mortes da Covid-19

No dia 21 de fevereiro, quando o número de vítimas da Covid-19 nos EUA aproximava-se de meio milhão de pessoas, o The New York Times estampou na sua capa uma visualização de dados, onde cada morte era representada por um ponto. Para o designer de informação Francis Gagnon, o gráfico mostra os limites da visualização de dados para transmitir o impacto de tragédias como esta.

Capa do NY Times no dia 21 de fevereiro representa cada morte da Covid como um ponto.

“O NY Times apresenta o gráfico deste modo: ‘Começou com um ponto. Então cresceu para qualquer meio milhão’. Na realidade, está mais para ter começado com uma pessoa e crescido para meio milhão de pontos. Quando três pessoas são assassinadas, cada uma tem um perfil: nome, idade, raça, profissão e mais. Quando 500 mil morrem, cada uma recebe um ponto”, afirma no post ‘500,000 dots is too many’.

Na marca das 250 mil mortes no Brasil, neste mesmo mês, O Globo optou por representar as vítimas por pessoas – e não pontos. A matéria está disponível apenas para assinantes, mas Simon Ducroquet postou um vídeo com a visualização dos dados em seu Twitter.

Transparência: faça-você-mesmo!

Criadora de uma iniciativa para fomentar os dados abertos em Feira de Santana (BA), Ana Paula Gomes fez um post dando dicas para quem quer monitorar a transparência de seu município. No Coda.Br 2020, ela foi instrutora do workshop sobre o Querido Diário, que está disponível para participantes de nosso programa de membresia.

Por falar nisso, existem diversas formas de colaborar com o Querido Diário atualmente. O projeto segue com um censo para mapear as publicações oficiais das cidades brasileiras e anunciou também uma análise colaborativa dos dados já mapeados.

Os dados no mundo

Abaixo, um breve giro internacional, com mais algumas destaques e novidades que repercutiram mundo afora em fevereiro.

O Chile concluiu em fevereiro o processo de consulta pública para formulação da sua Política Nacional de Inteligência Artificial. A proposta inicial foi criticada por organizações da sociedade civil como a Derechos Digitales, para quem o rascunho proposto surge como uma “declaração bastante otimista sobre os desenvolvimentos em inteligência artificial e assume uma permanente ampliação do âmbito de aplicação destas tecnologias”.

Na Espanha, a Universidad de Alcalá realizou um debate no âmbito de seu programa de mestrado em jornalismo e visualização de dados. Com participação de 7 profissionais da área, a discussão tratou do atual estado da área e foi transmitida abertamente no YouTube.

Na Índia, a pesquisa ‘Measuring Gender and Religious Bias in the Indian Judiciary’ compilou um banco de dados com 81 milhões de processos legais no país para mensurar vieses de gênero e raça no judiciário do país. O paper, os dados e os códigos utilizados estão com acesso aberto.

Na mesma linha, pesquisadores desenvolveram um banco de dados com 843 leis relacionadas ao racismo estrutural, para pesquisas em saúde nos Estados Unidos, e contaram sobre o processo em um artigo recém-publicado.

Textos como dados: dá samba!

O último post do site da Escola de Dados falou sobre texto como dados, trazendo aplicações de processamento de linguagem natural no jornalismo e dicas para profissionais da comunicação e cientistas da computação. Por falar nisso, ainda em fevereiro, saudoso do carnaval, veio ao ar o Léxico do Samba, que analisa os dados por trás das letras de um dos ritmos mais icônicos do país.

Saiba mais

Para aprender mais e aprender sempre


Estudando matemática e estatística

Para quem quer reforçar as bases em matemática e estatística, fundamentais no trabalho com dados e na computação em geral, vale a pena conferir a transmissão ao vivo feita pelo canal Programação Dinâmica neste mês. Além de apontar os principais fundamentos matemáticos da computação, a apresentação também trouxe dicas de leituras e aprendizado sobre o tema. Também tem uma série de vídeos produzidos por professores e estudantes da Universidade de Brasília, que oferece um nivelamento em estatística matemática.

Após assistir as aulas, se quiser visualizar os conceitos matemáticos e explorar operações usando Python, então, pode instalar o Math Inspector, uma ambiente de programação visual com Python, voltado para estudantes e professores de matemática. Ele funciona como os “inspetores web” dos navegadores, só que para códigos e conceitos matemáticos. Confira o tutorial sobre a ferramenta para mais detalhes.

O Math Inspector permite a visualização de objetos criados com Python

Investigações digitais com fontes abertas

Lançado em fevereiro, o livro ‘We Are Bellingcat’ traz um relato do grupo que “reinventou a reportagem para a era da Internet”, segundo a resenha do The Guardian. Enquanto o livro não sai no Brasil, dá para conferir a participação do Bellingcat na sessão de keynote e o workshop do grupo no último Coda.Br.

Outros conteúdos novos sobre o tema são esta coleção de fontes de informação para pesquisa nas principais redes sociais, disponibilizada no Github, e as vídeo-aulas sobre ‘Open Source Intelligence’ criadas por Benjamin Strick, colaborador do Bellingcat e da BBC.

Cursos e materiais para R

Fevereiro trouxe diversos materiais de qualidade para usuários da linguagem R. O ebook ‘Análise de dados financeiros e econômicos com o R’ chegou a sua terceira edição. O material traz exercícios e capítulos sobre econometria financeira, importação de dados econômicos via pacotes, produção de relatórios, entre outros temas. Autor do livro, Marcelo Perlin é professor da Universidade Federal do Rio Grande do Sul e desenvolvedor em R.

Em inglês, tem 13 aulas gratuitas de um curso sobre análise estatística e não-resposta (missing data), com Jonathan Bartlett, especialista na área. As aulas abertas tratam das consequências e dos mecanismos envolvidos em casos de não-resposta.

Há também o curso interativo e online (totalmente gratuito) da Julia Silge sobre mineração de textos com o Tidytext. Já o pessoal do R Studio mostrou em um webinar como é possível usar o programa para rodar códigos em Python e como criar websites usando markdown com a linguagem R, por meio do pacote Distill.

Snippets

Dicas curtas e certeiras sobre o trabalho com dados


Programação Dinâmica também publicou um vídeo mostrando como usar o BeautifulSoup para raspar páginas web usando Python.

Ainda Python: Augusto Herrmann fez um tutorial explicando como tratar dados com formatação internacional.

Metodologias: Alejandro Polvillo mostrou como identificar áreas com maior probabilidade de sofrer recessão pós-pandemia e Laura Kutzberg publicou um post sobre o Cortina de Fumaça, que trata de incêndios e desmatamento na Amazônia.

10 anos de D3.JS: a mais famosa biblioteca JavaScript para visualização de dados completou uma década e teve uma transmissão ao vivo comemorativa com colaboradores da comunidade.

Mais visualização de dados: o Datawrapper ensinou como criar uma linha do tempo na sua plataforma e o PolicyViz listou “5 gráficos que você nunca usou, mas deveria”.

Em parceria com o Tableau, a DataIQ publicou uma lista com 100 pessoas influentes no trabalho com dados em 2020.

Alô, publicadores de dados, o livro ‘Public Policy Analytics: Code & Context for Data Science in Government‘ foi atualizado em fevereiro.

Dados da Receita Federal: Camila Cardoso fez um tutorial mostrando como usar a API Minha Receita.

Inspira

Trabalhos e iniciativas inovadoras para te inspirar


A partir de um modelo da Four Twenty Seven, uma empresa voltada para a análise de riscos climáticos, o The New York Times fez uma visualização de dados interativa, para uma análise na coluna de opinião. A página permite às pessoas selecionarem seu país de origem e verem mapas e textos personalizados sobre o assunto.

Riscos climáticos são representados por cores diferentes no mapa

No Brasil em 2040, o maior perigo climático apontado são as intensas ondas de calor (laranja). Outros perigos de alto risco incluem incêndios florestais (vermelho), inundações (azul) e crises hídricas (amarelo). Os impactos econômicos sobre a desigualdade das mudanças climáticas também são abordados no texto.

Update

Atualize-se com as novidades de softwares e bases de dados


O economista Ariel Karlinsky reuniu em seu GitHub um conjunto de dados de mortalidade mundial por diversas causas entre 2015 a 2021.

Mais dados da Receita: o pacote qsacnpj, desenvolvido em R, traz na sua nova versão dados de novembro de 2020 sobre os CNPJs brasileiros. Baixe direto em SQLite ou CSV, se quiser.

O repositório de dados do Atlas da Notícia chegou à versão 4 com 1.170 novos veículos de imprensa registrados.

Lund University publicou um conjunto de dados sobre ministros do exterior de 13 grandes potências (spoiler: o Brasil está de fora).

O Instituto Sou da Paz lançou a plataforma Sou da Paz Analisa – Dados Online para facilitar o acesso a índices de violência do estado de São Paulo.

No CRAN: a versão 1.5 do GeoBR traz dados do censo agropecuário de 2017 e localização de escolas no censo escolar. A versão 1.6 do Shiny também já se encontra por lá, com diversas melhorias nos temas, acessibilidade e experiência do desenvolvedor.

Conheça o MeTRAbs, algoritmo de visão computacional que transforma imagens em poses humanas 3D usando o Tensor Flow.

Datashare chega em 2021 com uma versão mais leve e com novos recursos, dentre eles um painel para exibir estatísticas importantes sobre os dados indexados e a possibilidade de pesquisa em lote.

RAWGraphs 2.0 já está disponível e traz dentre as principais novidades a possibilidade de exportar projetos, novos modelos de visualizações e mais opções de customização.

O pacote electionsBR, criado pelo cientista político Denisson Silva, chega à versão 0.3.2 com função para baixar o perfil dos eleitores por local de votação, com coordenadas geográficas.

LibreOffice 7.1 traz o ScriptForge, que possibilita trabalhar com macros com Python.

O suporte ao MySQL 5.6 foi descontinuado agora em fevereiro. É hora de atualizar para a versão 8.0.


Sugestões? Envie um e-mail para [email protected].