*Este conteúdo integra o acervo de Boletins de Dados, nossos informativos mensais sobre as principais novidades e oportunidades relacionadas ao trabalho com dados. Para acessar as edições mais recentes reunidas na seção exclusiva e receber a próxima edição em sua caixa de entrada, junte-se ao nosso programa de membresia e apoie nosso trabalho.

JUNHO/2020

Olá,

Neste junho, o Boletim de Dados completou seu primeiro aniversário!

De lá para cá, além das edições de nossa newsletter mensal, também cresceu nosso programa de membresia. Em breve, iremos lançar uma área exclusiva em nosso site para as pessoas participantes, onde você terá acesso aos boletins passados, conteúdos exclusivos e outras novidades.

Na última segunda, contamos mais sobre este e outros planejamentos para o segundo semestre de 2020 em nossa reunião aberta do programa de membresia. Caso você não tenha conseguido participar, pode ver aqui nosso encontro e saber mais sobre nossas ações e planos futuros.

Tenha uma boa leitura e um excelente julho!

AGENDA

Oportunidades e prazos para não perder de vista

• 01/07 – Debate (em português) com Bernhard Rieder sobre seu livro “Engines of Order: a mechanology of algorithmic techniques“.

• 01-03/07 – Série de debates da Escola de Governança da Internet sobre temas como fundamentos técnicos da Internet, liberdade de expressão e desinformação.

• 05/07 – Nossas contrata pessoas não-brancas para a vaga de analista de dados júnior, no Rio de Janeiro, São Paulo ou região Amazônica. Há também outras vagas abertas.

• 05/07 – InternetLab está com vagas abertas para pesquisadores, coordenadores de pesquisa e estagiários.

• 07/07 – Curso gratuito de Lei de Acesso à Informação nos Municípios, oferecido pelo Painel Jornalismo.

• 09/07 – O jornal neozelandês Stuff também contrata: a vaga é para jornalistas de dados.

• 09/07 – A Open Source Initiative recebe propostas para o State of the Source Summit de 2020, uma conferência global sobre código-aberto.

• 10/07 – A Fiocruz está selecionando novos bolsistas para produção de dados, que sejam graduados em em ciências exatas. O valor é de R$ R$ 2.156.

• 10/07 – A Associação Brasileira de Jornalismo Investigativo (ABRAJI) está com inscrições abertas para o Seminário de Pesquisa e apresentação de TCCs, a ser realizado em seu congresso anual.

• 20/07 – Prazo máximo de submissão de propostas na JupyterCon 2020.

• 25/08 – Prazo para a inscrição de eventos online sobre ciência de dados aberta no Virtual Event Awards.

NO MUNDO DOS DADOS

Notícias e discussões quentes

Transparência algorítmica mundo afora

Em junho, o TikTok publicou algumas diretrizes do funcionamento do seu algoritmo de sugestão de vídeos. A decisão da empresa se deu em um momento em que ela enfrenta pressões internacionais, como na Índia e nos Estados Unidos, que apontam vínculos da rede social com o governo chinês.

Não veio a público o código que rege as telas de seus mais de 800 milhões de usuários ativos. Porém, o TikTok afirmou que “especialistas convidados” teriam acesso a ele em Los Angeles, no centro de transparência da empresa, podendo revisá-lo de forma controlada em testes e avaliações.

No Brasil, o tema é igualmente quente e foi abordado em um programa da TV Câmara. No vídeo, Fernando Gallo (Twitter) explicou como funciona a moderação de contas falsas e robôs, que são acusados de manipular artificialmente o debate público nas redes. Aliás, o Digital News Report de 2020 revelou que, pela primeira vez desde que a pesquisa começou, as redes sociais superaram a televisão como fonte de notícias no Brasil.

E, na Europa, a transparência algorítmica também foi tema de uma investigação da AlgorithmWatch e da European Data Journalism Network. Após conduzir um estudo com 26 voluntários e 37 produtores de conteúdo selecionados, as organizações apontam que o Instagram prioriza a exibição de fotos de pessoas com poucas roupas. O texto ‘Undress or fail: Instagram’s algorithm strong-arms users into showing skin’ reconhece que esta amostra é insuficiente para tirar grandes conclusões sobre o funcionamento do Instagram, mas convida as pessoas a se voluntariar e ajudar a aprimorar os resultados da pesquisa.


Covid-19

O site Vital Strategies publicou um texto em português criticando 11 falácias comuns na interpretação dos dados da covid-19 e, na Nature, um grupo de pesquisadores alertou sobre o perigo de ignorar padrões de metadados, que ficou evidente durante esta pandemia. O argumento central do alerta é resumido no pedido do fundador do Our World in Data, programa da Universidade de Oxford. Ao ser questionado sobre algo de fácil implementação que poderia ser feito para melhorar nossa resposta ao vírus, ele foi direto: “para todos aqueles que publicam dados originais, disponibilizem uma descrição clara dos seus dados”.

No Brasil, os problemas na disponibilização dos dados do novo coronavírus no país e as turbulências do governo federal levaram os veículos de imprensa a criar um consórcio para compilar dados diretamente das secretarias estaduais. Após a divulgação de um estudo da Universidade de Washington, que prevê que o Brasil passe os Estados Unidos e se torne o maior epicentro global de covid-19 no final de julho, os dados brasileiros ganharam e devem ganhar cada vez mais projeção. No blog do Carto, Dan Rushton já destacou mapas sobre o coronavírus que foram produzidos aqui, como os da Articulação dos Povos Indígenas do Brasil, InfoAmazônia e LabCidade.

Aliás, Raquel Rolnik publicou um ótimo texto sobre interpretação dos dados da pandemia. A coordenadora do LabCidade critica o planejamento inicial do Governo do Estado de São Paulo, que agregava territórios muito diferentes entre si, e mostrou mapas produzidos por seu grupo de pesquisa que trazem informações por CEP, permitindo assim rastrear de forma bem mais precisa o alastramento da doença. Veja aqui a versão interativa do mapa. Outro link que vale a pena conferir é o artigo ‘How the Virus Won‘, que saiu no New York Times e conta a história da disseminação da covid-19 nos Estados Unidos a partir de visualização de dados sobre um mapa.

A cartografia acima foi elaborada por Pedro Mendonça (LabCidade). Ela é fictícia para proteger a privacidade dos casos, mas representa uma região de São Paulo tal como descrita no mapa. Fonte: UOL


Data Feminism

A iniciativa do Data Feminism já foi destaque em nossos boletins passados, quando anunciamos os rascunhos e a publicação do livro. Agora, é a vez de destacar os vídeos do grupo de leitura encerrado em junho, que trouxe uma discussão para cada capítulo da obra.

Houve ainda outros debates sobre poder e tecnologia, sob perspectivas de gênero e raça. Em junho, o CEO do GitHub anunciou que irá renomear o “ramo” (branch) principal desta plataforma de versionamento, para substituir o “master” por “main”. A mudança se deu após críticas ao uso da terminologia (baseada na dicotomia “master/”slave”) na área de tecnologia. Em resposta ao tweet de uma usuária demandando a mudança, Nat Friedman disse que a mudança era uma “ótima ideia” e afirmou que a equipe está trabalhando nela. A ZDNet noticiou o fato e lembrou que discussões semelhantes já ocorreram em outras comunidades da área de tecnologia, como a de Python e PostgreSQL.

Para quem quiser aprender algo mais “mão na massa” sobre este assunto, a dica é conferir o curso “Equity & ethics in data journalism: Hands-on approaches to getting your data right” realizado pelo Knight Center. A formação termina em 19 de julho, mas ainda é possível se inscrever para ver as aulas.

SAIBA MAIS

Para aprender mais e aprender sempre

USP abre bacharelado em Ciência de Dados

A USP anunciou que em 2021 lançará a graduação em Ciência de Dados, no campus de São Carlos. A formação terá 20 vagas, duração de 4 anos e ocorrerá em tempo integral, agregando disciplinas de computação, matemática e estatística.

***

Python para zumbis e analistas

Este post de Patrick van Kessel fala sobre as bibliotecas Python do Pew Research Center, que foram desenvolvidas pela equipe do renomado centro de pesquisa para facilitar tarefas cotidianas ao trabalhar com dados. A Pewtils traz atalhos para lidar com valores nulos, formatos de dados diversos  e links, enquanto a Pew Analytics permite automatizar processos de limpeza de textos, tal com remoção de códigos HTML, lematização ou stemização. Já se você precisa sair do básico, a dica é o canal Python para Zumbis de Fernando Masanori, que trouxe novos vídeos recentemente.

***

Acessibilidade visual

Lisa Charlotte compartilhou no blog do Datawrapper uma série de textos sobre visualização de dados e daltonismo. No primeiro, explica os conceitos básicos e fala de três combinações de cores a serem evitadas (vermelho, verde e marrom; rosas, turquesa e cinza; roxo e azul). Na segunda parte, são explicadas algumas combinações de cores que funcionam não só para daltônicos, como também são mais eficientes para leitores com a visão normal, como o azul e laranja.

Fonte: Datawrapper, com tradução da Escola de Dados.

SNIPPETS

Dicas curtas e certeiras sobre o trabalho com dados

Washington Post anunciou que abrirá vagas para editor de dados e para profissionais de design em breve.

***

Cofundadora da Escola de Dados, Natália Mazotte falou no podcast ‘Nasci Assim’ sobre jornalismo de dados.

***

O Volt DataLab lançou o Science Pulse, uma plataforma para monitoramento de publicações de cientistas, que conta também com uma newsletter.

***

O jornalista de dados Jonathan Stray publicou um relato de uma investigação onde usou deep learning para extrair dados financeiros de campanhas políticas de arquivos em PDF.

***

Já o The Citizen Lab publicou uma extensa investigação baseada em inteligência com fontes abertas (OSINT) e dados, que revelou informações sobre o Dark Basin, um grupo de hackers de aluguel com histórico de ataques contra jornalistas e ambientalistas.

***

O blog do Data Visualization Society (DVS) publicou um guia sobre tipografia em visualização de dados para você não errar a escolha da fonte no seu gráfico.

***

Por que não gráficos de pontos? Em outra postagem da DVS, esta foi a conclusão de um experimento sobre a eficácia de gráficos de barras, pirulitos e pontos.

***

Dataflix: para quem prefere vídeo, tem a apresentação da designer Julia Gianella (DataViz Rio) sobre visualização de dados do novo coronavírus e a de Ricardo Dahis (Base dos Dados) sobre a importância de dados abertos.

***

Ainda em português, tem também o vídeo da primeira transmissão ao vivo do Curso-R, uma sessão de ‘unboxing’ de pacotes nesta linguagem, e uma coletânea de links do YouTube sobre visualização de dados em português, que foi feita por Rodrigo Medeiros.

***

Para quem se vira com o inglês, vale conferir a aula sobre investigações de grandes corporações usando plataformas como Companies House, OpenCorporates and OpenOwnership.

INSPIRA

Trabalhos e iniciativas inovadoras para te inspirar

Em junho, o instituto Azmina lançou a plataforma ‘Elas no Congresso’, que mede a atuação legislativa em relação aos direitos das mulheres. Os dados do Congresso foram compilados e, por meio de uma metodologia inédita, foi publicado um índice e um ranking de cada parlamentar. No site, é possível visualizar o ranking da Câmara e do Senado, bem como fazer o download das bases de dados para gerar suas próprias análises e visualizações.

“É muito interessante ver como há divergências de posições dentro dos partidos. O Podemos tem o primeiro lugar e o último lugar do ranking do Senado, por exemplo. Também é interessante ver as abordagens regionais. Tem estados que têm péssimos índices de violência contra a mulher, por exemplo, mas com parlamentares que apresentam bons projetos. Como os dados são abertos, é possível categorizar os projetos de várias maneiras e fazer diferentes análises”, sugere Bárbara Libório, uma das coordenadoras do projeto.

Para conhecer mais sobre o projeto, confira a entrevista completa em nosso blog.

APT UPDATE

Atualize-se com as novidades de softwares para trabalhar com dados

A ferramenta de visualização de dados de código-aberto da Microsoft Research (SandDance) chegou na versão 3 com novidades.

***

Flourish agregou vários modelos de visualizações de dados sobre covid-19 em um só lugar.

***

Foi publicada a versão 0.1.0 do ggtext, uma extensão do ggplot2, o famoso pacote de visualização de dados do R

***

Para atualizar o visual de seus mapas no QGIS, vale a pena olhar esta coletânea de estilos disponibilizada no GitHub.

***

Por falar em GIS, Rodolfo Viana publicaou um repositório com dados geográficos dos estados brasileiros do IBGE já convertidos em formatos prontos para uso.

***

HSBC anunciou que irá migrar 65 importantes bases de dados relacionais sobre suas operações globais para um único banco MongoDB.


Ficou algo de fora? Envie sugestões e dicas para o boletim do próximo mês no [email protected]