Em razão da pandemia da COVID-19, o Boletim de Dados de março foi compartilhado abertamente por meio de nossa newsletter, por reunir referências e conteúdos importantes para quem quer trabalhar com dados a respeito do coronavírus.

Tenha em mente que o conteúdo foi produzido no início de março, então, não cobre mudanças mais recentes relacionadas aos dados do novo coronavírus. Na ocasião, aproveitamos para lançar também um curso online inédito, o ‘Dados 360’.

Por fim, para receber mensalmente as futuras edições deste Boletim, entre outros benefícios, e apoiar do trabalho da Escola de Dados, participe do nosso programa de membros, se você ainda não faz parte.

Boa leitura,

AGENDA

Oportunidades e prazos para não perder de vista

• Abril – O Pulitzer Center está com inscrições abertas para apoiar projetos de jornalismo de dados e de colaboração entre jornalistas e redações para cobrir a COVID-19. A National Geographic também abriu um fundo de emergência para apoiar jornalistas e visualizações de dados sobre o coronavírus. Não há data máxima para inscrição definida.• 02/04 – A International Fact-Checking Network (IFCN) e o Facebook oferecem U$ 1 milhão para iniciativas de checagem de fatos sobre a COVID-19.• 02/04 – A Global Investigative Journalism Network realizará um webinar sobre a cobertura da COVID-19

• 05/04 – A Open Knowledge Brasil recebe inscrições para o projeto Embaixadoras, uma rede composta por pessoas que desejam contribuir com a comunidade de tecnologias abertas.

• 14/04 – Webinar ao vivo ‘Jornalismo de Dados Lusófono’ para membros da Escola de Dados, com convidados no Brasil, Portugal e Moçambique. O link será enviado por email.

• 15/04 – Submissão de propostas para o Fórum da Internet no Brasil.

• 15/04 – Algoritmos, grafos e negócios: estes serão os temas deste webinar da Neo4j.

• 16/04 – Fim da primeira rodada do desafio envolvendo tarefas do COVID-19 Open Research Dataset Challenge (CORD-19) no Kaggle, com prêmio de U$ 1 mil dólares.

• 23/04 – Submissões para a “caixa de sugestões” de atividades para o ONA20, a conferência da Online News Association.

• 01/05 – Chamada internacional de propostas que façam uso de inteligência artificial para mitigar os impactos da pandemia.

• 17/05 – Prazo máximo para inscrever projetos de código-aberto no Frictionless Data Tool Fund, promovido pela Open Knowledge Foundation.

• 31/05 – Prêmio Roche recebe inscrições de trabalhos jornalísticos na área de saúde.

NO MUNDO DOS DADOS

Notícias e discussões quentes

COVID-19: curvas e dados

Com a pandemia do novo coronavírus, visualização de dados tornou-se uma questão de sobrevivência. Curvas mostrando a disseminação da doença se popularizaram e o movimento para “achatar a curva” (#FlattenTheCurve) ganharam as redes sociais na mobilização em prol das medidas de contenção do vírus.

A curva de crescimento da epidemia em uma de suas versões mais famosas nas redes. A The Economist publicou uma das primeiras versões do gráfico acima nesta reportagem.

Curiosamente, porém, uma das visualizações mais impressionantes não utilizou dados sobre o novo coronavírus. O artigo ‘Por que surtos como o coronavírus se espalham exponencialmente e como “achatar a curva”’, do Washington Post, tornou-se o trabalho mais lido na história do jornal, além de ter sido apresentado por Nicolás Maduro em comunicado na televisão, citado pela Shakira e compartilhado pelo ex-presidente Barack Obama.

O texto aborda o impacto de medidas de contenção social durante uma epidemia, a partir de simulações da disseminação de uma doença fictícia em uma população. Os únicos dados da COVID-19 estão no início do texto e, basicamente, servem apenas para introduzir a noção de curva exponencial. Uma abordagem inspiradora, principalmente na ausência em tempos de questionamento aos números oficiais. No Data Journalism, o autor contou sobre os bastidores desta criação.


Fontes e dicas

No Brasil, o Ministério da Saúde disponibilizou um painel interativo e uma tabela com a série histórica de casos agregados por estados. Porém, são iniciativas da sociedade civil que, no momento, garantem o acesso às informações detalhadas. Levantamentos de dados no nível municipal são feitos por iniciativas como o Brasil.IO, o Lagom Data e o repositório covid19br, mantido por Wesley Cota. O Colaboradados também compila links importantes.

Internacionalmente, a Organização das Nações Unidas (ONU) tem um painel para acompanhamento dos casos e também compila as medidas tomadas por países mundo afora. O repositório da Johns Hopkins University traz números de casos globais, utilizando fontes complementares e um painel interativo do Tableau com visualizações. O The New York Times também disponibilizou os dados que coletou nos Estados Unidos.

Para entender os números, a dica é conferir esta página especial do Our World in Data, que orienta sobre a interpretação de fontes de dados e indicadores comuns, os vídeos do canal ‘A Matemática das Epidemias‘ e o artigo do estatístico Paulo Hubert sobre métricas e fatores de variabilidade de pandemias.

Já o Cappralab e o Coronacidades disponibilizaram simuladores para visualizar a progressão da pandemia no Brasil, algo que pode ser útil para cidades pequenas e médias estimarem o impacto local do novo coronavírus no sistema de saúde. Por sua vez, o FiveThirtyEight explica a complexidade por trás das taxas utilizadas e como os os modelos matemáticos sobre a pandemia devem ser vistos com ressalvas.

Comunicadores também podem conferir as recomendações da Associação Brasileira de Jornalismo Investigativo (ABRAJI), a Global Investigative Journalism Network e da First Draft sobre a cobertura do tema, além do post do Open Contracting com dicas para monitorar informações de compras de emergência.


Visualizando a COVID-19

Dois temas quentes em tempos de epidemias. Nas redes, cartógrafos experientes criticaram o uso de mapas coropléticos com valores absolutos. Este problema foi destacado no texto de Kenneth Field no ArcGIS Blog, citado em nosso último boletim, porém, por conta da proliferação de mapas do tipo para representar o impacto do coronavírus, o pesquisador canadense Claus Rinner fez um artigo específico sobre o assunto. A Data Visualization Society (DVS) também compartilhou a recomendação, entre as dez considerações que devem ser feitas antes de se criar um gráfico sobre o coronavírus.

Aliás, a DVS também lançou uma chamada para desenvolver padrões para a visualização de dados sobre a COVID-19. Para participar, torne-se um membro e junte-se às discussões no Slack do grupo.

Ilustração do artigo de Kenneth Field: A) um mapa coroplético com números absolutos; B) o mesmo mapa com dados apresentados por meio de taxas – e cores menos sensacionalistas.

Já sobre o debate sobre o uso de escalas lineares ou não-lineares para representar crescimentos exponenciais, como os de epidemias, Alberto Cairo questionou: por que não ambas? “Mostrar dados em escalas lineares também é valioso. Isso não só é mais dramático que a escala não-linear, como também dá aos leitores uma perspectiva adicional sobre os dados”, afirma.


Data Feminism e mais

No boletim de outubro de 2019, destacamos que o rascunho do livro estava online. Neste março, a publicação ‘Data Feminism’ foi lançada oficialmente, refletindo sobre a ciência de dados e a ética na perspectiva do feminismo interseccional. “Se o passado é racista, opressivo, sexista e tendencioso, e esses são seus dados de treinamento, é para isso que você está se adaptando”, apontou Catherine D’Ignazio, professora do MIT e coautora do livro, em entrevista.

A perspectiva também está presente no texto de Natalie Cleveland sobre a COVID-19. Ela pede a desagregação dos dados para a real compreensão do impacto da pandemia nas mulheres.

Outros conteúdos de março que valem a pena: esta lista recém-publicada, com mulheres que se destacam por seus trabalhos em estatística (com a presença da brasileira Gabriela de Queiroz!) e este artigo com três modos de apoiar na pŕatica a presença de mulheres na área de tecnologia. Quem prefere vídeo pode conferir a conferência Global Women in Data Science feita por Stanford.

SAIBA MAIS

Para aprender mais e aprender sempre

Você se considera ruim com números e, por isso, tem medo de programar? Repense: um estudo da Universidade de Washington descobriu que a capacidade de aprender idiomas está mais relacionada ao aprendizado de programação do que as habilidades com matemática. Isto porque programar envolve basicamente o aprendizado de uma nova linguagem. Então, que tal se aprofundar nessa área?

O Fernando Masanori atualizou seu curso introdutório ‘Python para Zumbis’ com vídeos novos, e Ariane Aumaitre publicou uma lista de recursos para quem quer começar a aprender R. Profissionais com mais experiência podem se aventurar com estes vídeos da Quartz sobre aprendizado de máquina para jornalistas ou este curso avançado em ciência de dados da Universidade de Estatísticas de Tel Aviv. Em português, tem também a versão preliminar do livro de introdução à ciência de dados, criado pelos estatísticos Pedro Morettin e Julio Singer.

***

Para exercitar o ceticismo com dados: “todos os dados que confiamos e acreditamos diariamente são apenas acurados em um contexto, tempo e nível específico”. O ponto do texto ‘All numbers are made up, some are useful’ é que, à medida que você se aprofunda o suficiente, seus dados começam a ficar mais confusos e menos auto-evidentes, repletos de problemas e questões na metodologia de coleta, por exemplo.

Um exemplo? O censo estadunidense. Mona Chalabi, especialista em visualização de dados, publicou recentemente no The Guardian um trabalho sobre seus problemas de contagem – e como eles afetam de forma desigual pessoas negras e brancas. Já o The Pudding apresentou as transformações na captação dos dados do censo, por conta das transformações sociais ocorridas desde sua criação, em 1790.

Na mesma linha, a artista e cientista de dados Hannah Davis postou o texto ‘A Dataset is a Worldview’, onde também discute a ideia de sabotagem de dados (“data sabotage”). Para ilustrá-la, Hannah cita a atitude de René Carmille, que salvou a vida de milhares de judeus excluindo dados sobre a religião da população francesa durante a ocupação nazista.

SNIPPETS

Dicas curtas e certeiras sobre o trabalho com dados

Covid Radar busca profissionais que trabalhem com dados e queiram somar esforços para conter o coronavírus no Brasil.

***

O site Data Journalism publicou um tutorial introdutório sobre sistemas de informações geográficas (GIS).

***

A partir de uma foto do famoso programador John McAfee, Benjamin Strick mostrou como utilizar técnicas de Open Source Intelligence para identificar a localização de uma imagem.

***

O designer Ryu Sakai relembrou a famosa visualização ‘Observando o mundo como 1000 pessoas’, criada no ano 2000, suas sucessivas adaptações e a razão do seu sucesso.

***

A ABRAJI apresentou destaques da edição de 2020 do NICAR, uma das mais importantes conferências sobre jornalismo investigativo e dados. Confira também a lista oficial de recursos do evento.

***

Para negócios e organizações: este post no DataCamp listou 5 tópicos para ter em mente ao se traçar uma estratégia baseada em dados e Cassie Kozyrkov, líder de ‘Decision Intelligence’ no Google, compilou dicas sobre processos de tomada de decisão, em épocas de pandemia.

***

E um relato de experiência: o IJNet apresentou o Dataphyte, uma iniciativa de jornalismo e serviços de dados na Nigéria.

INSPIRA

Trabalhos e iniciativas inovadoras para te inspirar 

O The New York Times investigou a movimentação de centenas de milhões de pessoas para mostrar como as mais intensas restrições de viagens da história humana não foram suficientes para parar a disseminação do coronavírus, de Wuhan, na China, para os Estados Unidos.

Crédito: The New York Times

Com textos curtos e gráficos caprichados, a reportagem ‘How the virus got out’ analisou os deslocamentos a partir de dados de telefones celulares, viagens aéreas e outros, visualizando assim a rede, que conecta diversas cidades a partir do fluxo de pessoas, pela qual o vírus se espalhou.

APT UPDATE

Atualize-se com as novidades de softwares para trabalhar com dados

Pew Research Center publicou um pacote em R com funções úteis para trabalhar dados de pesquisas (survey).

***

Tem mais: Hadley Wickham anunciou muitas novidades para a versão 1.0.0 da biblioteca dplyr e uma das mais famosas biblioteca de visualização de dados no R – o ggplot2 – também apresentou novas funcionalidades, na sua versão 3.3.0.

***

Sobre o novo coronavírus, já existe também uma biblioteca em Python para acessar dados internacionais, além de diversos recursos disponíveis em R.

***

Em março, veio à luz mais um projeto de código-aberto para raspagem automatizada de sites. Conheça o AutoScrape.

***

Spotify abriu uma nova API para podcasts.

***

Oracle Cloud anunciou seus serviços de ciência de dados e aprendizado de máquina.

***

E o Flourish lançou uma funcionalidade de quiz para apresentações envolvendo dados.


Ficou algo de fora? Envie sugestões e dicas para [email protected]