#11 Incertezas, redes sociais e macacos escritores
*Este conteúdo integra o acervo de Boletins de Dados, nossos informativos mensais sobre as principais novidades e oportunidades relacionadas ao trabalho com dados. Para acessar as edições mais recentes reunidas na seção exclusiva e receber a próxima edição em sua caixa de entrada, junte-se ao nosso programa de membresia e apoie nosso trabalho.
Abril/2020
Olá,
Por conta da pandemia do novo coronavírus, em abril, adiamos por tempo indeterminado a realização da primeira edição regional da Conferência de Jornalismo de Dados e Métodos Digitais, o Coda Amazônia, que estava prevista para o mês de agosto em Manaus (AM). Em breve, porém, traremos novidades sobre a edição de 2020 do Coda.Br.
E faltam poucas vagas livres no nosso curso Dados 360. Para garantir a sua, basta responder a esta mensagem que enviaremos as instruções para você se inscrever com desconto.
Como membro, você também pode participar de nosso grupo exclusivo no Telegram e votar no tema que quer ver no próximo tutorial da Escola de Dados. O tutorial sobre SQL foi o mais votado no último mês: confira em primeira mão aqui.
Boa leitura e até mês que vem,
AGENDA
Oportunidades e prazos para não perder de vista
• 01/05 – Webinar “Looking More Closely At Evidence For Covid-19 Coverage”, com o Matt Kauffman (Solutions Journalism Network) e Cheryl Phillips (Big Local News de Stanford). • 02/05 – Oficina virtual “Processing Community Day @Rio 2020 – O Potencial Criativo na Pandemia: expressando dados de forma artística terapêutica”, para quem gosta de programação ou tem interesse em visualização de dados. • 04/05 – Webinar “Data-driven reporting during Covid-19”, com experiências da cobertura da pandemia no México, nas Filipinas e no Quênia. • 04/05 – Fim das inscrições para a HackCovid-19, maratona de desenvolvimento em busca de soluções que possam auxiliar no combate à pandemia causada pelo novo coronavírus. • 06/05 – Webinar “Uso da tecnologia e de dados: inovações para a ação”, parte de uma série do projeto Todos Olhos na Amazônia, com foco em povos indígenas e estratégias colaborativas em tempos de Covid-19. • 06/05 – Lançamento online do livro Data Visualization In Society. • 13/05 – Começa a quinta edição da CSV,Conf, que será online e gratuita. • 14/05 – Início do Collaborative Journalism Summit, dois dias de painéis, palestras relâmpago, oficinas e discussões sobre jornalismo colaborativo. • 30/05 – Prazo final da chamada de trabalhos para a LatinR, Conferência Latinoamericana sobre R. • 01/06 – Fim das inscrições para a segunda rodada do programa de bolsas do Frictionless Data Reproducible Research, promovido pela Open Knowledge Foundation. • 01/06 – Prazo limite para quem trabalha com dados da Covid-19 solicitar cupom de desconto e hospedar gratuitamente painéis feitos em R no Shinyapps, sem restrições. |
NO MUNDO DOS DADOS
Notícias e discussões quentes
Comunicando incertezas em tempos de Covid-19
O novo coronavírus segue sendo um dos tópicos quentes no universo de dados. Em abril, muito se falou sobre as incertezas e o ceticismo relacionados aos números oficiais, em especial por conta da subnotificação.
A Bloomberg listou 10 razões para duvidar dos dados sobre o novo coronavírus e a BBC fez um teste abordando a comparação de dados de países diferentes. De fato, não são poucos os problemas com os dados que temos. Mas qual é a melhor forma de abordar a gravidade do assunto com dados precários?
A IJNet fez um webinar para debater incerteza sobre dados da Covid-19 no âmbito do jornalismo. Já na Scientific American há um post que tratou do mesmo assunto, mas abordando os modelos preditivos.
Na interseção dos temas, Nicholas Diakopoulos escreveu um breve artigo sobre a ética do “jornalismo preditivo”, que discute exemplos de trabalhos atuais sobre o coronavírus. Por fim, para aprofundar, vale a pena ver este capítulo recém-publicado do Handbook of Computational Statistics and Data Science, que trata de visualização de incertezas.
Coronavírus na América Latina
A SocialTIC reuniu alguns projetos de análise de dados latino-americanos sobre a Covid-19, disseminando os esforços que estão sendo feitos em cada país. E a IJNET listou trabalhos de jornalismo de dados da região, como um mapa que identifica os locais mais propensos à propagação do vírus na capital do Chile.
No Brasil, em termos de disponibilização de dados oficiais, a grande novidade foi a nova versão do site especial do Ministério da Saúde e, principalmente, este repositório de dados disponibilizado pela Fiocruz com a série histórica de casos de Síndrome Respiratório Aguda Grave desde 2009. Um ótimo panorama sobre a situação dos dados em nível estadual foi disponibilizado no Transparência Covid-19, desenvolvido pela Open Knowledge Brasil.
Microsoft embarca nos dados abertos
Em abril, a Microsoft anunciou um esforço inédito para a liberação de dados abertos. Outrora considerada inimiga número um do movimento pela abertura de códigos, a empresa hoje adota outra postura.
Até 2022, a Microsoft pretende criar 20 grupos para liberação de dados, incluindo informações sobre a Covid-19. Este passo se dá após a outras ações de estímulo ao ecossistema de softwares de código-aberto, cujo movimento de maior expressão se deu com a compra do Github em 2018.
SAIBA MAIS
Para aprender mais e aprender sempre
Modelos estatísticos
O Imperial College London liberou seu código para a modelagem de casos e mortes estimadas para Covid-19. Para quem quer dar os primeiros passos em modelos estatísticos, vale conferir esta lista de livros gratuitos publicada pela Quartz. E quem já é da área pode acessar esta nova página do Tidymodels, biblioteca em R feita para esta finalidade.
***
Mídias sociais
Estar por dentro das atualizações das plataformas é importante quando trabalhamos com dados de mídias sociais. Neste mês, o IBPAD fez uma transmissão ao vivo com Jaqueline Buckstegge, Raquel Recuero, Débora Zanini e Marcelo Alves para falar sobre as soluções de pesquisa e coleta de dados em plataformas, em meio às restrições nas APIs. O tema também foi abordado pelo First Draft, que alertou sobre a descontinuação de alguns recursos valiosos para busca no Facebook. No Twitter, o destaque fica para esta publicação do Berkman Klein Center, apontando problemas nos métodos de detecção automática de bots na ferramenta Botometer.
SNIPPETS
Dicas curtas e certeiras sobre o trabalho com dados
Covid-19: o Fast Grants reúne bolsas para financiamento de projetos de científicos e a Mozilla anunciou criação de um Fundo de Soluções como parte do Mozilla Open Source Support Program.
***
Para um raio-X completo dessa famosa visualização de dados e suas diferentes versões ou atualizações, confira essa entrevista com o autor no Nightingale e esse vídeo do Vox que aborda algumas interpretações equivocadas em sua leitura.
***
O canal LinuxTips publicou a apresentação A Beleza de Python com Luciano Ramalho e o blog Hakin 9 disponibilizou uma cheat sheet com comandos gerais, dicionários e listas nesta linguagem.
***
Ainda em Python: Beatriz Yumi, participante do programa de membros da Escola de Dados, compartilhou um tutorial sobre processamento de linguagem com Latent Dirichlet Allocation (LDA).
***
Os vídeos da IRhttps://www.ire.org/archives/41399E estão disponíveis gratuitamente por um ano. Material excelente para interessados em jornalismo investigativo e dados.
***
E a Nature anunciou a publicação de uma base com a mais completa compilação de dados sobre temperatura global.
***
Pesquisadores convidam jornalistas – especialmente do nordeste – a participar dessa pesquisa sobre jornalismo e dados abertos governamentais.
***
Vitaly Radionov, especialista em visualização de dados no AnyChart, fez um post para ajudar a entender melhor gráficos de barras empilhadas.
***
Geodados: o Mapbox mostrou como criar mapas a partir do Google Spreadsheets e este post ensina como rastrear navios e visualizar trajetórias no QGIS.
***
No último Fireside Chat da Data Visualization Society, Alberto Cairo moderou uma conversa sobre mapas com Kenneth Field (ESRI), Madison Draper (Mapbox) e Elijah Meeks (Apple). Todas as conversas estão disponíveis nesta seção do site.
INSPIRA
Trabalhos e iniciativas inovadoras para te inspirar
Você já ouviu falar no Teorema do Macaco Infinito? Ele afirma que um macaco que pressionando aleatoriamente as teclas de uma máquina de escrever infinitamente seria capaz de escrever a obra completa de Shakespeare.
O Pudding explicou as probabilidades por trás do teorema, adaptando-o para a música. Para testá-lo, desde o dia 13 de abril, colocou no ar um artigo que é ao mesmo tempo um experimento online.
Pedindo ao computador para realizar milhões de tentativas aleatórias a cada minuto e aumentando gradualmente a complexidade da música, hits como Careless Whisper, de George Michael, e Another One Bites The Dust, do Queen, já foram executados. O site mostra o cálculo da probabilidade de o computador executar a música, bem como a quantidade de tentativas que ele precisou para acertá-la. Você pode acompanhar o experimento em tempo real ou ver simulações com as músicas já obtidas.
APT UPDATE
Atualize-se com as novidades de softwares para trabalhar com dados
O GitHub anunciou que todos os seus principais recursos agora são gratuitos. Para saber mais, confira o FAQ sobre esta novidade.
***
O R 4.0.0 foi lançado em abril. Já disponível para Windows, Mac e Linux.
***
Falando em R, o pacote gt (Great Looking Tables) está disponível e Hadley Wickham fechou a série de postagens sobre as novidades da nova versão do dplyr.
***
Cnvrg.io lança uma versão gratuita de sua plataforma de ciência de dados.
***
O pacote #geobr está disponível com conjuntos de dados espaciais do Brasil em R e Python.
***
A plataforma de dados Count está oferecendo suporte analítico gratuito a organizações equipes que enfrentam a crise da Covid-19.
Ficou algo de fora? Envie sugestões e dicas para escoladedados@ok.org.br