#14 Dados territoriais, Coda.Br e mais
*Este conteúdo integra o acervo de Boletins de Dados, nossos informativos mensais sobre as principais novidades e oportunidades relacionadas ao trabalho com dados. Para acessar as edições mais recentes reunidas na seção exclusiva e receber a próxima edição em sua caixa de entrada, junte-se ao nosso programa de membresia e apoie nosso trabalho.
JULHO / 2020
Olá,
Desde 2016, a Escola de Dados realiza anualmente o Coda.Br, a Conferência de Jornalismo de Dados e Métodos Digitais, que de lá pra cá se tornou o principal encontro sobre o tema na América Latina. Por conta da pandemia do novo coronavírus, este ano o evento será online. E já temos uma data marcada: 2 a 7 de novembro. Salve na agenda e aguarde, pois em breve traremos mais novidades! 🙂
Por ora, seguem abertas as inscrições para nosso novo curso online ‘Publicadores de dados: da gestão estratégica à abertura’, que aborda conceitos e ferramentas para a gestão estratégica e abertura de dados em organizações, sobretudo públicas. Como participante do nosso programa de membresia, você pode se inscrever com 20% de desconto usando o seu cupom.
Além do desconto, você também pode aproveitar para se juntar ao nosso grupo no Telegram e votar na enquete sobre o tema do próximo tutorial que iremos publicar.
Boa leitura e um excelente mês de agosto!
AGENDA
Oportunidades e prazos para não perder de vista
• Agosto – O Pulitzer Center apoia propostas de jornalismo de dados continuamente.
• 06/08 – Data limite de inscrição no 42º Prêmio Jornalístico Vladimir Herzog de Anistia e Direitos Humanos – PVH. • 08/08 – As RLadies promovem uma série de apresentações sobre uso de dados públicos com esta linguagem. • 09/08 – Estudantes universitários podem enviar propostas de soluções para automatização do processamento de dados públicos da Bahia, no Prêmio Correio de Futuro. • 10/08 – Hackathon do Repl.it que visa estimular a criação de novas linguagens de programação. • 25/08 – Início do Debian Day Brasil 2020, que acontecerá online e poderá ser acompanhado pelo canal no Youtube. • 25/08 – Prazo para a inscrição de eventos online sobre ciência de dados abertos no Virtual Event Awards. • 04/09 – Chamada de trabalhos para a ECREA, uma conferência sobre estudos em jornalismo que ocorrerá em 2021. • 11/09 – Inscrições para o Prêmio Mercosul de Ciência e Tecnologia de 2020, cujo tema deste ano é ‘inteligência artificial’. • 18/09 – O Tesouro Nacional recebe inscrições para prêmio de monografias e soluções em ciências de dados. |
NO MUNDO DOS DADOS
Notícias e discussões quentes
Dados e território
Recentemente, o Instituto Brasileiro de Geografia e Estatística (IBGE) tornou público alguns conjuntos de dados importantes para compreender o território brasileiro. Ontem (30/07), foram disponibilizados os dados mais atualizados sobre os setores censitários no Brasil.
Os setores são as menores unidades territoriais utilizadas pelo órgão. Mesmo sem os dados domiciliares e populacionais, devido ao adiamento do censo, a malha dos setores é fundamental para compreender o território urbano e rural do país.
Anteriormente, o IBGE também já tinha disponibilizado dados de 2019 sobre aglomerados subnormais. Com o objetivo de ajudar no enfrentamento da pandemia, o órgão disponibilizou uma versão preliminar desta base, uma fonte valiosa de informação para compreender a realidade das periferias brasileiras.
A utilização de informações geográficas como estas nas análises de dados permite a elaboração de mapas e o reconhecimento de padrões territoriais, que são invisíveis em tabelas. Afinal, como diz a assim chamada primeira lei da geografia, “todas as coisas estão relacionadas com todas as outras, mas coisas próximas estão mais relacionadas do que coisas distantes”.
Para uma reflexão teórica sobre o uso de dados no planejamento territorial brasileiro, vale a pena conferir o artigo recém-publicado ‘Big Data e Urban Analytics à brasileira: questões inerentes a um país profundamente desigual’ por Flávia Feitosa (UFABC). Ela aponta que a ciência de dados pode provocar novos olhares sobre dinâmicas territoriais no planejamento urbano e enfatiza a necessidade de se levar em conta as desigualdades da realidade brasileira. Quem preferir uma abordagem mais prática, pode dar uma uma olhada neste tutorial de Beatriz Milz, que explicou como usar R para lidar com dados espaciais, tomando como exemplo informações sobre coleta e tratamento de esgoto em São Paulo.
Transparência e opacidade da Covid-19
Em julho, a equipe da Open Knowledge Brasil seguiu atenta aos dados sobre o novo coronavírus. O eixo de advocacy lançou uma nova versão do Índice de Transparência da Covid-19, uma iniciativa de monitoramento da disponibilização de dados sobre os casos da nova pandemia do coronavírus por governos locais. O time da Operação Serenata de Amor apontou como fiscalizar gastos dos parlamentares durante a pandemia.
E, na Escola de Dados, publicamos um texto refletindo sobre lacunas importantes, como as informações sobre gênero e raça dos casos de Covid-19. Nos dados sobre Síndrome Respiratória Aguda Grave (SRAG), uma das principais fontes de dados sobre o coronavírus no Brasil, por exemplo, descobrimos que 17% dos registros não declaram a raça das pessoas, pelo fato deste ser um campo de preenchimento não-obrigatório.
De pessoas às bases
No blog da Data Visualization Society, Amanda Makulec publicou um interessante artigo mostrando como casos reais de coronavírus se tornam registros em bases de dados, nos Estados Unidos, Canadá e África do Sul. O trabalho traz o “mapa da jornada” dos casos confirmados nestes locais com ilustrações visuais, que mostram o caminho percorrido para um teste de uma pessoa se tornar um registro em uma base de dados.
Há problemas comuns que afetam qualquer tentativa de acompanhamento “em tempo real” da situação, pois há uma diferença de tempo entre a exposição ao vírus e o registro do caso nos sistemas de saúde. Do mesmo modo, com processos de coletas tão distintos, comparações entre estes dados devem ser feitas com cuidado.
No Brasil, cientistas que acompanham a Covid-19 explicaram as dificuldades de calcular a taxa de propagação do vírus na população brasileira, em um artigo didático na Revista FAPESP. Trata-se do cálculo do famoso R, o indicador de reprodução da infecção.
Se este valor for for igual a 1, então, um infectado transmite a doença a mais uma pessoa, em média. Calcular o R é importante para projetar a infecção na população no curto prazo e, assim, preparar os serviços de saúde ou decidir sobre retomada de atividades. Acontece que a base disponível para calcular o R no Brasil são os dados já citados sobre SRAG, que registram apenas casos de internação e são atualizados de forma irregular.
SAIBA MAIS
Para aprender mais e aprender sempre
Visualização de dados e D3
No dia 10 de agosto, começam as aulas de Visualização de Dados na pós-graduação de Computação da Universidade Federal de Campina Grande. O curso será ministrado por Nazareno Andrade, que foi instrutor do curso Dados 360 da Escola de Dados. Há vagas abertas para pessoas de fora da universidade.
As aulas irão abordar aspectos teóricos e práticos da visualização de dados. Será utilizada a biblioteca D3 (JavaScript) nos exercícios. Quem estiver interessado em participar e quiser já ir se preparando, pode conferir este vídeo-tutorial publicado pelo Observable, que mostra como carregar dados neste notebook voltado para visualização e análise de dados com JavaScript.
***
Visualização da Covid-19
Sobre visualização de dados e o novo coronavírus, foram publicados dois materiais interessantes em julho. Na publicação ‘Big Data & Society’, um artigo faz uma reflexão crítica sobre o cotidiano da quarentena e visualizações de dados da Covid-19. Tema semelhante ao que foi abordado nesta entrevista no artigo ‘With Great Visualization Comes Great Responsibility’, que saiu no blog Nightingale.
SNIPPETS
Dicas curtas e certeiras sobre o trabalho com dados
A equipe do Mapas Culturais fez uma oficina de análise de dados culturais com esta ferramenta de código aberto.
***
Já estão disponíveis os vídeos da International Symposium on Online Journalism (ISOJ), que ocorreu online este ano e abordou temas como uso de aprendizagem de máquina (machine learning) em redações.
***
O encontro useR!2020 do R Consortium também disponibilizou suas atividades no YouTube.
***
O Fiquem Sabendo fez uma oficina sobre uso de Lei de Acesso à Informação para cobrir a pandemia do novo coronavírus e anunciou a liberação de 27 anos de dados de pensionistas.
***
A recém-criada newsletter De Olho Nos Dados traz dicas sobre Open Source Intelligence, jornalismo investigativo e de dados.
***
Referência em visualização de dados no Brasil, o Nexo criou um repositório no Github com dados e códigos sobre trabalhos envolvendo políticas públicas.
***
A renomada designer Shirley Wu está fazendo transmissões ao vivo sobre visualização de dados no Twitch.
***
E Amy Cesal explicou o porquê do guia de estilo da sua marca nem sempre ser uma boa solução para a escolha de cores em visualização de dados.
INSPIRA
Trabalhos e iniciativas inovadoras para te inspirar
Em julho, a Agência Lupa* lançou o projeto especial ‘No Epicentro’, que visa mostrar o que aconteceria com a sua vizinhança se o epicentro da epidemia no Brasil fosse na sua casa. Com forte impacto visual, este trabalho de visualização de dados segue a premissa de colocar o leitor no centro da narrativa. Todo código utilizado está disponível no Github.
Rodrigo Menegat, um dos autores do trabalho, fez um post contando os bastidores do projeto, da ideia inicial, pesquisa de referências, esboços iniciais, elaboração do roteiro até o desenvolvimento da ideia final. Para quem se interessa pela tecnologia por trás das coisas, vale especialmente conferir as reflexões sobre a escolha das bases de dados geográficas e definição do algoritmo (em Python) necessário para a visualização desejada. Ele destacou ainda alguns aprendizados gerados pelo trabalho, como manter tarefas específicas para cada pessoa na equipe, porém coletivizar os debates sobre as decisões em um “brainstorming eterno”.
APT UPDATE
Atualize-se com as novidades de softwares para trabalhar com dados
Por falar em dados geográficos com Python, João Carabetta publicou o pacote BabelGrid, que fornece uma API comum para diferentes sistemas de indexamento geoespacial.
***
E o QGIS chegou à versão Pi (3.14), com diversas novidades, como o suporte nativo para dados temporais no formato WMS-T.
***
O Pandas (Python) chegou a sua versão 1.1.0 também com novidades, como uma nova função para comparar conjuntos de dados.
***
Para usuários de Windows: a organização Security Without Borders lançou a versão 2.0 do Hardentools, que ajusta configurações do sistema potencialmente inseguras.
***
A nova versão da Excalibur – uma ferramenta em Python para extração de tabelas em PDF – pode ser rodada via linha de comando.
***
O R Studio lançou um novo site para sua ferramenta de gerenciamento de pacotes. As novidades foram contadas em uma postagem no blog.
***
O Flourish anunciou várias atualizações interessantes, entre elas a possibilidade de criar visualizações diretamente de planilhas online.
Ficou algo de fora? Envie sugestões e dicas para [email protected]
*Errata em nosso Boletim de Dados
No último Boletim, enviado esta manhã, destacamos em nossa seção “Inspira” o projeto ‘No Epicentro’, creditando erroneamente sua autoria. O trabalho de visualização de dados é da Agência Lupa, e conta com apoio do Google News Initiative.
Para dar os devidos créditos completos, segue também a equipe do projeto: Alberto Cairo (consultoria); Rodrigo Menegat (dados e narrativa); Tiago Maranhão (desenvolvimento); Vinicius Sueiro (design e desenvolvimento); Natália Leal (edição); Gilberto Scofield Jr (Divulgação); Simon Rogers e Marco Túlio Pires (apoio).