*Este conteúdo integra o acervo de Boletins de Dados, nossos informativos mensais sobre as principais novidades e oportunidades relacionadas ao trabalho com dados. Para acessar as edições mais recentes reunidas na seção exclusiva e receber a próxima edição em sua caixa de entrada, junte-se ao nosso programa de membresia e apoie nosso trabalho.

maio/2021

Olá

Neste mês, atualizamos nossa página principal para facilitar o acesso ao nosso conteúdo e realizamos o curso ‘Jornalismo de Dados Ambientais’. Todas as aulas e materiais já estão disponíveis com acesso aberto, assim como a formação ‘Jornalismo de Dados para Coberturas Locais’. Utilize seu login em nosso site para navegar pelos conteúdos.

E, se você tem alguma proposta ou sugestão para o Coda.Br 2021, você pode ajudar a construir o evento sobre jornalismo de dados e métodos digitais mais aguardado do Brasil. Visite a página da edição deste ano para saber mais e confira também a documentação das edições anteriores que preparamos.

Por fim, em junho, teremos o webinar de lançamento do ebook da Escola de Dados. No dia 29 de junho, às 19h, Adriano Belisário, Marina Gama, Marília Gehrke e Rodrigo Menegat irão falar sobre a publicação, que trata do fluxo de trabalho com dados na comunicação. Como participante da membresia, você já tem acesso à publicação.

No Boletim de Dados deste mês, você irá ler sobre deepfakes, a performance brasileira no Sigma Awards e como a Inglaterra conduziu um estudo sem precedente sobre a Covid-19 a partir de dados do seu sistema público de saúde. Também te convidamos para fazer uma visita virtual ao museu alemão ZKM e compartilhamos diversas outras novidades.

Boa leitura e um ótimo mês de junho!

AGENDA

Oportunidades e prazos para não perder de vista


• 05/06 – Último dia inscrições para participar do 2021 Latin America scikit-learn sprint, realizado pelo Data Umbrella.

• 06/06 – Encerramento das inscrições no processo seletivo do Projeto Política por Inteiro para expansão da equipe, com vagas de Engenheiro de DadosCientista de Dados e Analista de Dataviz.

• 07/06 – Início do “Curso Dados, Mercados Digitais e Concorrência” realizado pela Data Privacy Brasil.

• 09/06 – A Kate Crawford, autora do livro recém publicado “Atlas of AI: Power, Politics, and the Planetary Costs of Artificial Intelligence”, participará de um bate-papo com Judy Wajcman, realizado pelo The Alan Turing Institute.

• 20/06 – Último dia de chamada de propostas de apresentação de trabalhos para a quarta edição da conferência LatinR 2021.

• 29/06 – Às 19h, acontece o webinar de lançamento do ebook  “Fluxo de trabalho com dados: do zero à prática” no canal da Escola de Dados.

• 30/06 – Prazo para submissão de artigos para o Journal of Big Data com a temática “Aplicativos e desenvolvimento em nuvem Linked Open Data (LOD)”.

• 30/06 – Encerramento da chamada de artigos para o 2021 Global AI + Regulation Emerging Scholars Workshop, da AI + Society Initiative. O melhor artigo receberá um prêmio de aproximadamente R$ 6.500.

• 03/07 – Ativistas e jornalistas investigativos podem participar do Bertha Challenge, que tem foco sobre o acesso à água nesta edição, e concorrer a bolsas.

NO MUNDO DOS DADOS

Notícias e discussões quentes


Brasil vice-campeão entre finalistas do Sigma Awards

Maior premiação de jornalismo de dados do mundo, o Sigma Awards anunciou a lista de finalistas de 2021 e, mais uma vez, o Brasil não fez feio.

Ao todo, 106 projetos passaram para a fase final e 10 deles são brasileiros. Ficamos atrás apenas dos Estados Unidos, com 32 finalistas, e na frente da Alemanha e Singapura, que empataram em terceiro lugar, com 6 finalistas. Confira aqui o ranking completo e a galeria de finalistas.

Dos 10 finalistas brasileiros, 6 foram de inscrições de organizações que se declararam como de pequeno porte. É o caso do No Epicentro da Agência Lupa; o Fogo Cruzado, Pista News, Disque Denúncia, Geni/UFF e Nev/USP que criaram o mapa dos grupos armados no Rio de Janeiro; o especial do Nexo sobre as 100 mil mortes pela Covid-19; a plataforma CruzaGrafos, desenvolvida pela ABRAJI e Brasil.IO; a reportagem da Agência Pública sobre problemas com a certificação de madeiras na Amazônia; e o trabalho da Agência Fiquem Sabendo sobre os dados de pensionistas no país.

Um dos projetos finalistas, a investigação sobre o domínio territorial dos grupos armados no Rio de Janeiro mostrou o poder das milícias na cidade (em azul no mapa).

Entre as inscrições finalistas de grandes organizações, há a investigação sobre a compra de respiradores feita pelo G1 e os gastos em cloroquina pela CNN. Completam a lista a plataforma de checagem de fatos Confere.AI do Jornal do Commercio e o projeto Monitora criado pela Revista AzMina, Internet Lab e Volt Data Lab para monitorar discursos de ódio.

A Escola de Dados e o Prêmio Cláudio Weber Abramo de Jornalismo de Dados foram parceiros da edição de 2021 do Sigma Awards.

Deepfakes e autenticação digital de conteúdos

Participamos do debate virtual sobre deepfakes promovido pela WITNESS com pesquisadores brasileiros, em maio de 2021. A atividade deu continuidade ao primeiro encontro sobre o tema no país, que foi mencionado em nosso Boletim de Dados #05, de outubro de 2019.

De lá pra cá, as tecnologias de manipulação de vídeos via algoritmo avançaram, mas o maior desafio segue sendo as chamadas “cheap fakes” ou “shallow fakes”, que usam técnicas mais simples  – e muitas vezes toscas. Para criar deepfakes com verossimilhança, além de algoritmos, ainda é necessário lançar mão de edições de vídeos, efeitos gráficos ou mesmo imitadores.

Por outro lado, cresceram o acesso a modelos de deepfakes pré-treinados e a serviços comerciais especializados na produção destes vídeos. Também há um esforço para aprimorar os algoritmos de “re-sincronização” de lábios em vídeos, para fins de dublagem, por exemplo, e no desenvolvimento de deepfakes em tempo real, como em transmissões ao vivo.

Para reduzir os potenciais danos destas tecnologias em termos de desinformação, há duas abordagens em marcha. A primeira se baseia na identificação de sinais técnicos nos vídeos que poderiam indicar manipulações. Existem empresas vendendo “soluções” nesta área, mas elas podem ser problemáticas, pois os modelos de produção das deepfakes evoluem. Em uma das principais ferramentas da área, por exemplo, já há recursos para melhorar a simulação de olhos e bocas – algo que até pouco tempo atrás era considerado um aspecto crítico na identificação de deepfakes.

A segunda abordagem se baseia em processos de autenticação de conteúdos digitais, que possam certificar sua autoria e servir como prova, caso eles sejam manipulados. Empresas como a Adobe, NY Times, Twitter, BBC e a Microsoft já apostam neste caminho, por meio de coalizões como a Coalition for Content Provenance and Authenticity, a Trusted News Initiative e a Content Authenticity Initiative.

Capitalismo e colonialismo de dados

Data for Black Lives é um movimento de pessoas ativistas, desenvolvedoras e matemáticas dedicadas a usar a ciência de dados para criar mudanças concretas e mensuráveis nas vidas para a população negra. Em maio, junto com a organização Demos, o grupo publicou o relatório “Data Capitalism + Algorithmic Racism” sobre capitalismo de dados, suas relações com a reprodução do racismo estrutural e o lucro de grandes corporações, reunindo casos de racismo algorítmico no monitoramento de funcionários da Amazon, em anúncios direcionados do Facebook e empresas de seguros nos Estados Unidos.

Já a publicação “Oppressive A.I.: Feminist Categories to Understand its Political Effects”, de Paz Peña e Joana Varon, trata dos vieses e das implicações do uso de inteligência artificial no Brasil e em outros países vizinhos. A ampliação da vigilância sobre populações vulneráveis, a reprodução da exclusão étnico-racial, falta de diversidade de gênero, naturalização da extração de dados de populações marginalizadas, precarização do trabalho e falta de transparência são alguns dos impactos observados sobre as políticas públicas.

Outra atividade de destaque na área foi o debate do The Alan Turing Institute, que reuniu Miriyam Aouragh, Paula Chakravartty, Nick Couldry, Ulises Mejias e Alison Powell, importantes autores acerca do debate sobre colonialismo de dados, no painel “Data as an instrument of coloniality”.

Dados, Covid-19 e proteção de dados

Em maio, a Inglaterra anunciou o maior estudo baseado em dados sobre fatores de comorbidade da Covid-19, com o artigo ‘OpenSAFELY: factors associated with COVID-19-related hospital death in the linked electronic health records of 17 million adult NHS patients’.

OpenSAFELY é uma nova plataforma para análise de dados (analytics) para os registros eletrônicos do National Health System, o “SUS britânico”. A partir da plataforma, foi possível realizar o estudo, que se baseou em dados de 17,4 milhões de pessoas. O anúncio para imprensa destacou alguns dos principais fatores de comorbidade: homens, pessoas com idade avançada, com diabete descontrolada, asma severa, bem como pessoas de baixa renda, negras e asiáticas foram identificadas como tendo maior risco. A plataforma tem o código aberto e foi construída para permitir análises rápidas e seguras, garantindo a privacidade das pessoas.

Por falar nisso, no Brasil, o Internetlab publicou um estudo sobre a proteção à privacidade nas medidas tecnológicas e alternativas adotadas no combate à Covid-19. Foram analisados os aplicativo Coronavírus SUS feito pelo Governo Federal e parcerias público-privada, como a do Estado de São Paulo e operadoras de telefonia.

SAIBA MAIS

Para aprender mais e aprender sempre


Estatística e ciência de dados: da USP para sua tela

As gravações da disciplina de ‘Visualização e Exploração de dados’ do bacharelado em Estatística e Ciência de Dados da Universidade de São Paulo estão disponíveis no canal da professora Cibele Russo. No cardápio, construção de gráficos em R e em Python, aulas sobre medidas de desigualdade como a curva de Lorenz e o Índice de Gini, entre outros temas.

Aprendizagem de máquina

No canal da R-Ladies São Paulo, tem a apresentação da Viviane Sanchez, pós-graduanda em Ciência de Dados, sobre o pacote ‘tidymodels’ e a estruturação das etapas necessárias para conduzir projetos de aprendizagem de máquina (machine learning). E o Google lançou o Know Your Data, que visa ajudar quem trabalha com imagens e aprendizagem de máquina a melhorar a qualidade dos dados e mitigar vieses. A plataforma permite responder perguntas como: meus dados estão corrompidos? possuem informações sensíveis, como rostos? existem ausências, como poucas fotos à luz do dia? Saiba mais na documentação do projeto.

Novidades do R 4.1

R 4.1 foi lançado e, como grande novidade, traz agora um operador de “pipe” nativo. Após o sucesso do %>% do pacote magrittr, a linguagem já traz embutido agora o |>. Saiba mais sobre as novidades, as semelhanças e diferenças entre os dois operadores neste post do R-Bloggers ou nos materiais do Curso-R (post e transmissão ao vivo).

SNIPPETS

Dicas curtas e certeiras sobre o trabalho com dados


Jefferson Cardoso, aluno de ciência da computação no Rio Grande do Sul, publicou o governoaberto.org, que agrega diversos indicadores de dados abertos sobre as cidades brasileiras.

O artigo “Data Journalism in favela: Made by, for, and about Forgotten and Marginalized Communities”, de Mathias Felipe e Lucia Mesquita, analisou três iniciativas de jornalismo de dados  (Agência Mural, data_labe, e Favela em Pauta) que atuam em favelas em brasileiras.

Colóquio Ibero-americano de Jornalismo Digital de 2021 chegou ao fim, com o anúncio da criação da Ajor (Associação Brasileira de Jornalismo Digital), que reúne mais de 30 veículos e será oficialmente lançada em junho.

Global Investigative Journalism Network fez uma postagem sobre novas ferramentas de dados e dicas para investigar as mudanças climáticas.

CKAN está com site novo e busca um desenvolvedor sênior para o projeto.

csv,conf,v6 ocorreu em maio e todos os vídeos das apresentações deste encontro multidisciplinar sobre dados estão relacionados na lista de participantes.

A Lei de Acesso à Informação fez aniversário de 9 anos e a Agência Fiquem Sabendo entrevistou Léo Arcoverde, fundador da iniciativa e especialista no assunto, para refletir sobre a trajetória e desafios presentes da LAI.

No Towards Data Science, o cientista de dados espaciais Nikhil Hubbali defende o uso do formato “geopackage”, em substituição aos “shapefiles” e arquivos GeoJSON, para armazenamento de dados espaciais.

“Oi, gente” é a saudação mais popular nos vlogs brasileiros, de acordo com o YouTube Culture & Trends, que publicou uma divertida análise de dados sobre o tema.

INSPIRA

Trabalhos e iniciativas inovadoras para te inspirar


Neste mês, te convidamos a visitar o ZKM, o Centro de Arte e Mídia de Karlsruhe, na Alemanha, para explorar a linguagem do pensamento em rede, na exposição criada por Albert-László Barabási.

Uma das principais referências na teoria das redes, Barabási já foi destaque desta seção em novembro de 2019, pela visualização de dados feita para a capa da Nature. Agora, em sua exposição, ele mescla trabalhos científicos, esculturas, vídeos e outros trabalhos artísticos.

Felizmente, não é preciso ir até a Alemanha para visitá-la. Reserve alguns minutos e faça um passeio virtual pelo museu.

Detalhes dos modelos de Network Science do laboratório Albert-László Barabási no Network Science Institute. Foto de Ruby Wallau / Northeastern University

Em uma das salas, você encontra o trabalho “Flavor network and the principles of food pairing” (Rede de sabores e os princípios da combinação de alimentos), que aplica a teoria de redes no estudo da combinação de ingredientes culinários. Foi ao realizar este trabalho, publicado em 2011, que Barabási teve pela primeira vez a oportunidade de imprimir um grafo em três dimensões.

Em entrevista à Northeastern University, ele contou que a impressão “pode trazer à tona aspectos que você nunca veria em um gráfico bidimensional”, ajudando a revelar padrões até então ocultos. Isto porque quando visualizamos redes em duas dimensões, as arestas ou links entre os pontos acabam se cruzando e inviabilizando o entendimento de certos padrões dos dados. Mesmo que seja feita uma renderização 3D no computador, você ainda estará olhando para uma tela bidimensional. Portanto, argumenta Barabási, a escultura ou impressão 3D dos grafos é a melhor solução para melhor compreender o funcionamento das redes.

UPDATE

Atualize-se com as novidades de softwares e bases de dados


Novos datasets na Base dos Dados: Competições de Futebol no mundo – com informações de partidas, times e jogadores – e os microdados da Campanha Nacional de Vacinação contra Covid19.

O professor Flávio Coelho desenvolveu o pacote PySUS para baixar e processar os dados do DATASUS usando Python.

Em R, o mestre em saúde pública Rafael Saldanha, desenvolveu o pacote Microdatasus com a mesma finalidade.

Conheça o pacote tidywikidatar, que tem a finalidade de obter dados do Wikidata e explorá-los de maneira simples.

O pacote siconvr, desenvolvido pelos cientistas políticos Fernando Meireles e Marcus Torres, possibilita baixar e limpar dados da Plataforma +Brasil, que concentra informações sobre transferências de recursos financeiros do governo.

Quem usa a API do Twitter para finalidades acadêmicas e a linguagem R, pode se beneficiar do pacote academictwitteR, que chegou a sua versão 0.1.0.

RStudio Cloud atualizou o Sistema Operacional para o Ubuntu 20.4, o painel do usuário e agora possibilita visualizar a utilização dos dados por período de uso da conta.

ObservableHQ lançou o Observable Plot, uma biblioteca Javascript para visualização exploratória de dados.

TensorFlow 2.5 agora suporta o Python 3.9 e teve melhorias na sua performance com redes neurais.

O Núcleo Jornalismo desenvolveu o Monitor Nuclear, uma ferramenta gratuita para identificar tendências e analisar o engajamento dos perfis dos políticos brasileiros mais relevantes no Twitter.

Agora o Datawrapper possibilita adicionar rótulos de locais e símbolos a mapas cloropléticos.

O Jupyter Notebooks agora permite incorporar relatórios e visualizações do Power BI.


Sugestões? Envie um e-mail para [email protected].