* Este conteúdo integra o acervo de Boletins de Dados, nossos informativos mensais sobre as principais novidades e oportunidades relacionadas ao trabalho com dados. Para acessar as edições mais recentes reunidas na seção exclusiva e receber a próxima edição em sua caixa de entrada, junte-se ao nosso programa de membresia e apoie nosso trabalho.

SETEMBRO/2019

Olá,

Nesta semana, iremos compartilhar mais detalhes sobre o Coda.Br 2019, a maior conferência brasileira de jornalismo de dados e métodos digitais, que ocorre nos dias 23 e 24 de novembro em São Paulo.

Nossos membros terão direito a um cupom de desconto de 20%. Ele vale também para um workshop prévio que vai aprofundar o uso SQL para entrevistar bases de dados massivas.

Neste ano, em parceria com a Associação Brasileira de Jornalismo Investigativo (Abraji), anunciaremos no Coda.Br os ganhadores do Prêmio Cláudio Weber Abramo de Jornalismo de Dados e lançaremos publicamente o primeiro fórum em português sobre o tema.

Como membro, você já tem acesso liberado à plataforma (versão beta) e pode usar este canal para compartilhar dúvidas, dicas ou estimular debates em torno de um tema.

AGENDA

Oportunidades e prazos para não perder de vista

• 01/10 – Exclusivo para membros da Escola de Dados: webinar ‘Usando R para explorar dados do Tesouro Nacional’, com Fernando Barbalho;

• 07/10 – Começa o Simpósio Brasileiro de Banco de Dados, em Fortaleza (CE);

• 08/10 – Vestibular para graduação em Ciência de Dados da FGV no Rio de Janeiro, a primeira do país;

• 14/10 – Início do curso massivo online ‘Jornalismo de dados e visualização com ferramentas gratuitas’, com Alberto Cairo, Simon Rogers e grande equipe;

• 15/10 – Segundo webinar: ‘Colaboradados: dados abertos e transparência’, com Judite Cypreste;

• 18/10 – Início do Festival 3i 2019, que discute o futuro do jornalismo no Rio de Janeiro (participaremos com uma oficina sobre segurança digital);

• 19/10 – Conferência das PyLadies BR na cidade de São Paulo;

• 23/10 – A Python Brasil 2019 se inicia em Ribeirão Preto (SP);

• 29/10 – O último webinar da Escola de Dados no mês será sobre ‘Dados abertos acessíveis com Python, rows e Brasil.IO’, com Álvaro Justen, o Turicas;’

NO MUNDO DOS DADOS

Notícias e discussões quentes

Comunicando incertezas

O presidente da maior potência global, um furacão devastador e um mapa de probabilidades alterado com canetinha. Neste mês, as discussões sobre incerteza na visualização de dados ganharam uma escala jamais vista.

Após o Furacão Dorian se aproximar da costa leste dos Estados Unidos, Donald Trump foi ao Twitter no dia 1 de setembro e citou equivocadamente o Alabama como um dos estados em risco. O Serviço Nacional de Meteorologia alertou que não era o caso, mas o presidente insistiu no erro.

Alberto Cairo conjecturou que Trump foi confundido por mapas que seus conselheiros mostraram a ele nos dias anteriores, provavelmente sem a explicação adequada. Curiosamente, naquele mesmo dia, o New York Times publicou em sua edição dominical um texto de Cairo, que explicou como ler visualização de dados de possíveis trajetórias de furacão, em especial o chamado “cone da incerteza”.

A crise aumentou quando Trump fez um vídeo mostrando uma versão de um mapa oficial, com um “pequeno” detalhe: o “cone da incerteza” foi alterado com canetinha para “atingir” o Alabama e sustentar seu argumento. O episódio ficou conhecido como ‘Sharpiegate’ e gerou uma polêmica sobre alteração de dados oficiais para fins políticos, além de memes, é claro.

Na imagem, é possível observar uma área pintada em preta, que foi “anexada” aos dados originais, apresentados com o traço branco. Fonte: Kait Parker

Ainda em setembro, a Propublica também pautou a importância de quantificar a incerteza e os erros encontrados em uma investigação, mencionando como exemplo a série Driven Into Debt e The Thicket Trap, que mostra como a “indústria da multa” afeta a comunidade negra e de baixa renda em Chicago (EUA). Para lidar com os erros na geolocalização da base de dados, eles fizeram uma amostra, checaram manualmente os endereços e concluíram que 94% das vezes ele foi mapeado corretamente. Como os 6% restantes não estavam concentrados em uma área específica, o impacto na análise não foi significativo e eles puderam seguir adiante seguros.

Enfim, vale o conselho publicado na Scientific American: “O modo menos efetivo de apresentar a incerteza é não mostrá-la de nenhuma forma”. Para aprofundar no assunto, confira este compilado colaborativo de recursos sobre o tema, organizado por Enrico Bertini, apresentador do podcast datastories.


Jornalismo de dados, cá e além-mar

Este mês foi a vez do Metrópoles de Brasília, o Jornal da Record e o recém-lançado Vortex lançarem grupos de jornalismo de dados em suas redações. A TV Globo de São Paulo também colocou no ar uma apuração de fôlego na área, o ‘Anda SP’, uma série de mais de 50 reportagens, resultado de 2 meses de trabalhos.

Ainda em setembro, a presença do jornalismo de dados no Brasil foi tema de artigo apresentado no 42º Congresso Brasileiro de Ciências da Comunicação (Intercom 2019), no início do mês. Nele, o pesquisador Mathias Felipe mapeou 52 iniciativas de todos os tamanhos nesta área país afora.

Porém, a julgar pelo relato do jornalista Rui Barros no blog da Global Investigative Journalism Network, em terras lusitanas a situação é outra. “Hoje, Portugal ainda tem não mais que um punhado de jornalistas de dados”, relatou.

Não significa que nada aconteça. Nos últimos três anos, o próprio Rui tem se dedicado à área na Rádio Renascença, uma das mais antigas de Portugal. Mas no geral as mudanças provocadas pelo jornalismo de dados se dão em um ritmo “muito lento”, quando comparado a outros países, segundo ele. No texto, Rui compartilha também dicas para jornalistas que querem se iniciar na área.


Panorama da LAI

A Controladoria Geral da União lançou um painel de monitoramento da aplicação da lei de acesso à informação (LAI) no governo federal. O panorama mostra de longe o Ministério da Economia como o órgão mais demandado, enquanto universidades e instituições de ensino aparecem entre as líderes em omissões e demora em responder aos pedidos.

Os dados corroboram descobertas do pesquisador Marcio Cunha Filho, considerado um dos maiores especialistas em LAI. Antes do lançamento oficial do painel, ele levantou este ponto em entrevista para o Fiquem Sabendo: “A percepção de muitos dos gestores da CGU era de que as universidades públicas estavam entre os principais órgãos que descumpriam a LAI”.

SAIBA MAIS

Para aprender mais e aprender sempre

Setembro também foi um mês cheio de eventos interessantes. Na Alemanha, teve a Global Investigative Journalism Conference, que acabou no último domingo. As apresentações e “tipsheets” das sessões você encontra no site do evento. E mais: também já estão disponíveis os vídeos, posts, áudios e outras documentações sobre jornalismo digital e o que rolou no encontro da Online News Association (ONA19).

Teve ainda a estreia da conferência Encode na Inglaterra, que debateu design, jornalismo e educação orientada a dados. Neste post, você encontra comentários sobre quatro temas relevantes do evento (como o trabalho com visualizações com papel e caneta ou a sonificação de dados), enquanto neste outro estão 20 insights relacionados ao evento. O décimo terceiro tópico vai soar familiar: “o futuro da visualização de dados é o futuro da comunicação de incertezas”.

E, na América Latina, o Chile recebeu a LatinR. Você pode conferir as apresentações deste ano aqui.

***

Por falar nisso, o novíssimo blog RStudio Education será um espaço de compartilhamento de materiais de ensino tanto para quem está começando sua jornada, quanto para quem já é experiente e precisa passar o conhecimento adiante. Ali, professores encontrarão planos de aulas completos, enquanto aprendizes poderão aproveitar livros e tutoriais para todos os níveis de conhecimento.

***

Pesquisadores portugueses sintetizaram algumas linhas gerais para visualização de narrativas espaço-temporais neste artigo de apresentado na International Conference Information Visualisation 2019. O fluxo de trabalho foi dividido nas seguintes categorias: intenção (função, retórica, interpretação proposta), características espaço-temporais (estrutura temporal, fenômenos no espaço-tempo, framework de representação, escala de espaço-tempo) e interação (tipo de interação, tarefas) e elementos narrativos.

A partir de pesquisas prévias sobre o assunto, eles explicam como cada uma destas camadas é importante para um bom resultado final. Outra abordagem semelhante recheada de referências bibliográficas é este artigo, que propõe um novo “framework” para a visualização de dados, englobando abordagens quantitativas, do design gráfico e do design da informação.

Quem preferir algo mais prático, pode aprender ou aprofundar estudos com D3. Amelia Wattenberger fez um ótimo tutorial sobre esta biblioteca para visualização de dados que mostra seus módulos e funcionalidades.

SNIPPETS

Dicas curtas e certeiras sobre o trabalho com dados

Sabia que na busca reversa de imagens, além de buscar fotos inteiras, também é possível pesquisar por elementos específicos, como rostos ou prédios? Os resultados variam de acordo com o serviço. O blog DomainTools comparou os principais deles e nós traduzimos o resumo para você.

***

Dados gigantes, análise exploratória gráfica, outliers, datas, processamento paralelo e outras: o Data Hackers publicou uma lista com 10 bibliotecas para ciência de dados em Python que podem ser uma mão na roda.

***

José Ferraz Neto compartilhou uma base de dados com os acórdãos do Tribunal de Contas da União. O código usado está no Github e os dados, no Kaggle.

***

Aluno da UFRN, Rayland Matos usou R para criar um painel interativo com dados de reembolsos para parlamentares.

***

Para quem trabalha com inteligência artificial, uma boa dica é o artigo ‘The global landscape of AI ethics guidelines’, publicado na Nature, que traçou um panorama dos princípios e linhas gerais das discussões sobre ética na área. Algumas diretrizes importantes são: transparência, justiça e equidade, não-maleficência, responsabilidade e privacidade.

INSPIRA

Trabalhos e iniciativas inovadoras para te inspirar 

O Estadão mergulhou nos dados sobre adoção de crianças no Brasil. Enquanto o governo prepara o Sistema Nacional de Adoção, que promete fazer um “match” entre pais e crianças para adoção, a reportagem criou um simulador a partir das informações disponíveis.

Na visualização de dados elaborada, as plantas representam crianças, que são “colhidas” pelos pais, de acordo com as suas características. Por exemplo, quanto menor seu caule, menos tempo de vida tem a criança, já a flor indica que se trata de uma pessoa com deficiências.

A análise dos dados revelou algumas dinâmicas da adoção de crianças. Segundo a matéria, “apesar da cor/raça ser um critério de seleção, existem outros filtros mais seletivos que este”. Os fatores que mais influenciam na decisão sobre a adoção são idade, deficiências e presença de irmãos.

A simulação é feita em JavaScript, a cada vez que a página é carregada. O código utilizado está no Github do Estadão.

APT UPDATE

Trabalhos e iniciativas inovadoras para te inspirar

A ProPublica lançou o Collaborate, uma ferramenta de código-aberto para facilitar a colaboração entre jornalistas e redações que realizam investigações baseadas em dados.

***

Você já deve conhecer o SQL, a linguagem para consulta estruturada a bases de dados tabulares. Agora, dê boas vindas ao GQL (Graph Query Language), que visa padronizar uma linguagem para consulta a grafos.

***

O pacote tidyr chegou a sua versão 1.0.0, trazendo novidades nas funções de limpeza e transformação de dados para o formato “tidy”.

***

CKAN é um repositório de dados abertos desenvolvido pela Open Knowledge e utilizado mundo afora em portais de transparência. Com o Datashades, é possível ver estatísticas e informações sobre estas implementações.

***

Para os amantes do terminal: confira o Visidata, um editor de planilhas voltado para ciência de dados que roda direto da linha de comando. Já é possível testar sua segunda versão e colaborar com o desenvolvimento do projeto.

***

Migrações no Google: usuários do Fusion Tables devem migrar seus projetos antes do desligamento da plataforma, no dia 3 de dezembro. Já o Data Studio deixará de utilizar o Drive para armazenamento de dados, mas os arquivos serão realocados automaticamente, exceto para usuários G Suite.

***

O Flourish revelou uma funcionalidade “secreta” de scrollytelling. Ainda não há interface gráfica para acessá-la, mas com um pouco de Java Script já é possível utilizar o recurso.


Ficou algo de fora? Envie sugestões e dicas para [email protected]