* Este conteúdo integra o acervo de Boletins de Dados, nossos informativos mensais sobre as principais novidades e oportunidades relacionadas ao trabalho com dados. Para acessar as edições mais recentes reunidas na seção exclusiva e receber a próxima edição em sua caixa de entrada, junte-se ao nosso programa de membresia e apoie nosso trabalho.

NO MUNDO DOS DADOS

Notícias e discussões quentes

Jornalismo de dados para redações e editores

Em novembro, foram publicados dois guias relevantes para quem trabalha com jornalismo de dados. O Volt Data Lab lançou um manual para redações, que serviu para estruturar a equipe e o trabalho com dados no Vortex. São abordadas situações como tempo de resposta ao noticiário, formação de recursos humanos, distribuição de tarefas e interação com outras áreas da redação. 

Já o site Data Journalism lançou um guia voltado para editores. O documento ressalta a importância da documentação durante o processo de trabalho, utilizando comentários em códigos, por exemplo, além de processos de checagem e verificação. As autoras propõem ainda algumas perguntas fundamentais que todo editor de dados deveria se fazer, tais como:

  • Os dados respondem às nossas questões? Eles levantam outras questões?

  • Quando e onde o localizamos?

  • Você fez uma investigação de antecedentes dos dados? 

  • Como eles foram limpos?

  • Como foram feitos os cálculos?

  • Você manteve uma documentação do trabalho feito, um “diário dos dados”?

  • Você replicou seu trabalho com dados? Alguém poderia fazer isso?

  • Você consultou especialistas ou fez uma revisão da literatura científica?

  • Qual a relevância dos dados? (não confundir esforço com importância)

Em entrevista no New York Times, o repórter Ben Casselman também falou sobre como a consulta aos dados e a fontes se unem em seu trabalho. Ele defende que, ainda que não precisem se tornar desenvolvedores para lidar com dados, jornalistas devem se sentir minimamente confortáveis com números e estatísticas. Dá para fazer muita coisa com um editor de planilhas e alguns conhecimentos básicos na área, porém, para ele, é no contato humano e nas entrevistas que as reportagens adquirem sentido.


Investigações com fontes abertas

Algumas referências e trabalhos realizados na área de inteligência com dados e fontes abertas (Open Source Intelligence – OSINT) também ganharam destaque em novembro. O Bellingcat é um reconhecido coletivo independente de pesquisadores, investigadores e jornalistas cidadãos, cujo trabalho virou filme, ‘Bellingcat – The Truth in a Post Truth World’, que ganhou recentemente o Emmy Internacional na categoria de documentários.

O site Nixtel também publicou uma documentação notável, a respeito de uma investigação, que – a partir de uma foto onde se vê um avião e dados de rastreamento de voos – consegue localizar geograficamente o ponto exato onde a foto foi tirada. E, na Oxford Academic, saiu um artigo que mostra como OSINT pode ser utilizado para investigações de impactos ambientais causados por conflitos.


Inovação Cívica

O eixo de Inovação Cívica da Open Knowledge Brasil também teve lançamentos importantes neste mês. O Parlametria foca no legislativo, mobilizando ciência de dados para ação cidadã. O objetivo é facilitar o acompanhamento da sociedade civil de pautas importantes no Congresso, por meio da sistematização e visualização de dados. 

Para conhecer mais sobre algumas ações de Inovação Cívica da Open Knowledge no Brasil, vale também conhecer o programa de Embaixadoras, que realizou em novembro um excelente debate sobre Lei de Acesso à Informação, e conferir este post recém-publicado da Jéssica Temporal, que mostra um passo a passo do uso de ciência de dados em prol de causas cidadãs, a partir de uma reflexão sobre o caso da Operação Serenata de Amor.

SAIBA MAIS

Para aprender mais e aprender sempre

Visualização de dados, ciência, comunicação e arte. Estes são os temas desta aula de Fernada Viegas, recentemente disponibilizada na íntegra pelo Instituto Serrapilheira. Viegas é pesquisadora do Google e, em novembro do ano passado, participou do Coda.Br 2018 e da segunda edição do Encontros Serrapilheira. Além de comentar trabalhos e referências clássicas, a pesquisadora fala dos bastidores e processos de seus trabalhos e investigações pessoais, mostrando como visualização de dados pode ser utilizada na prática para produção de novos conhecimentos.

***

A ThougthWorks fez uma postagem compilando boas e más práticas em desenvolvimento de softwares para ciência de dados. Para evitar que seu código ou seu arquivo notebook se torne uma bagunça completa, você precisa evitar complexidades desnecessárias e manter as coisas simples. 

A primeira dica é deixar seu código limpo, evitando “códigos mortos” que são executados mas cujo resultado não é usado posteriormente em nenhuma outra computação. Também é importante utilizar funções para abstrair a complexidade, buscando sempre “modularizar” seu código. O desenvolvedor David Tan também sugere trabalhar com desenvolvimento orientados a testes e testes de unidade e retirar, assim que possível, o código do seu notebook para transformá-lo em pacotes ou módulos independentes. Por fim, porém, não menos importante: use Git e faça commits pequenos e frequentes!

***

O International Consortium of Investigative Journalists (ICIJ) fez uma postagem explicando como usou aprendizado de máquina e a biblioteca Snorkel (Python) para classificar o gênero de vítimas de dispositivos médicos, como parte das investigações da série Implant Files. Outros uso de inteligência artificial (IA) em redações também foram abordados nesta postagem. Para ficar por dentro das possibilidades da área para o ano que vem, vale ver o site Top Bots, que fez uma coletânea de 10 papers sobre IA e aprendizado de máquina em 2019.

Já este artigo na Wired faz uma leitura crítica das iniciativas de “inteligência artificial pelo bem” (AI for Good), demandando menos boas vontades e mais transparência não só sobre os benefícios, mas também os riscos destas tecnologias. Na mesma linha crítica, a revista Logic publicou o artigo ‘Oil is the new data’, um interessante relato sobre a relação entre as grandes empresas de tecnologia e processamento de dados (Big Tech) e a indústria do petróleo.

SNIPPETS

Dicas curtas e certeiras sobre o trabalho com dados

Towards Data Science compilou conceitos importantes sobre causalidade e vieses, abordando temas como o paradoxo de Simpson, causalidade de Granger, a falácia ecológica, contrafactuais, vieses de seleção e sobrevivência, variáveis omitidas, entre outras.

***

Se a diferença nos códigos adotados pelo governo para representar os municípios brasileiros já foi um problema para você, conheça o Diretório de Municípios Brasileiros, que concilia os códigos de diferentes órgãos, como o IBGE, Receita Federal, Tesouro Nacional, entre outros.

***

Gráficos são legais, mas às vezes precisamos mesmo de uma tabela. Neste tutorial publicado no R For The Rest of Us, você aprende como fazê-las (com estilo) em R.

***

O IBGE lançou o Manual Técnico de Acesso e Uso de Dados Geoespaciais, explicando conceitos básicos de cartografia e geoprocessamento, além de instruções práticas com o QGIS.

***

Por falar em QGIS, este tutorial recém-lançado mostra como geocodificar milhares de endereços de uma só vez usando usando esse programa e a API do Here.

INSPIRA

Trabalhos e iniciativas inovadoras para te inspirar 

A visualização de capa dupla elaborada foi disponibilizada para download pela Nature

A capa da Nature de novembro recebe nosso destaque do mês. O trabalho de visualização de dados dos 150 anos da revista ficou a cargo de ninguém menos do famoso cientista de redes Albert-László Barabási. Explorando a citação entre os autores de artigos, ele elaborou uma rede tridimensional com mais de 88 mil papers. O resultado mostra tanto a formação de comunidades de conhecimentos em cada disciplina, como também os intercâmbios entre elas. 

No vídeo ‘A network of science: 150 years of Nature papers’, é possível fazer uma “visita guiada” por essa rede impressionante. Já se você prefere explorar por conta própria, pode visitar este site interativo elaborado pela Nature. Junto com a capa dupla disponibilizada, também há um interessante infográfico na segunda página, que destrincha o impacto de alguns artigos em particular, através de visualizações da rede em série temporal.

APT UPDATE

Atualize-se com as novidades de softwares para trabalhar com dados

Em novembro, Hadley Wichkam anunciou a versão 1.0 do dtplyr, que fornece o backend do data.table para o pacote dplyr. Especialmente útil para quem lida com bases grandes em R.

***

E o gerenciador de pacotes do R Studio chegou na versão 1.1.0 prometendo instalações mais rápidas.

***

Ainda para a turma de R: vale conferir também o pacote pins, que chegou à versão 0.3 e serve para “fixar” recursos como um datasets na web ou processamentos computacionais custosos.

***

Com sua nova API, o Datawrapper agora permite a criação de gráficos automatizados.

***

Sourcetrail agora é gratuito e tem seu código aberto. A ferramenta indexa arquivos de origem para criar um gráfico de dependência, oferecendo aos desenvolvedores uma visão geral gráfica de seu código.