*Este conteúdo integra o acervo de Boletins de Dados, nossos informativos mensais sobre as principais novidades e oportunidades relacionadas ao trabalho com dados. Para acessar as edições mais recentes reunidas na seção exclusiva e receber a próxima edição em sua caixa de entrada, junte-se ao nosso programa de membresia e apoie nosso trabalho.

Janeiro/2021

Olá,

No último mês, ganhamos mais um canal de contato. Nós reativamos nossa página no LinkedIn e agora, além do Twitter e Facebook, seguiremos compartilhando novidades por lá também.

Já em fevereiro, começaremos a segunda turma do curso ‘Publicadores de dados: da gestão estratégica à abertura’, e você que faz parte de nosso programa de membresia tem direito a uma inscrição com 20% de desconto: basta usar o cupom no momento da inscrição.

Outro prazo para ficar atento é o das bolsas de apoio de 300 dólares, para a realização de eventos online no Open Data Day deste ano, marcado para o dia 6 de março. É possível enviar propostas até a próxima sexta.

Vale conferir o post da Open Knowledge contando como organizar eventos do Open Data Day. E nossa equipe fica à disposição para ajudar você a enviar uma proposta.

Boa leitura e um ótimo fevereiro!

Adriano Belisário
Coordenador da Escola de Dados

Agenda

Oportunidades e prazos para não perder de vista

• 02/02  – Webinar para tirar dúvidas sobre as inscrições no Open Research Fund, que oferece até 100 mil libras para projetos de pesquisa e ciência aberta na área de saúde. O evento ocorre também no dia 17/02 e o prazo para envio de propostas é em março.

• 04/02 – Prazo de inscrição na vaga temporária para jornalistas de dados interessados em atuarem na equipe do projeto CruzaGrafos.

• 04-07/02 – Acontece a Outlier 2021, a conferência online da Data Visualization Society.

• 05/02 – Prazo para solicitação de bolsa de subsídio para realização de eventos no Open Data Day 2021

• 06/02 – Inscrição para desenvolvedores no processo seletivo da Open Contracting Partnership, que visa construir uma ferramenta de conversão de dados de JSON para Excel/CSV.

• 08/02 – Encerramento das inscrições do programa de fellowship do Reuters Institute.

• 09/02 – Prazo para inscrição de reportagens no programa de fellowship do Dart Center, da Columbia University, com foco nos efeitos da pandemia sobre o crescimento, desenvolvimento e bem-estar das crianças.

• 10/02 – Inscrição na conferência de jornalismo de dados NICAR21, com o primeiro lote de inscrições (50 dólares mais barato).

• 12/02 – Pythonistas, está chegando o prazo para inscrever a apresentação de palestras, pôsteres e tutoriais na PyCon 2021.

• 15/02 –  Último dia para submissão de projetos de pesquisa sobre técnicas de manipulação em redes para o edital do InternetLab

• 15/02 – Data para submissão de artigos para o CyberBRICS sobre soberania digital.

• 16/02 – O One World Media Awards 2021 recebe inscrições para sua premiação de histórias pouco conhecidas sobre o sul global.

• 26/02 – Começam as oficinas do Programa de Jornalismo de Dados de Segurança Pública e Direitos Humanos, voltadas exclusivamente para comunicadores das periferias dos estados do sudeste. Para participar, é preciso se inscrever com antecedência.

• 26/02 – Último dia para submissão de propostas de workshops no 11° Fórum da Internet no Brasil.

• 28/02 – Prazo para proposição de apresentações na csv,conf,6

• 01/03 – Inscrições para a bolsa (fellowship) do Joan Shorenstein Center da Universidade de Harvard, que atua com mídia, política e políticas públicas.

No mundo dos dados

Notícias e discussões quentes

O maior vazamento de dados do Brasil: vai sair barato?

O maior vazamento de dados da história do Brasil aconteceu em janeiro de 2021 e atingiu mais de 220 milhões de brasileiros, entre vivos e mortos. As informações vazadas continham dados sensíveis, como endereços, salários, foto do rosto e scores de crédito, entre outros.

Tecnoblog fez uma lista completa dos diversos campos do conjunto de dados vazados, que podem ensejar uma onda de golpes, fraudes e violação da privacidade em escala sem precedentes.

Apesar de ser chamado de Serasa Experian e carregar dados relacionados à organização, a gigante do crédito brasileiro nega qualquer envolvimento. Outra hipótese é que os dados vazados sejam resultado também do cruzamento com outras fontes de dados, como conta o UOL. No The Intercept Brasil, Tatiana Dias mostrou como políticas governamentais recentes, como o Cadastro Positivo, tornaram possível a acumulação de dados nesta escala por certas empresas privadas.

A Agência Nacional de Proteção de Dados (ANPD) informou que está investigando o caso e irá sugerir medidas cabíveis de responsabilização.

A partir de agosto de 2021, quando entra em vigor, a lei de proteção dos dados pode embasar punições, mas estas são limitadas a um teto de R$ 50 milhões. Para colocar em perspectiva, no ano passado, a Serasa Experian declarou um lucro líquido de R$ 544 milhões.


Mudanças no governo federal 

Após uma reportagem do Métropoles sobre gastos do governo federal com itens alimentícios, que ganhou grande repercussão por conta dos altos valores associados às compras, o governo afirma ter encontrado erros nos dados disponibilizados no Portal de Compras e anunciou que fará mudanças no site. A diretora da Open Knowledge Brasil, Fernanda Campagnucci, explicou no Nexo como funciona o Portal da Transparência do Governo Federal.

Outra novidade vinda de Brasília foi a criação do Cadastro Base de Endereços, que pretende unificar registros como CEP e endereço de todo o país, e a decisão do Tribunal de Contas da União, que deixou de aceitar denúncias sobre o descumprimento da Lei de Acesso à Informação, como noticiou a agência Fiquem Sabendo.


Conduzindo investigações online com responsabilidade

Cada vez mais, jornalistas e pesquisadores independentes conduzem investigações online, seja sobre o conflito entre a Armênia e o Azerbaijão, a invasão da Casa Branca por extremistas apoiadores de Trump ou gastos do governo federal no Brasil, como a repercussão da notícia Metrópoles sobre as despesas da administração federal com alimentação, que ensejou o escrutínio do Portal de Transparência por diversas internautas.

As novidades não param. Apenas nas últimas semanas, por exemplo, a Anistia Internacional lançou um novo curso online sobre investigações sobre direitos humanos com fontes de informações abertas e o renomado investigador Paul Myers atualizou sua lista de links para pesquisas online.

Mas é preciso tomar cuidados. Antes de botar a boca no trombone, vale conferir o guia publicado pela MIT Technology Review, que ressalta preocupações importantes relacionadas a sua segurança, questões éticas e cuidados na hora de compartilhar informações de terceiros.


Twitter e o ecossistema dos dados descentralizados

No blog da Electronic Frontier Foundation (EFF), Cory Doctorow escreveu sobre o primeiro grande marco do projeto Blue Sky, lançado pelo CEO do Twitter em 2019.

A iniciativa busca uma maior descentralização dos dados em redes sociais, basicamente por meio de uma transição de um desenvolvimento focado em plataformas para outro – mais parecido com os primórdios da Internet – voltado para protocolos, em diálogo com o importante artigo ‘Protocols, Not Platforms: A Technological Approach to Free Speech’. O primeiro avanço público do Blue Sky foi esta revisão do ecossistema de tecnologias para a descentralização da Internet e dos dados online, publicada em janeiro de 2021.

Outros movimentos recentes relevantes do Twitter foram a criação do Academic Research e o Birdwatch. O Academic Research criou uma modalidade de acesso aos seus dados que traz vantagens – como acesso completo ao arquivo de mensagens – para usos acadêmicos e sem fins comerciais. Já o Birdwatch apresenta uma proposta colaborativa de combate à desinformação.


Dados e meio ambiente

Mongabay está recebendo propostas de trabalhos jornalísticos sobre meio ambiente e recursos naturais comuns. Para te inspirar, separamos algumas dicas recentes.

Se quiser caçar pautas, vale ficar de olho no Monitor de Atos Públicos e na Base de Atos do Executivo, disponíveis no site Política Por Inteiro.

Quantas às ferramentas, tem novidades no IJNet, que mostrou opções de ferramentas de geolocalização para investigar tráficos de vida selvagem, e no site do Datawrapper, com dicas para visualizar dados de mudança climática. Se quiser algo mais elaborado, tem o webinar da Radiant Earth de dezembro, que falou sobre aplicações de aprendizagem de máquina para análise de imagens de satélite e contenção às mudanças climáticas.

Outra inspiração pode ser este relato da equipe do The Guardian, que contou sobre a parceria entre desenvolvedores e jornalistas durante uma investigação sobre o lobby da indústria de combustível fóssil, analisando dados de anúncios no Facebook com o Elasticsearch.


Racismo e algoritmos

Alguns conteúdos breves sobre racismo algorítmico foram ao ar em janeiro. Em português, o Uol Tilt publicou uma matéria introdutória sobre as questões envolvendo o tema e, em inglês, o já citado pesquisador Cory Doctorow compartilhou em seu blog pessoal uma crítica a pesquisadores de inteligência artificial como Michal Kosinski, famoso por seu envolvimento no escândalo da Cambridge Analytica, que buscam correlacionar características físicas ou pessoais com traços comportamentais. Segundo Doctorow, esta prática assemelha-se a uma atualização da frenologia, uma prática pseudocientífica histórica com fins discriminatórios.

Saiba mais

Para aprender mais e aprender sempre

Modelagem de Big Data e o poder do “small data”

Os materiais da disciplina de Introdução à Modelagem de Big Data, do curso de graduação em Estatística da UFRN foram disponibilizados online. O site traz vídeos, slides, códigos e outros recursos em português.

Já Delphine Reuter compartilhou no site do Consórcio Internacional de Jornalistas Investigativos um post sobre como grandes aprendizados foram possíveis a partir de um volume baixo de dados, durante as investigações do FinCEN Files, que se debruçou sobre o papel dos grandes bancos globais nos mecanismos de lavagem de dinheiro.

***

Análise de dados, algoritmos e jornalismo no Brasil

Novidade importante para jornalistas e pesquisadores que trabalham com temas relacionados à saúde, educação, emprego e desemprego, violência, pobreza e desigualdade no Brasil. Foi lançado em janeiro o livro digital e gratuito ‘Guia brasileiro de análise de dados’, que reúne 11 especialistas, que mostram atalhos, roteiros e indicam os erros mais comuns ao lidar com os dados estatísticos brasileiros Confira o livro e o lançamento no YouTube. Jornalistas e pesquisadores também podem se interessar pela edição de dezembro da Brazilian Journalism Research (BJR), dedicada ao tema de jornalismo e algoritmos.

***

AprendeR mais

Para a turma do R: o pessoal da Base dos Dados fez um workshop no YouTube mostrando como criar análises com poucas linhas de código, usando os dados da plataforma, e este post mostrou como ler tabelas em imagens usando o pacote magickr. E tem mais, direto da RLadies Johannesburg: uma apresentação sobre códigos criativos e arte usando a biblioteca ggplot.

***

Dataviz, para organizações e na pandemia

Novos conteúdos sobre visualização de dados em organizações circularam nas redes, em português e em inglês. Ricardo Brazileiro escreveu sobre o papel da visualização de dados no processo de digitalização das empresas e indústrias no Brasil e Taylor Riggs falou sobre a abordagem inovadora da startup SynGlyphX para a visualização de dados corporativos. Já o pesquisador Massimo Conte traz um interessante passo a passo para elaborar visualizações, à luz da complexidade.

O SynGlyphX faz de cada linha de um conjunto de dados um objeto em um espaço tridimensional. Fonte: Nightingale/SynGlyhpX

Já o Flourish traz um tutorial mostrando como criar gráficos de linha animados na plataforma, podendo representar, por exemplo, a evolução de casos da Covid-19 ao longo de um período. Já quem preferir soluções menos “frias” e usuais para abordar a pandemia, pode se inspirar com este post no Nightingale, que trata da visualização de dados como luto.

A view on despair’ traz dados sobre suicídio representados por meio de elementos em uma paisagem. O trabalho foi um dos destaques do texto no blog Nightingale. Fonte: ‘A view on despair’ por Sonja Kuijpers

Snippets

Dicas curtas e certeiras sobre o trabalho com dados

Para desenvolvedores em Python, vale a pena conferir esta lista dos melhores projetos de aprendizagem de máquina, atualizada semanalmente.

Mais listas: foi publicada a já tradicional lista das listas de visualização de dados, compilada por Maarten Lambrechts sobre 2020. É a sexta edição da listagem anual, que começou em 2015.

A Open Knowledge Foundation busca usuários do Frictionless Data para sessões remuneradas de feedbacks, para ajudar no desenvolvimento da ferramenta.

Dá licença? Se você já ficou na dúvida sobre qual licença é mais adequada para os dados que vai publicar, o Public License Selector pode te ajudar.

Este artigo recém-publicado mostrou como os dados do Airbnb podem ser utilizados em estudos de processos de gentrificação.

Outro artigo também lançado em janeiro propôs uma taxonomia para os ecossistemas de dados abertos.

Já este post traz um tutorial para trabalhar com dados geográficos de densidade populacional compilados pelo Facebook.

A cientista de dados Jéssica Voigt compartilhou um código em Python e um post sobre a estruturação de leis brasileiras como dados.

No blog do JetBrains, Alena Guzharina contou o que eles aprenderam após rasparem e analisarem 10 milhões de arquivos do Jupyter Notebook do Github.

Participante de nosso programa de membresia e instrutor do curso Dados 360, Fernando Barbalho compartilhou um post com uma análise sobre agrupamentos (clusterização) de municípios.

Mike Tung falou sobre o hype dos grafos de conhecimento e a importância de se pensar um fluxo de trabalho para esta estruturação de dados, mais do que a mera adoção de tecnologias como RDF.

A hacker que raspou todo conteúdo da rede social da extrema-direita Parler explicou à Vice como ela fez isso.

Inspira

Trabalhos e iniciativas inovadoras para te inspirar

Responsável por visualizar dados de 30 anos de atividade do telescópio Hubble, a astrônoma Nadieh Bremer compartilhou com o site Shaping Design o processo de criação deste trabalho para a revista Physics Today. Além disso, contou também sobre outros feitos relevantes na área de visualização de dados, como o Beautiful in English, em parceria com o Google, e o livro Data Sketches, feito em colaboração com Shirley Wu, que será lançado em 2021.

Três décadas de dados do Hubble em uma única visualização.

No texto, Nadieh conta sobre as tecnologias utilizadas (como o D3, HTML5 Canvas, three.js e GSAP) e também sobre sua dinâmica de trabalho, que pode até começar com rascunhos em papel, mas demanda mesmo é horas e horas de trabalho para afinar o design, já diretamente com os dados.

“A razão pela qual eu só crio rascunhos muito aproximados no início é porque a visualização de dados só se mantém de pé ou cai, de acordo com os próprios dados. […] Você pode ter uma ótima ideia, mas quando você conecta os dados, às vezes, não funciona de jeito nenhum, por causa de casos extremos [outliers] nos dados ou outras peculiaridades”, afirmou.

Update

Atualize-se com as novidades de softwares e bases de dados

A Escola Nacional de Administração Pública (ENAP) publicou os dados abertos utilizados para a construção do Índice de Cidades Empreendedoras em 2020.

O site Whatismyname.app agora permite buscar por nomes de usuário em mais de 280 sites ao mesmo tempo.

E o CruzaGrafos passou a permitir investigações de empresas cadastradas na Receita e políticos desde o ano de 2014.

O cientista político Fernando Hidalgo disponibilizou um conjunto de dados com geocoordenadas para seções eleitorais brasileiras.

No Kaggle, Patrick Gomes publicou dados sobre a performance de empresas farmacêuticas na bolsa de valores em 2020.

A nova versão do RStudio (1.4) trouxe melhorias no R Markdown e na sua integração com Python, permitindo inclusive a visualização de data frames da linguagem direto em seus painéis.

Por falar nisso, uma ferramenta em R para criar sites a partir de documentos com markdown, o blogdown, chegou a sua versão 1.0.

O R conta também com uma nova versão da biblioteca qualtRics, que permite trabalhar com a plataforma de survey online Qualtrics. A versão traz melhorias na documentação, API e correção de bugs.

Usuários do JupyterLab podem conferir novas versões do ipygany, para analisar malhas 3d, e um tutorial sobre a criação de dashboards com o Voilà.

O TensorFlow publicou a versão 0.1.0 do TFLite Support, voltado para desenvolvimento de aplicações de aprendizagem de máquina em dispositivos móveis.


Sugestões? Envie um e-mail para escoladedados@ok.org.br.