*Este conteúdo integra o acervo de Boletins de Dados, nossos informativos mensais sobre as principais novidades e oportunidades relacionadas ao trabalho com dados. Para acessar as edições mais recentes reunidas na seção exclusiva e receber a próxima edição em sua caixa de entrada, junte-se ao nosso programa de membresia e apoie nosso trabalho.

Novembro/2020

Olá,

Em novembro, realizamos a quinta Conferência de Jornalismo de Dados e Métodos Digitais, o Coda.Br 2020, e você já pode conferir os 16 workshops desta edição, além dos painéis, keynotes e outros materiais disponíveis. Para ver os vídeos dos workshops, basta fazer seu login e acessar a página do evento acima.

O encontro contou com 500 participantes inscritos, de praticamente todos os estados brasileiros, além de muitas outras pessoas que acompanharam as atividades abertas. Se você participou, fica aqui nosso agradecimento e, se não, deixamos o convite para você conferir os debates e workshops da programação do Coda.Br 2020.

Ah, com o recesso de fim de ano, o próximo boletim não será enviado no fim do mês. Mas não se preocupe: até o dia 10 de janeiro ele estará na sua caixa de entrada.

Aliás, esperamos seguir com você lado a lado ao longo do próximo ano 🙂

Tenha uma boa leitura, um excelente fim de ano e até 2021!

Adriano Belisário

Coordenador da Escola de Dados

AGENDA

Oportunidades e prazos para não perder de vista

 8-10/12 – O Universe 2020 é um evento organizado pelo Github para desenvolvedores, pesquisadores e empresas explorarem o futuro dos softwares.

• 15/12 – A cidade de Madrid promove o desafio global Greemta Challenge para estimular trabalhos baseados em dados sobre sustentabilidade.

• 15/12 – A Base dos Dados contrata engenheiro de dados em contrato de meio período.

• 18/12 – O Donald W. Reynolds Journalism Institute oferece bolsas para ideias inovadoras que melhorem a prática ou compreensão do jornalismo.

•  20/12 – Jornalistas da América do Sul podem se inscrever para bolsa do Pulitzer Center para cobrir o desmatamento da Amazônia.

• 04-08/01/2021 – A Métodos Digitais Winter School e Data Sprint 2021 será online e ainda é possível se inscrever para participar.

• 01/02/2020 – Inscrições abertas para a maior premiação internacional de jornalismo de dados, o Sigma Awards.

• 28/02 – A Universidade da Europa Central, na Áustria, tem vagas abertas para PhD na área de ciência de redes e ciência de dados.

NO MUNDO DOS DADOS

Notícias e discussões quentes

Dito e feito

Do nosso último Boletim de Dados, a partir do relatório State of AI: “Entre as previsões para os próximos 12 meses, os investidores apontam para uma grande descoberta do DeepMind (empresa do Google/Alphabet) na área de biologia estrutural, por meio da predição da estrutura de proteínas por exemplo, e da descoberta de remédios”.

Não demorou muito. Ontem, 30 de novembro de 2020, pesquisadores do DeepMind anunciaram que a última versão do sistema AlphaFold conseguiu resolver um problema de mais de cinco décadas na biologia, relacionado às estruturas proteicas, que é essencial para a compreensão do desenvolvimento da vida e pode transformar a indústria farmacêutica. Há quem diga inclusive que este é o primeiro uso de inteligência artificial para resolver um problema sério, de acordo com o MIT Technology Review.

Para uma explicação didática do AlphaFold e o problema de enovelamento das proteínas (protein folding), confira o vídeo feito pela equipe do DeepMind.


Abusos e vieses

Ao mesmo tempo em que podem ser utilizadas para boas causas, como as aplicações para combater o desmatamento na Amazônia, as técnicas de inteligência artificial também podem ser empregadas para finalidades nada nobres. Foi publicado recentemente um relatório sobre usos criminosos da inteligência artificial em áreas diversas, como programas para quebrar senhas, bots capazes de enganar muita gente, com práticas de engenharia social em larga escala, além de outras aplicações mais conhecidas, como a elaboração de registros falsos de vídeo ou vozes (deep fakes) e a criação de vírus. O documento ‘Malicious Uses and Abuses of Artificial Intelligence’ foi elaborado pelas Nações Unidas com a Europol e outras organizações.

Além disso, há preocupação com usos de IA mesmo em aplicações que não são criminosas por definição, mas cujos usos podem ser bastante danosos, especialmente para grupos minoritários. A Nature fez uma pesquisa com 500 pesquisadores de tecnologias de reconhecimento facial e mostrou que 70% considera que utilizá-las com tais grupos pode ser eticamente questionável, mesmo se houver consentimento informado das pessoas envolvidas. Por aqui, o tema de racismo algorítmico foi pauta de um debate no canal Direitos na Rede.


Lei anti-hacking nos EUA e governança dos dados na Europa

A Suprema Corte dos Estados Unidos analisa novamente sua principal lei anti-hacking, o Computer Fraud and Abuse Act. O CFAA é uma legislação criada em 1986, cujas interpretações restritivas no contexto atual podem ter impactos significativos em diversas atividades online, inclusive na prática de raspagem de dados.

Vale lembrar que foi com base nesta lei que Aaron Swartz foi processado por raspar artigos acadêmicos da base de dados JSTOR. Porém, mesmo sem infrações de copyright, atividades mais simples de jornalismo de dados e pesquisa online podem ficar em xeque. O The Markup registrou um documento como amicus curiae, defendendo a liberdade de raspar dados com base na primeira emenda da constituição americana, e endossa a campanha ‘Scraping is not a crime’. Em 2019, fizemos um breve post sobre este debate no blog da Escola de Dados.

Enquanto isso, a União Europeia discute novos protocolos de governança para os dados de seus países. A European Comission propôs medidas para impulsionar o compartilhamento de dados entre os países, beneficiando governo, cidadãos e empresas. Entre as medidas, está a facilitação da reutilização de certos dados obtidos para o poder público, em temas específicos.

SAIBA MAIS

Para aprender mais e aprender sempre

Três vezes analytics e a terceira onda dos dados abertos

Novembro trouxe à tona diversos conteúdos especializados para pessoas interessadas em análise de dados. No YouTube, a cientista de dados Amanda Ferraboli falou sobre análise de dados geográficos (geoanalytics) no canal da comunidade AI Girls e Sabrina Vasconcelos tratou de ‘people analytics’ no canal da RLadies São Paulo, explicando como utilizar análise de dados na área de recursos humanos.

Já a Fundação Annie E. Casey publicou um relatório com quatro princípios para trabalhar com análise de dados sobre crianças e famílias. São eles: expanda as oportunidades; proporcione transparência e evidências; empodere comunidades e promova resultados justos. Princípios próximos do que o Open Data Policy Lab chamou de “terceira onda dos dados abertos” em um relatório recente. Este movimento se caracterizaria pela utilização de dados para fins de interesse público, garantindo direitos e fortalecendo comunidades.

***

Desinformação e manipulação midiática

The Media Manipulation Casebook é um plataforma de pesquisa digital que reúne teoria, métodos e casos práticos para entender ações de manipulação midiática e campanhas de desinformação. Vale a pena conferir a seção de definições, que traz um extenso glossário e táticas mais comuns.

***

Visão periférica

O professor de ciências cognitivas Ruth Rosenholtz (MIT) e sua equipe desenvolveram um programa capaz de “simular” o processamento visual de nosso cérebro, no que diz respeito à visão periférica. A imagem abaixo traz uma simulação desta, a partir da interface do Gmail, tendo como foco central a aba de escrita de emails (localizada à direita). A publicação na Rockcontent traz alguns insights interessantes sobre design da informação e infográficos, mas vale a pena ser conferida também por quem trabalha com visualização de dados.

No caso desta imagem, o objetivo dos pesquisadores era mostrar como não é possível ver a aba do chat do Gmail (localizada à esquerda) usando apenas a visão periférica.

SNIPPETS

Dicas curtas e certeiras sobre o trabalho com dados

A conferência sobre jornalismo computacional da Northwestern University (CJ2021) abriu um chamado para participação na próxima edição, que será online.

***

A gestora de recursos JGP contrata cientista e engenheiro de dados, incluindo uma vaga para estágio.

***

O desenvolvedor Simon Willison deu dicas de como fazer seu próprio data warehouse.

***

O site Towards Data Science publicou um tutorial sobre predição de séries temporais usando dois robustos frameworks para trabalhar com dados (Metaflow do Netflix e o Prophet do Facebook).

***

Outro post interessante do blog foi este tutorial sobre como utilizar modelos em 3d no QGIS.

***

Já o World Mapper explorou o uso de cartogramas para mostrar resultados das eleições dos EUA.

***

Colaborador da Escola de Dados, Álvaro Justen (Turicas) deu entrevista para o podcast CTRL ENTER, falando sobre liberação de dados.

***

E a Deutsche Welle noticiou que a plataforma de dados abertos Brasil.IO precisa de voluntários.

***

O canal do UNStats publicou uma apresentação sobre como contar histórias usando dados de desenvolvimento sustentável.

***

Realizado pela Associação Contas Abertas em parceria com o Knight Center, o curso ‘No rastro digital do dinheiro público: Como fiscalizar gastos da União, Estados e Municípios’ agora está com acesso aberto.

INSPIRA

Trabalhos e iniciativas inovadoras para te inspirar 

Noisy City traz uma visualização de dados sobre a poluição sonora da cidade de Bruxelas (Bélgica), que além de ser ilustrada por um mapa de calor também é representada sonoramente. À medida que você passa o mouse pelo mapa, são alterados os decibéis de uma paisagem sonora, que é tocada na plataforma.

O site em si é bastante simples e experimental, quase um protótipo, mas destaca-se principalmente por representar simultaneamente os dados de forma visual e sonora. É um mapa audível. Para mais detalhes, confira o post do autor Karim Douïeb no Twitter.

UPDATE

Atualize-se com as novidades de softwares e bancos de dados

Banco Mundial publicou dados inéditos sobre países credores de dívidas internacionais e explica como acessar as informações, em Python e R.

***

A ABRAJI lançou abertamente a plataforma Cruzagrafos, que permite explorar dados abertos brasileiros por meio de grafos. Muito útil para investigações!

***

Lançado há poucos meses, o Netzscheleuder é uma plataforma online que traz um catálogo de dados de redes/grafos.

***

Deepnote também foi aberto para todos. A ferramenta permite criar notebooks voltados especialmente para a área de ciência de dados.

***

Em novembro, foi publicado o modelo de inteligência artificial do Semantic Scholar, que consegue resumir artigos científicos.

***

Novidades pra rodar direto do navegador: o Cartogrid permite baixar grades territoriais em GeoJSON para várias unidades administrativas e o Mr. Scale Maker facilita a criação de escalas numéricas.

***

No mundo do R: agora, a linguagem conta com um pacote para acessar dados da rede social Tik Tok. Conheça o tiktokr.

***

Ainda em R: Famosa pelo seu operador (pipe) %>%, a biblioteca magrittr chegou a sua versão 2.0; o textrecipe – para processar textos – alcançou a 0.4.

***

E Renata Hirota disponibilizou o pacote eleicoesmun2020, também em R, para acessar dados das eleições municipais de 2020.

***

Também tem scripts para explorar os planos de governo das eleições municipais de 2020, no repositório de Augusto Herrmann e da Transparência Brasil.


Ficou algo de fora? Envie sugestões e dicas para [email protected].