*Este conteúdo integra o acervo de Boletins de Dados, nossos informativos mensais sobre as principais novidades e oportunidades relacionadas ao trabalho com dados. Para acessar as edições mais recentes reunidas na seção exclusiva e receber a próxima edição em sua caixa de entrada, junte-se ao nosso programa de membresia e apoie nosso trabalho.

Outubro/2020

Olá,

Esta é uma edição especial do Boletim de Dados.

Faltam poucos dias para o início da quinta edição da nossa Conferência Brasileira de Jornalismo de Dados e Métodos Digitais, o Coda.Br 2020. Neste Boletim, além das principais novidades do mês, veremos também alguns destaques da programação do evento, que será 100% online pela primeira vez. Como participante do nosso programa de membresia, você já tem acesso completo a toda programação.

Para acessar o Coda.Br, use seu login em nosso site e selecione na programação do evento a atividade do seu interesse.

Lá, você verá o link para a transmissão ao vivo no Zoom (workshops) ou no YouTube (painéis e keynotes), bem como informações prévias que vão te ajudar a se preparar para a atividade.

Com o mesmo login, você pode entrar no canal (chat) do Coda.Br 2020, um espaço de interação entre participantes e pessoas convidadas. Para começar, que tal se apresentar e comentar um pouco sobre seus interesses?

E, caso você tenha algo para compartilhar, inscreva-se até domingo para participar das lighting talks, apresentações-relâmpago de iniciativas inspiradoras, que vão ocorrer no dia 07/11. (O acesso às seções exclusivas é restrito a participantes de nosso programa de membresia.)

Tenha uma boa leitura e nos vemos no Coda.Br!

Adriano Belisário
Coordenador da Escola de Dados

AGENDA

Oportunidades e prazos para não perder de vista

• 01/11 – Fim do prazo para inscrições nas Lightning Talks no Coda.Br 2020.

• 2-7/11 – Acontece o Coda.Br 2020, a nossa Conferência de Jornalismo de Dados e Métodos Digitais.

• 2-8/11 – Python Brasil 2020 traz diversos workshops e apresentações sobre a linguagem.

• 4/11 – A UNESCO tem 3 vagas para profissionais com experiência em catalogação e publicação de dados abertos.

• 5-24/11 – Dados contra feminicídios é uma série de atividades promovidas por organizações latino-americanas contra violência de gênero.

• 30/11 – Inscrições no Women’s Leadership Accelerator, que apoia mulheres no jornalismo digital.

• 1/12 – Prazo da Universidade de Harvard para inscrições na bolsa Nieman-Berkman Klein em Inovação em Jornalismo.

• 8-10/12 – O Universe 2020 é um evento organizado pelo Github para desenvolvedores, pesquisadores e empresas explorarem o futuro dos softwares.

NO MUNDO DOS DADOS

Notícias e discussões quentes

Inteligência Artificial

Pelo terceiro ano consecutivo, a dupla de investidores Nathan Benaich e Ian Hogarth lançaram o relatório ‘State of AI’. A publicação traz alguns dos desenvolvimentos recentes da Inteligência Artificial (IA) no mundo.

Segundo dados apresentados, apenas 15% dos papers da área publicam o código e uma das áreas mais “quentes” da IA, o Processamento de Linguagem Natural, exige custos milionários para que se alcance o “estado da arte” da tecnologia. É o caso do GPT-3 da OpenAI, destacado em nossos boletins anteriores. A estimativa é de que o custo para o treinamento do algoritmo chegou a 10 milhões de dólares.

O relatório também aborda avanços da IA na biologia e medicina. No Coda.Br, o tema também estará presente: os usos das tecnologias de IA no jornalismo será tema de um workshop do evento.

Entre as previsões para os próximos 12 meses, os investidores apontam para uma grande descoberta do DeepMind (empresa do Google/Alphabet) na área de biologia estrutural, por meio da predição da estrutura de proteínas por exemplo, e da descoberta de remédios.

O relatório também apresenta as estratégias nacionalistas para manter autonomia sobre estas tecnologias, dando exemplos de países como os Estados Unidos e a China, que trabalha com a descentralização das políticas de IA para o nível municipal.

O mapa acima é do Observatory of Public Sector Innovation e traz um resumo dos países com estratégias nacionais de inteligência artificial.


Valendo! Justiça já aplica multas baseadas na LGPD

Em outubro, a Justiça de São Paulo realizou a primeira penalização do país com base na Lei Geral de Proteção de Dados. De acordo com reportagem no The Hack, “quem comprava um imóvel da construtora [Cyrela] era importunado por ligações de parceiros oferecendo mobília planejada e afins”.

A adequação a esta nova norma será abordada no workshop ‘Anonimização, veracidade dos dados e LGPD’, que ocorre na próxima terça no Coda.Br 2020.

E o Jota publicou um texto de Bianca Kremer sobre a necessidade de racializar os debates sobre proteção de dados no contexto da LGPD: “os conceitos de ‘privacidade’, ‘autonomia’, ‘autodeterminação informativa’ e até mesmo ‘consentimento’ não se dão nos mesmos termos entre a população branca e a população não-branca no Brasil”.


Limitações do Excel causam problemas nos dados britânicos da Covid-19

Via BBC: Cerca de 16 mil casos de Covid-19 ficaram temporariamente fora do radar de autoridades britânicas, após uma limitação do formato de arquivo do Excel passar despercebida e causar o “desaparecimento” dos registros. O governo britânico recebia os dados de clínicas em CSV, mas os consolidava no formato XLS, que tem limite de 65 mil linhas. Após o limite ser atingido, as novas entradas foram ignoradas.

Em tempo: o novo formato do Excel (XLSX) suporta mais de 1 milhão de linhas, mas o CSV é o padrão aberto – e não tem esta limitação.


Algoritmos em debate

Em outubro, o documentário ‘Dilema das Redes’ (Netflix) seguiu provocando debates sobre algoritmos e o uso da tecnologia atualmente. A Mozilla apontou algumas omissões importantes do filme e a pesquisadora Carla Vieira publicou um vídeo resumindo algumas das principais críticas do filme no canal E AI, Carla? e trazendo sugestões de outras referências sobre o tema, como o documentário ‘Coded Bias’.

No Coda.Br 2020, teremos um painel para debater algoritmos e desigualdades, com a participação de Sil Bahia (Pretalab), Catherine D’Ignazio (MIT/Data Feminism), Nick Diakopoulos (Northwestern University), Joana Varon (Coding Rights).


Investigações digitais, protestos e George Floyd

Os grupos Bellingcat e Forensic Architecture publicaram em outubro um mapeamento de evidências de violência policial nos Estados Unidos durante os protestos após a morte de George Floyd em 2020. O trabalho ‘Police Brutality at the Black Lives Matter protests’ será apresentado no workshop sobre investigação digital com fontes abertas do Coda.Br 2020 por Giancarlo Fiorella, do Bellingcat. Os participantes poderão compreender como o trabalho foi realizado e como levantamentos semelhantes podem ser feitos. Eliot Higgins, fundador do Bellingcat, também fará uma apresentação especial (keynote) no evento.

Aliás, o Washington Post também publicou uma reconstrução dos sete dias de protestos em Minneapolis após a morte de George Floyd, utilizando técnicas bastante parecidas com vídeos e conteúdos compartilhados por usuários na Internet.

SAIBA MAIS

Para aprender mais e aprender sempre

Dados geográficos e amostragens

Outubro rendeu boas publicações sobre dados geográficos no QGIS e amostragem na linguagem R. Pedro Luis do Nascimento, Zélia Bianchini e o Antonio José Ribeiro Dias publicaram o livro “Amostragem: Teoria e Prática Usando R”, disponível aberta e gratuitamente. Ele pressupõe algum conhecimento de estatística, mas apresenta conceitos básicos de amostragem e certas técnicas, como a amostragem estratificada, de forma simples e  didática.

Já o site Clickgeo lançou o ebook ‘Explorando o QGIS 3.x’, que apresenta fundamentos desta ferramenta e de dados geográficos, trazendo explicações sobre aplicação em geoestatística, no meio ambiente e gerenciamento de áreas florestais. No Coda, teremos um workshop sobre análise de dados socioeconômicos com esta ferramenta.

***

Abertura de dados

Boas referências sobre dados abertos também foram publicadas recentemente, em português e inglês. Por aqui, foi lançado o Modelo de Referência para Abertura de Dados. O documento foi elaborado por várias organizações, incluindo a Open Knowledge Brasil, que consolida referências, tecnologias e boas práticas na publicação de dados abertos.

Internacionalmente, vale conferir o livro ‘Situating Open Data’, que traz estudos de casos de experiências interessantes em diversos países. Pesquisadores brasileiros participam com uma proposta de framework para análise de ecossistemas de dados abertos.

SNIPPETS

Dicas curtas e certeiras sobre o trabalho com dados

“Eu desenho sobre eles para mostrar que os dados nem sempre são precisos. As linhas não são completamente retas para mostrar que há uma margem de erro em todos conjuntos de dados”. Editora de dados do The Guardian, Mona Chalabi falou sobre seu processo criativo para a revista Fast Company.

***

Contrata-se: o YouTubeSpotify e o Twitter estão com vagas abertas para profissionais brasileiros.

***

O Querido Diário está promovendo um censo dos Diários Oficiais municipais do Brasil – e o Coda.Br traz um workshop do projeto sobre como tornar os Diários Oficiais brasileiros mais acessíveis.

***

Tesouro Nacional disponibilizou uma apresentação sobre o acesso a dados de finanças públicas dos municípios.

***

E o NIC.Br fez o webinar ‘Dados, Inovação e Produção Estatística durante a Pandemia COVID-19’.

***

Professora de economia na Brown University, Emily Oster mantém a ParentData, uma newsletter sobre gravidez e dados parentais.

***

Analisando dados de 65 sites diferentes, um paper publicado no The International Journal of Press/Politics mostrou a existência de uma rede de hiperlinks entre sites de notícias identificados com a direita, nos Estados Unidos e em países da Europa.

***

Rede Europeia de Jornalismo de Dados organizou todos seus principais recursos em uma única página.

***

Com dúvidas sobre como organizar seus dados? O blog OpenScapes publicou uma série ilustrada sobre o conceito de “tidy data”.

Ilustração do blog Openscapes no texto ‘Tidy Data for reproducibility, efficiency, and collaboration’, de por Julia Lowndes and Allison Horst.

INSPIRA

Trabalhos e iniciativas inovadoras para te inspirar 

Nesta edição, destacamos os 12 projetos finalistas da segunda edição do Prêmio Cláudio Weber Abramo de Jornalismo de Dados. A cerimônia de anúncio dos ganhadores acontece no dia 7 de novembro às 19h, com transmissão ao vivo no canal da Escola de Dados no YouTube.

A categoria com mais inscritos foi a de ‘Investigação’, que tem como finalista um trabalho do G1 sobre compras públicas de respiradores durante a pandemia, outro da Repórter Brasil sobre as áreas de impacto das barragens da Vale em Minas Gerais e uma reportagem da Época sobre violência  policial no Rio de Janeiro.

Na categoria ‘Inovação’, temos 3 projetos de monitoramento social: o Elas no Congresso monitora pautas de gênero no âmbito legislativo, o Radar Aos Fatos acompanha a desinformação nas redes e o Amazônia Minada detecta requerimentos de mineração em áreas protegidas.

Já na categoria ‘Dados Abertos’, os destaques são a abertura de dados dos pensionistas pelo Fiquem Sabendo, uma reportagem do The Intercept sobre venda de sentenças e o projeto Correio nas Escolas sobre educação no Distrito Federal.

E, na categoria de visualização de dados, temos dois projetos relacionados à Covid-19, um especial do Nexo e outro do InfoAmazônia sobre populações indígenas, além de um trabalho do Estadão sobre alagamentos em São Paulo.

UPDATE

Atualize-se com as novidades de softwares e bancos de dados

O Google lançou o Journalist Studio, uma coleção de ferramentas para facilitar o trabalho de jornalistas, como o Pinpoint, que utiliza inteligência artificial para analisar grandes coleções de documentos.

***

Datawrapper agora permite criar tabelas com “mapas de calor”.

***

Augusto Baptista publicou um tutorial sobre como instalar e configurar o CKAN 2.9.0 usando o Docker

***

O IBGE lançou a Base de Faces de Logradouros 2019, uma representação digital do arruamento urbano dos municípios do país, com detalhamentos de quarteirões, ruas e praças.

***

E o site Base dos Dados publicou um conjunto de dados de Áreas Mínimas Comparáveis (AMC) dos municípios de 1872 a 2010.


Ficou algo de fora? Envie sugestões e dicas para [email protected].