Outubro/2021

Olá,

Novembro está chegando e com ele mais uma edição da Conferência de Jornalismo de Dados e Métodos Digitais. A programação completa de workshops, painéis e apresentações principais do Coda.Br já está disponível e, como participante do programa de membresia, você terá acesso completo ao evento.

Para divulgar a conferência para colegas de trabalho ou pessoas conhecidas, você pode compartilhar a chamada pública para as bolsas de gratuidade. Graças ao apoio de nossos parceiros, iremos oferecer 295 vagas para fortalecer a diversidade do evento.

No mais, em novembro, realizaremos o curso ‘Publicadores: proteção de dados pessoais’ e preparemos mais um ebook inédito, baseado no curso de análise de dados educacionais, que também terá uma nova turma, exclusiva para servidores de Tribunais de Contas.

Achou pouco? Temos outras novidades: já está disponível uma prévia de um currículo super completo sobre o uso de QGIS e dados geográficos, que adaptamos para o português. E mês passado também lançamos um guia para checar e blindar seus dados, bem como nosso tutorial sobre raspadores de publicações do Diário Oficial.

O ano está quase acabando, mas temos ainda mais lançamentos para anunciar. Você não perde por esperar!

Enquanto isso, veja abaixo nossos destaques com notícias importantes e novidades para quem trabalha com dados, no Boletim de Dados de outubro.

Boa leitura!

Adriano Belisario
Coordenador da Escola de Dados

AGENDA

Oportunidades e prazos para não perder de vista


• 03/11 – Último dia da chamada de candidaturas para as bolsas de gratuidade para a Conferência de Jornalismo de Dados e Métodos Digitais (Coda.Br 2021).

• 03/11 – Prazo final de inscrições na segunda turma do curso Monitoramento e investigação de conteúdos digitais, realizado pela Associação Brasileira de Jornalismo Investigativo (Abraji).

• 04/11 – Encerramento das inscrições de propostas sobre o funcionamento de sistemas de inteligência artificial para o Mozilla Technology Fund, que distribuirá prêmios de até 50 mil dólares.

• 05/11 – Primeiro dia da conferência inédita PyCon Chile. A programação conta com atividades ao longo de 3 dias e o ingresso é gratuito.

• 08/11 – Início da Conferência de Jornalismo de Dados e Métodos Digitais – Coda.Br 2021. Às 9h, teremos os primeiros workshops do evento e, às 19h, a primeira atividade com transmissão aberta, com o diretor de gestão de produtos do Google Jim Albrecht.

• 09/11 – Às 19h, será transmitido o painel LAI em tempos de LGPD, do Coda.Br.

• 10/11 – Às 19h, Gurman Bhatia apresenta o keynote Levando o poder da visualização de dados para todos, no Coda.Br.

• 11/11 – Às 16h, acontece o painel Jornalismo de dados no mundo, com lançamento da publicação “The Data Journalism Handbook: Towards a Critical Data Practice” em português, no Coda.Br.

• 12/11 – Às 19h, acontece o painel sobre cobertura da crise climática no jornalismo de dados, do Coda.Br.

• 13/11 – Último dia do Coda.Br. Às 14h, Sondre Solstad (The Economist) apresenta o keynote Machine learning no jornalismo de dados. De noite, a cerimônia de entrega do prêmio Cláudio Weber Abramo de Jornalismo de Dados.

• 15/11 – Último dia para participar do concurso RStudio Table Contest de 2021, que selecionará tabelas e tutoriais compartilhados com a comunidade.

• 16/11 – Início do curso Análise de Ações utilizando Inteligência Artificial, realizado pela Universidade Federal de Uberlândia.

• 16/11 – Abertura do curso Publicadores: Proteção de Dados Pessoais. A aula inaugural aberta ao público será transmitida pelo canal da Escola de Dados no YouTube.

• 16/11 – Último dia para envio de propostas para o Edital 1738/2021 para reestruturação do Portal Brasileiro de Dados Abertos, promovido pela Controladoria-Geral da União (CGU) e a Organização das Nações Unidas para a Educação, a Ciência e a Cultura (Unesco).

• 17/11 – Lançamento do ebook “Emergência dos dados: Como o Índice de Transparência da Covid-19 impulsionou a abertura de dados da pandemia no Brasil”, da Open Knowledge Brasil.

• 21/11 – Prazo de inscrições para o DiversiTera, programa da XP Inc que distribuirá 50 bolsas integrais para o curso online de Ciência de Dados a grupos de pessoas sub-representadas na área de tecnologia.

• 25/11 – Workshop Building Data Science Collaborations between the UK and Brazil, promovido pela London School of Economics and Political Science.

NO MUNDO DOS DADOS

Notícias e discussões quentes


Pandora papers, um vazamento de 2,9 TB

Sob a batuta do International Consortium of Investigative Journalists (ICIJ), mais uma vez, diversas redações se debruçaram sobre um material inédito. As informações do Pandora Papers sobre as operações em paraísos fiscais eram pesadas, literal e politicamente. Para fins comparativos, o antigo Panama Papers contava com 2,6 terabytes de dados de uma única fonte (a extinta Mossack Fonseca). Já este novo vazamento vem de 14 organizações diferentes e chegou à marca de 2,9 terabytes, sendo que apenas 4% eram dados já estruturados em tabelas ou bancos de dados.

Para organizar todas as informações foi preciso três coisas, segundo a postagem do ICIJ com os detalhes técnicos da investigação: jornalistas, tecnologia e tempo. A equipe – que passa de 600 profissionais de 150 veículos envolvidos mundo afora – precisou de mais de um ano para dar conta de processar e apurar toda informação. Na tecnologia, o ICIJ usou Python para automatizar as tarefas de extração e estruturação dos dados. Nos casos mais cabeludos, foram usados pacotes como o Scikit-Learn e o Fondeur.

Os efeitos desta avalanche de dados foram sentidos no Brasil. Chacoalhou o mundo político em especial, com a revelação de que o ministro da Economia, Paulo Guedes, criou (e mantém) uma conta em um paraíso fiscal no Caribe.

As entranhas abertas do Facebook

Outro vazamento que causou burburinho em outubro foram os documentos internos do Facebook compartilhados por Frances Haugen, engenheira de dados e ex-funcionária da empresa, com a Comissão de Valores Mobiliários e o The Wall Street Journal. O Núcleo resumiu o caso: “a despeito das pesquisas e apesar de saber que a plataforma estava fazendo mais mal do que bem a pessoas e democracias, o alto escalão do FB optou pelo status quo, rejeitando mudanças que poderiam tentar corrigir as falhas da plataforma”.

As denúncias protocoladas na Comissão estão compiladas na íntegra e resumidas nesta postagem da CBS News. Os temas passam pela influência da plataforma nas eleições de 2020 e no ataque ao Capitólio do dia 6 de janeiro, os impactos na juventude e na saúde mental de seus usuários, violências étnicas, tráfico humano, o impacto de seus algoritmos na promoção da desinformação e discursos de ódio, a política de remoção de conteúdos deste tipo de discurso, entre outros.

Na academia: moderação de conteúdo e acessibilidade em dataviz

No MIT Visualization Group, uma pesquisa empírica testou diferentes modos de descrição textual de visualizações de dados entre pessoas com e sem deficiências visuais. Resumidamente, em geral, parece haver uma concordância de que textos que se limitam a descrever as características visuais dos gráficos (por exemplo, tipo do gráfico, cores, intervalos numéricos dos eixos, etc) são menos interessantes. Contrariamente, foram melhor avaliadas as descrições estatísticas ou cognitivas que interpretam as tendências gerais apresentadas no gráfico, outliers ou correlações, por exemplo.

Outro artigo acadêmico interessante publicado em outubro analisa criticamente as implicações normativas, técnicas e organizacionais da adoção da Perspective API por redações. Criada pelo Google, esta tecnologia apresenta uma solução automatizada para moderação de conteúdo em fóruns ou caixas de comentários. O texto está com acesso aberto no site Sage Journals.

SAIBA MAIS

Para aprender mais e aprender sempre


Aprendizagem de máquina 

A Microsoft tem um currículo introdutório, porém extenso de conteúdos sobre aprendizagem de máquina (machine learning). O material – agora parcialmente disponível em português – cobre os conceitos fundamentais, a história do campo, técnicas de regressão, classificação, clusterização, processamento de linguagem natural, previsão de séries temporais, entre outros assuntos.

Caso queira se aprofundar ainda mais no tema, você pode conferir este material sobre “aprendizagem profunda” (deep learning), uma das áreas da aprendizagem de máquina. A segunda edição do livro Deep Learning com Python já está disponível e os notebooks relacionados à publicação estão disponíveis no GitHub.

(de)Colonialismo de dados

O livro Colonialismo de Dados: como opera a trincheira algorítmica na guerra neoliberal está com sua pré-venda liberada. Para saber mais sobre o trabalho, dá para conferir o episódio ‘A colonialidade nas operações e infraestruturas das plataformas digitais’ do podcast Tecnopolítica, que traz Débora Machado e Rodolfo Avelino para discutir o tema e o livro que ajudaram a escrever. Já o festival espanhol Decidim Fest 2021 tratou do decolonialismo de dados em alguns de seus painéis. Abordando as relações entre tecnologia, democracia e justiça global, o evento disponibiliza em seu site as gravações de todos os debates.

Inteligência com fontes abertas (OSINT)

O site OS2INT fez uma série de postagens recentes sobre técnicas e ferramentas para trabalhar com inteligência com fontes abertas. Tem dicas envolvendo scripts em Python para obter dados de usuários do Instagram, como o Sterraxcyl e o ‘Instagram Location Search’, solução criada pelo Bellingcat que ganhou uma resenha. Tem também posts sobre como fazer buscas em comentários no YouTubeextrair e visualizar dados do Telegrammonitorar contatos no WhatsApp, entre outros. Veja a lista completa na seção OSINT Toolbox do site. Já no site do MakeTechEasier, você encontra informações sobre como acessar Instagram, Facebook e outras redes sociais anonimamente, sem precisar criar uma conta.

Na captura de tela, é possível ver o processo de análise de redes a partir dos dados do Telegram.

SNIPPETS

Dicas curtas e certeiras sobre o trabalho com dados


O artigo Data Visualization Has a Taxonomy Problem problematiza as taxonomias tradicionais para categorização dos tipos de gráficos e apresenta uma alternativa (espaços cartesianos, ordinais e redes).

A UFABC promoveu um workshop com o Luis Felipe Cunha, que deu uma introdução ao Git e GitHub, integrando-os ao RStudio.

A comunidade Data Visualization Lisboa agora disponibiliza sua newsletter, Pastel de Data, em inglês e português.

A 5ª Conferência FAPESP discutiu sobre o uso de evidências e dados para melhoria da educação nacional, com debates sobre as possibilidades de avanço da Educação Brasileira.

Oportunidade para especialistas em visualização de dados interessadas em trabalhar com a temática de gênero. A vaga na ONG Publish What YouFund pode ser remota.

Por falar em gênero, o Washington Post publicou recentemente uma comparação sobre as políticas em relação ao aborto nos EUA e no mundo. Para desenvolver trabalhos semelhantes, vale conferir a Global Abortion Policies Database.

O Data Senado desenvolveu o Panorama Legislativo Municipal, onde é possível visualizar informações sobre as câmaras e legislativo municipal do país.

 •

O primeiro episódio do Privacy is Global produzido pela Coding Rights é sobre como a tecnologia de reconhecimento facial tem reforçado opressões nas minorias.

E veio do Rio de Janeiro o primeiro projeto de lei que propõe o banimento de tecnologias de reconhecimento facial em espaços públicos no Brasil.

INSPIRA

Trabalhos e iniciativas inovadoras para te inspirar


Nesta edição, destacamos os finalistas do Prêmio Cláudio Weber Abramo de Jornalismo de Dados. A cerimônia de entrega da premiação acontece no dia 13 de novembro, às 19h, e contará com a participação de autores e autoras dos projetos abaixo, que explicarão mais sobre os bastidores destes trabalhos. A transmissão será aberta e gratuita, ao vivo em nosso canal do YouTube.

A reportagem “Anatomia da rachadinha“, do UOL Notícias, trata da investigação do esquema ilegal nos gabinetes de Jair e Carlos Bolsonaro. Já a matéria “As pensões e os bilhões da família militar“, publicada pela Revista Piauí, não aborda a ilegalidade, mas a imoralidade dos bilhões de reais pagos em pensões a parentes de servidores civis e militares que já morreram.

Infográfico da matéria acentua diferença na concentração de recursos

Abordando também recursos federais, “Bolsonaro não usou um terço dos recursos aprovados para políticas para mulheres desde 2019“, da Revista AzMina, traz uma análise sobre os recursos que o governo deixou de aplicar nos últimos anos. Também da Revista AzMina, figura entre os finalistas o projeto MonitorA, desenvolvido em parceria com o Instituto Update e o Internet Lab.

Além do MonitorA entre os finalistas, há também o Monitor Nuclear, do Núcleo Jornalismo, ferramenta gratuita de identificação e monitoramento de perfis de políticos brasileiros no Twitter. O veículo ainda foi indicado pelas reportagens “O Facebook não morreu” e “Telegram, o novo refúgio da extrema direita“.

As reportagens “Brasil registra duas vezes mais pessoas brancas vacinadas que negras“, da Agência Pública, e “Existe uma Wakanda da política brasileira?“, parceria entre o data_labe e o Alma Preta, abordam questões raciais e também se destacaram entre as matérias inscritas. Esta última conta com uma análise dos municípios que tiveram maior representatividade negra nas eleições de 2016.

Já destacada anteriormente nesta seção ‘Inspira’, a série de reportagens especiais “Engolindo Fumaça“, do InfoAmazonia, mostra os efeitos da poluição causada pelas queimadas na região da Amazônia Legal, e o impacto sobre a saúde da população local. “Onde vai parar o lixo reciclável“, do Metrópoles, traz outra questão ambiental, apontando os resultados da investigação sobre os caminhos traçados pela coleta seletiva no Distrito Federal.

Outro tema que ganhou peso entre os finalistas foi a segurança pública. “Inocentes presos“, série publicada pela Folha de São Paulo, faz um levantamento sobre o encarceramento de pessoas que foram vítimas de reconhecimentos errados. As reportagens “O ‘carro da linguiça’ e outras chacinas sobre rodas que exterminam a periferia e o governo ignora“, do The Intercept Brasil, e “Um ano depois, assassinatos durante motim da PM seguem sem esclarecimento“, d’O Povo, também estão na lista de escolhidos. E você, já tem os seus projetos favoritos?

UPDATE

Atualize-se com as novidades de softwares e bases de dados


repositório de dados do TSE agora inclui dados sobre redes sociais e propostas de governo de candidatos do executivo.

A Base dos Dados liberou a base do Cadastro Geral de Empregados e Desempregados (CAGED), incluindo dados de seguro desemprego, eSocial e EmpregadorWeb.

Os dados sobre despesas e receitas orçamentárias do setor público (SICONFI) também foram liberados pela Base dos Dados.

Já está disponível no CKAN o pacote R marginaleffects, um pacote que pode calcular e representar graficamente efeitos marginais.

Outro pacote novo R é o do e-SUS Notifica para lidar com dados de saúde. Confira a documentação.

Publicadores de dados, conheçam o pacote Data Package Manager (dpckan), voltado para criação e atualização de conjunto de dados e recursos no CKAN.

O Python chegou à versão 3.10 trazendo melhorias nas mensagens de erro, em alguns métodos e em seu interpretador, entre outras.

Airtable agora tem filtros avançados possibilitando usar duas condicionais em um único filtro.

 •

MySQL disponibiliza a versão 8.0.27 com melhorias de segurança, como autenticação multifator, correção de bugs, entre outros.

Novas bibliotecas inclusas no PyTorch 1.10: TorchX, TorchAudio e TorchVision além de melhorias no frontend e no compilador.


Sugestões? Envie um e-mail para escoladedados@ok.org.br.