Outubro/2022

AGENDA

Oportunidades e prazos para não perder de vista


11 e 12/11 Criptofunk, evento gratuito que reúne debates, oficinas e festa sobre cuidados físicos, digitais e internet, acontece no Complexo da Maré, no Rio de Janeiro.

15/11 – Prazo para se inscrever no ‘Data+Developer Track’, programa de bolsas da Hearst Newspapers com foco em jornalismo e programação.

16/11 – Aula de ‘Introdução à Visualização de Dados’, online, organizada por Rodrigo Cunha.

16/11 – Data limite para inscrição no edital da Controladoria-Geral da União (CGU), com objetivo de compor ogrupo de trabalho responsável pela metodologia do 6º Plano de Ação Nacional de Governo Aberto.

16/11 – Fim das inscrições para o curso ‘Como investigar remunerações do Judiciário e Ministério Público’, online e gratuito, realizado pela Transparência Brasil e Abraji.

20/11 – Prazo para inscrever nas bolsas de até 5 mil dólares para produção de reportagens que destaquem ameaças desconhecidas à biodiversidade global ou explorem novas soluções baseadas na conservação, oferecidas pela Earth Journalism Network.

21 a 30/11 – ‘Dados contra o feminicídio‘ discute como comunicar e divulgar dados sobre o tema, no marco do Dia Internacional pela Eliminação da Violência contra as Mulheres.

25/11 – Último dia para enviar atividades em português, espanhol ou inglês na csv,conf 2023, que acontecerá em Buenos Aires.

26/11 O grupo R-Ladies SP promove ‘Oficina de introdução ao R’, gratuito e presencial no Instituto de Estudo e Pesquisa (Insper).  

07/12 – Acontece a primeira edição do seminário ‘Privacidade das Comunicações, Investigações e Direitos’, organizado pelo Instituto de Referência em Internet e Sociedade (IRIS) e IP.rec.

NO MUNDO DOS DADOS

Notícias e discussões quentes


Dados e arte no América Abierta

Durante o encontro América Abierta, a comunidade de dados e governo aberto reunida em Santo Domingo, na República Dominicana, entrou em contato com Hilando Futuros, uma exposição que apresentou uma interseção entre dados e arte, trazendo experiências de bordados de coletivos situados em diversas cidades da América Latina.

Com participantes de Bogotá, San José, Montevidéu, Cidade do México, Salvador, Madri e Santo Domingo, o processo visou unir mulheres que querem usar o têxtil como material para imaginar possíveis cenários em 2050, e mostrar como podemos nos preparar para alcançar futuros imaginados desejados, ou evitar possíveis cenários indesejáveis.

Combate à desinformação

Está disponível no site da PBS a aula “Como entender estatísticas e dados em notícias”. O conteúdo, em inglês, tem como objetivo o combate à desinformação que utiliza dados e estatísticas. A aula aborda três temáticas principais: por que é importante conhecer o contexto por trás dos dados ou estatísticas; quais são alguns sinais de alerta de que os dados compartilhados online podem não ser confiáveis e como verificar os dados que são compartilhados online. O conteúdo foi desenvolvido pela MediaWise, uma iniciativa de alfabetização de mídia digital do Poynter Institute, organização sem fins lucrativos e apartidária e também pela PBS NewsHour,  programa americano de jornalismo juvenil que treina adolescentes para produzir histórias que destacam as conquistas e os desafios que os jovens enfrentam. 

Mapas eleitorais e as disputas nas cidades

No último mês, o LabCidade, da Faculdade de Arquitetura e Urbanismo da USP, publicou um post que discorre sobre as implicações de se usar a cartografia como ferramenta para visualizar os resultados das apurações. Os autores comentam que, para simplificar a visualização, o método que consiste em pintar o perímetro de um região apenas com a cor do vencedor acaba sendo frequentemente usado. O que ele faz, na prática, é esconder quão acirrada ou concentrada foi a disputa dentro desses perímetros, além de possibilitar, numa leitura desatenta, a interpretação de que as regiões identificadas com uma única cor, foram “vencidas” por um dos candidatos.

IA para ajudar a salvar a Amazônia

Drones, câmeras e microfones podem permitir monitoramento em tempo real e até a possibilidade de intervenção, impedindo atividades ilegais em seus rastros. É a sugestão apresentada recentemente em post do Towards Data Science, que conta que a organização sem fins lucrativos Rainforest Connection (RFCx) usa telefones reciclados na floresta para gravar sons de atividades ilegais. O sistema da organização usa algoritmos para identificar ruídos, como o uso de motosserra (madeireira), caça ilegal de animais (motocicletas) e contrabando de drogas (caminhão, veículos) e, em seguida, notificar os guardas florestais. 

SAIBA MAIS

Para aprender mais e aprender sempre


Novas ferramentas para investigações digitais

Na segunda hackatona do Bellingcat, participantes desenvolveram uma busca automatizada de mapas, ferramentas para identificar fraudes no Instagram e traduções para as buscas do Twitter. O coletivo independente disponibilizou a lista das soluções desenvolvidas, com uma breve explicação sobre o que cada uma delas faz e um convite para que investigadores digitais comecem a utilizá-las em seus trabalhos. OSM Finder, a ferramenta vencedora, é uma busca locais no OpenStreetMap com base nas distâncias e ângulos de recursos de mapas anotados e tem o potencial de ser usada por pesquisadores para restringir possíveis locais ao geolocalizar uma captura de tela de imagem ou vídeo. 

Dados para monitorar zonas de guerra

E o Bellingcat também lançou, no último mês, um guia sobre como utilizar dados de satélites da NASA para monitorar zonas de guerra. O Fire Information for Resource Management System da NASA, ou FIRMS, é uma ferramenta que detecta incêndios ativos e anomalias térmicas e tem sido usado há muito tempo para rastrear incêndios florestais, incluindo os que atingiram o sul da Europa no verão passado. Lançamentos de mísseis, combates de artilharia pesada e explosões também geram incêndios e calor que podem ser detectados pelo satélite e recentemente uma pesquisadora usou a ferramenta para monitorar o progresso das linhas de frente no sul e leste da Ucrânia após a invasão da Rússia em fevereiro. 

As apresentações do LatinR 2022

A última edição da Conferência Latino-Americana sobre o Uso de R em Pesquisa + Desenvolvimento, LatinR, ocorreu virtualmente de 10 a 14 de outubro de 2022 e todas as apresentações estão disponíveis no GitHub da iniciativa. Há contribuições sobre o uso de aplicações com shiny, uso de dados públicos e estatísticas oficiais, aplicações em ciências sociais, artes e humanidades, entre outras. E também tutoriais sobre criação de apresentações com a nova geração do RMarkdown (Quarto), elaboração de relatórios com R e Python no RStudio (agora Posit), introdução à análise de texto com R e mais.

rstudio::conf(2022) no YouTube

Além da LatinR no GitHub, agora a apresentação keynote e todas as talks da rstudio::conf(2022) estão disponíveis no YouTube. São mais de 100 vídeos, indo de temas como treinamento em ciência de dados para comunidades com recursos tecnológicos e oportunidades limitadas a uma discussão sobre o futuro com os dados perdidos, além de diversas demonstrações de pacotes como shiny, tidyr, ggplot2, etc.

Capacidades para uma sociedade dataficada

É o mote do webinário oferecido pelo LACNIC (Registro de Endereçamento da Internet para a América Latina e o Caribe, organização não-governamental estabelecida no Uruguai em 2002), que aborda o tema da atual dataficação da sociedade, os desafios que surgem e as competências necessárias para o presente e o futuro, entendendo o impacto dos dados a partir de uma perspectiva crítica. A atividade foi apresentada por Javiera Atenas, doutora em Educação, professora titular do Centro de Ensino Universitário da Universidade de Suffolk e pesquisadora da ILDA (Iniciativa Latinoamericana por los Datos Abiertos).

SNIPPETS

Dicas curtas e certeiras


Sharon Machlis escreveu para o InfoWorld um guia para usuários Python e R que desejam criar relatórios mais interativos e atraentes, utilizando Observable JavaScript e Quarto.

Gabriel Zanlorenssi disponibilizou um script em R, de sua autoria, para baixar os dados da votação presidencial, por municípios.

A comunidade DataVis Lisboa organizou um meetup para discutir como o Design e a Dataviz moldaram a narrativa e influenciaram a maneira como lemos notícias.

Avi Chawla reuniu em um artigo os 30 métodos mais utilizados em Pandas que ele considera importantes de serem dominados.

Nessa mesma linha, Nik Piepenbreier escreveu 3 ações comuns no Excel e como podem ser feitas utilizando Pandas. 

Didit Eko Setyo Ariandi organizou um artigo introdutório sobre Aprendizado de Máquina utilizando R, voltado para iniciantes com conhecimentos prévios da linguagem. 

Andrew Heiss atualizou mais um notebook de Regressão Logística, como parte do projeto de aplicações práticas a partir do livro ‘Bayes Rules! An Introduction to Applied Bayesian Modeling’.

O jornalista Roberto Rocha documentou o processo para obter dados tabulares de texto não estruturados com GPT-3, a linguagem de Inteligência Artificial da Open AI.

Gael Close explica em seu artigo para Towards Data Science sobre o paradigma ‘Documento como código’ (Docs-as-code) mostra um template para gerar artigos formatados em IEEE, utilizando Quarto no Jupyter Notebook. 

INSPIRA

Trabalhos e iniciativas inovadoras para te inspirar


Para sobreviver como um rato

Para contar a história sobre a migração e sobrevivência de ratos durante a pandemia no Distrito da Colúmbia, em Washington, o jornal Washington Post apostou num jogo onde o leitor é o rato Cheddar. O nome do simpático rato foi escolhido pelos leitores. No jogo, o ratinho caminha pela cidade, revira latas de lixo, bebe água nas fontes e dorme em caixas de papelão. Cada nível de sobrevivência é contextualizado com um texto jornalístico e entrevistas com moradores e especialistas.

NOVOS DADOS

Conjuntos de dados e plataformas publicados recentemente


O Escritório de Dados do Rio de Janeiro disponibilizou no DataLake os dados de ocorrências do Centro de Operações Rio (COR), com dados desde 2015.


A Forests & Finance atualizou dados de crédito e investimento, bem como avaliações de políticas de 200 instituições financeiras, para commodities agrícolas.

APT UPDATE

Atualize-se com as novidades de softwares e bases de dados

Supabase e Snaplet construíram o ‘postgres-wasm’, uma versão em código aberto do PostgreSQL rodando direto do navegador. 

Panel 0.14 tem suporte para ser executado no navegador, melhorias facilitando a criação de aplicativos responsivos e de alto desempenho, entre outros.

Jupyter Notebook 7 (versão alpha) apresenta painel de colaboração em tempo real e índice entre suas principais novidades.

O pacote tidyterra está de volta ao CRAN com a nova função stat_spatraster( ) para ggplot2 e novas possibilidades de visualização. 

Pacote wk 0.70 possui novas classes de pontos/retângulos, dados de exemplo e muito mais.

Shiny UI Editor apresenta novos recursos: adição de tabelas {plotly} e {DT}, e argumentos desconhecidos não são mais ignorados pelo editor.

Nova versão do pacote rayshader aprimora ggplots 3D, podendo facilmente adicionar uma versão 2D do ggplot abaixo, acima ou ao lado do gráfico 3D.

Pandas DataFrame está disponível na biblioteca scikit-learn, versão do desenvolvedor.

Ipydatagrid 1.1.13 traz melhorias no desempenho de renderização, lida com a serialização de tipos personalizados adicionais, entre outros.

Tableau 2022.3 possui visualizações com mais eficiência, narrativas em linguagem natural, experiências personalizadas com visibilidade de zona dinâmica, e mais.

Python 3.11 chegou com melhorias nas mensagens de erro e na velocidade da linguagem.