Maio/2023

AGENDA

Oportunidades e prazos para não perder de vista


31/05 – Hoje, às 18h30, teremos o webinar “Pegando o jeito: descobrindo as possibilidades de uso do ChatGPT“, com Lucas Thaynan e Marcelo Fontoura. 

05/06 – Início da formação em Data Storytelling: como vender a sua ideia usando dados e gráficos, presencial e online, na ESPM.

05 a 08/06 – 12ª edição da RightsCon acontece online e na Costa Rica. 

07/06 – Início da segunda edição do curso “Investigações Digitais: OSINT para jornalistas e ativistas”, realizado pela Escola de Dados com apoio da Tactical Tech e da Abraji.

19 a 23/06 –  II Conferência de Políticas Públicas e Ciência de Dados do Amazonas, em Manaus e Itacoatiara.  

22 a 24/06European Data & Computational Journalism Conference em Zurique, na Suíça.

24/06Oficina de introdução ao R e Tidyverse, gratuita e presencial no Insper, oferecida pelo R-Ladies São Paulo. 

29/06 a 02/0718º Congresso Internacional de Jornalismo Investigativo acontecerá em São Paulo (SP), organizado pela Abraji.

01/07 – Prazo final para a chamada de propostas para o AI Accountability Fellowships, do Pulitzer Center, com duração de 10 meses e apoio de $20.000 para despesas.

10/07 – Prazo para se inscrever em bolsa de jornalismo investigativo, oferecida pela Reuters e a Universidade Durham.

30/07 – Encerra-se o prazo para submissão de candidaturas para o Prémio Jornalismo de Dados da Sociedade Portuguesa de Estatística (SPE), em parceria com a Escola Superior de Comunicação Social (ESCS). 

31/08 a 02/09 – 2ª edição do Coda Amazônia. Os dois primeiros dias de evento serão na UFPA, em Belém, no Pará. Já o terceiro dia de atividades será na Ilha de Marajó.

17/09 a 20/09 – Período da posit::conf2023, oportunidade de integração da comunidade de ciência de dados. 

22/09 – Prazo limite para inscrever projetos relacionados a conhecimento livre, na Wiki Movimento Brasil, com bolsas de até R$2500.  

07 a 09/11Festival de Datos em Punta del Este, no Uruguai.

06 a 10/1111º Congresso Nacional de Design da Informação, com trilha sobre visualização de dados.

13 a 16/12Cultural Data Analytics Conference 2023, em Talís, na Estônia. Inscrições de trabalho abertas.

NO MUNDO DOS DADOS

Notícias e discussões quentes


Destaques do Pulitzer

A Universidade de Columbia anunciou os finalistas e vencedores da edição de 2023 do Prêmio Pulitzer. Terrence McCoy, do The Washington Post, foi finalista por seu exame abrangente da destruição da Amazônia, na categoria “Reportagem Exclusiva”. A matéria contou com a participação da jornalista de dados brasileira Cecília do Lago. Neste ano, a reportagem vencedora na categoria “Investigação”, do Washington Post, revelou conflitos de interesses financeiros entre funcionários de 50 agências federais americanas. E Mona Chalabi, do The New York Times, levou o prêmio na categoria “Reportagens e comentários ilustrados” por seu trabalho “9 ways to imagine Jeff Bezos’s wealth” (9 maneiras de imaginar a riqueza de Jeff Bezos, em tradução livre), que ajuda leitores a entender a imensa riqueza e o poder econômico do fundador da Amazon.

Regulamentação de IA e combate ao racismo algorítmico

No blog da Mozilla Foundation, Tarcizio Silva aborda a necessidade de regulamentar a inteligência artificial no Brasil. O pesquisador traça um panorama do debate a respeito de projetos de lei sobre IA no país e destaca a importância de combater o racismo algorítmico, que se manifesta muitas vezes no viés de tecnologias de vigilância e recrutamento, e também impacta o acesso à saúde e a recursos públicos. Ele critica um novo projeto de lei, que ainda é brando no combate aos danos do racismo, mas defende que o Brasil tem riqueza humana, histórica e cultural para ser um líder na produção de tecnologias digitais éticas e na luta contra os vieses do conhecimento em um mundo multipolar.

Blockchain e os dados do SUS

No último mês, Jair Bolsonaro se tornou alvo da Polícia Federal numa investigação sobre falsificação de cartões de vacina. A operação foi deflagrada por conta da tecnologia blockchain utilizada pela Rede Nacional de Dados de Saúde (RNDS), ligada ao ConecteSUS, que permite a transmissão segura de informações e impede que sejam manipuladas, adulteradas ou excluídas. O blockchain faz com que cópias de cada bloco de informação sejam armazenadas em milhões de computadores diferentes e não permite a adulteração ou exclusão de dados sem deixar rastros. Uma explicação detalhada sobre isso foi tema de reportagem do G1 e também do Jornal Nacional.

SAIBA MAIS

Para aprender mais e aprender sempre


Investigações Digitais bem aquecidas em maio

Este mês o Bellingcat apresentou dois tutoriais: um de cronolocalização, abordando como descobrir quando uma imagem foi tirada quando não for possível investigar a partir da sombra da imagem, e outro de geolocalização com o Open Street Map, utilizando a ferramenta autoral Bellingcat OpenStreetMap search. Logan Williams explica que a utilização é simples, principalmente para quem já está familiarizado com o uso do Overpass-Turbo. Para usar a ferramenta é necessário solicitar acesso. 

Por falar em localização de fotos, Annique Mossou relatou, a partir de um estudo de caso da Colômbia, como o coletivo investigou um “possível” indício de manipulação de imagem, envolvendo o Exército de Libertação Nacional de extrema esquerda (ELN). 

Mas não para por aí. Ainda este mês, o Bellingcat lançou uma ferramenta de análise do TikTok que permite que pesquisadores coletem um conjunto de dados de TikToks associados a hashtags específicas. A ferramenta também permite a análise de quais outros tópicos aparecem junto com as hashtags selecionadas com mais frequência.

Aprendizados, performance e novidades em Python 

A linguagem Python tem avançado e acaba de entregar a versão 3.12 beta com melhorias incríveis. As mensagens de erro agora estão mais intuitivas, sugerindo possíveis correções. Serdar Yegulalp escreveu com detalhes em texto e vídeo sobre essas melhorias, comparando com a versão anterior.

Enquanto a linguagem avança, a biblioteca Pandas vai “dando lugar” à biblioteca Polars, a nova queridinha para trabalhar com grande volume de dados. Finn Andersen explicou em artigo com diversos exemplos o motivo do carregamento de dados em cada uma delas serem diferentes em termos de performance e aponta soluções. 

A Base dos Dados disponibilizou um vídeo tutorial de como acessar de maneira mais prática seus conjuntos de dados usando um pacote Python criado para essa finalidade. 

Possibilidades de aprendizado com R  

Aproveitando a onda quente relacionada a ferramenta ChatGPT, com cautela, existem maneiras inteligentes de utilizar a ferramenta, uma delas é o uso para aprendizado. Em artigo para InfoWorld, Sharon Machlis apresenta 8 ferramentas do ChatGPT que podem ser muito úteis no estudo da linguagem R, apontando 6 pontos importantes para se observar antes de utilizá-las. 

Porém, se o seu caso é aprender tradicionalmente, Camilo Burgos reuniu em um repositório, conteúdos sobre Ciência de Dados com R. Ainda temos o curso Estatística para Análise de Dados na Administração Pública, facilitado por Fernando Barbalho, na Escola Virtual Gov (EVGov).
No Tidyverse, Max Kuhn apresentou o pacote desirability2, que facilita a normalização dos dados, mostrando em tutorial os potenciais do pacote, que pode ser ainda melhor quando usado em conjunto com outros. Hadley Wickham escreveu sobre as diferenças entre o saudoso pipe magrittr e o pipe nativo.

SNIPPETS

Dicas curtas e certeiras


Foi publicada a segunda edição do Python Fluente (traduzida de Fluent Python, O’Reilly, 2022).

O fórum “Dados Abertos: conceitos e aplicações” marcou o lançamento do Portal de Dados Abertos da UFPE.

Lucas Gomes, do Jota, fez algumas visualizações de dados para explorar percepções sobre os filmes da produtora A24.

No TheReadME Project, do GitHub, Mike Melanson faz uma consideração sobre quão aberto deve ser seu projeto de código aberto, abordando a limitação de contribuições.

Project Tailwind, da Google, funciona como um notebook com IA que usa informações que você escolhe e confia. O experimento tem uma lista de espera e só está disponível para residentes dos EUA por ora.

Álvaro Justen disponibilizou sua apresentação sobre a ChatGPT e Proteção de Dados e indicou um espaço para quem deseja contribuir com modelos abertos de linguagem.

A jornalista de dados Ana Carolina Moreno fez um breve relato sobre seu aprendizado em programação.

Nicola Rennie apresenta o {ggflowcast} e demonstra que a ferramenta pode ser utilizada para visualizar processos complexos.

A Google apresentou o PaLM 2, caracterizado como a nova geração dos modelos de linguagem da companhia.

O Núcleo Jornalismo disponibilizou a versão beta da Propulse, uma ferramenta para captura de dados do Twitter.

R-Ladies São Paulo e Elas no Orçamento realizaram um meetup sobre Ciência de Dados, Raça e Gênero nas Políticas Públicas

Conheça ferramentas que ajudam no trabalho com o ChatGPT, como llm, ttok e as strip-tags.

O livro “Technofeminism: multi and transdisciplinary contemporary views of women in technology” está disponível para download.

A Abraji e a Transparência Brasil lançaram uma newsletter quinzenal do projeto “Achados e Pedidos”, que reúne pedidos e respostas via LAI.

A Internews disponibiliza curso sobre segurança digital para defensores do meio ambiente e dos direitos humanos e um tutorial para utilizar a plataforma.

INSPIRA

Trabalhos e iniciativas inovadoras para te inspirar


Quantum bits, ou qubits, existem num estado quântico, onde até serem medidos podem ser considerados “ligados” e “desligados” ao mesmo tempo.

A computação quântica pode quebrar a internet. A próxima geração de computadores quânticos abrirá um novo mundo de possibilidades, mas também representará enormes riscos para nossa segurança online. É assim que começa a reportagem do Financial Times, que por meio de uma “jornada quântica” explica de maneira didática como funciona a computação hoje em dia, o que é um bit, o que é um byte, como eles são usados na resolução de problemas e como os qubits entram para mudar tudo isso.

NOVOS DADOS

Conjuntos de dados e plataformas publicados recentemente


A NASA disponibiliza dois conjuntos de dados: temperatura e emissividade da superfície terrestre na versão 2 e máscaras de nuvem no nível 2.

O Centro de Estudos da Metrópole (CEM) libera as bases de dados que contêm os votos das últimas eleições majoritárias em 2022 do estado de São Paulo e das principais regiões metropolitanas do Brasil.

A Organização Mundial de Saúde (OMS) lança relatório e acesso aos dados sobre desigualdade em saúde.

A Controladoria-Geral da União publica dados do Sistema Eletrônico de agendas do Poder Executivo Federal – e-Agenda.

A Receita Federal abre os dados de isenção, renúncias, benefícios e imunidades fiscais. 

Agência Nacional do Petróleo, Gás Natural e Biocombustíveis (ANP) disponibiliza base de dados sobre incidentes na exploração e produção de petróleo e gás natural.

Ministério do Desenvolvimento Indústria e Comércio lança o Observatório do Comércio Eletrônico Nacional, com dados de compra de eletrônicos desde 2016, segmentados por região, estados, produtos, tipos de venda (estadual e interestadual), entre outros.

UPDATE

Atualize-se com as novidades de softwares e bases de dados


LibreOffice 7.5.3 com o maior pacote de atualização já lançado, com diversas melhorias e novidades.

GitHub disponibiliza a possibilidade de pesquisar no código, dentro do repositório. 

Shiny agora tem parceria com Hugging Face, uma plataforma aberta de Inteligência Artificial.

O pacote {ggblend} e {lehdr} agora estão no CRAN.