Agosto/2024

AGENDA

Oportunidades e prazos para não perder de vista


• 04/08 – Chamada para a Rede Latino-Americana de Jornalismo sobre Direitos Digitais, da Acess Now.

• 9 a 11/08 – Python Nordeste (PyNE), em Natal – RN. Inscrições abertas.

• 10/08 – Data limite para inscrever atividades na Python Brasil.

• 12 a 14/08 – Acontece a posit::conf(2024), em Seattle –  WA.

• 18 e 19/09 – PyTorch Conference 2024, em San Francisco – CA.

• 10 a 12/10 – Prazo para inscrever atividade no LibreOffice Conference 2024, que acontece em Luxemburgo com possibilidades de apresentação online.

• 12/08 – Prazo para inscrever trabalhos na LatinR.

• 12 a 14/08 – Acontece a posit::conf(2024), em Seattle –  WA.

• 21/08 – 9º Seminário Anual do MapBiomas – Brasil em Transformação: Uso da Terra e os Riscos Climáticos, em Brasília.

• 22/08 – Webinar Território do poder: táticas para mapear dados eleitorais, com Thays Lavor. Transmissão no canal da Escola de Dados no Youtube.

• 18/09 – Encontro Brasileiro de Data Science, na Faculdade Getúlio Vargas (FGV). Evento gratuito.

• 18 e 19/09 – PyTorch Conference 2024, em San Francisco – CA.

• 01/10 a 05/11 – Começa uma nova edição do curso do CKAN, na Escola de Dados. Inscrições abertas. 

• 10 a 12/10 – Prazo para inscrever atividade no LibreOffice Conference 2024, que acontece em Luxemburgo com possibilidades de apresentação online.

• 16 a 21/10 – Python Brasil (PyBR), no Rio de Janeiro – RJ. Inscrições abertas.

• 24/10 – Data limite para jornalistas investigativos ambientais se inscreverem em bolsas de 400 mil euros, oferecidas pela Earth Investigations Program

• 18 a 22/11 – Acontece a Conferência Latino-Americana sobre o uso de R em pesquisa e desenvolvimento (LatinR). Online.

• 02 a 08/12 – Acontece a Conferência Internacional de Software Livre e de Código Aberto para Geoespacial (FOSS4G), em Belém – PA.

• 3 a 06/12 – América Aberta 2024, em Brasília. Informações no site oficial do evento.

NO MUNDO DOS DADOS

Notícias e discussões quentes


UMA IA MAIS SEGURA É POSSÍVEL?

A OpenAI, super conhecida pela sua famosa IA generativa ChatGPT está enfrentando críticas após alegações de que apressou o processo de testes de segurança para seu mais recente modelo, o GPT-4 Omni. Segundo a jornalista Diana Kwon, a empresa prometeu à Casa Branca que garantiria a segurança rigorosa de suas tecnologias de IA para evitar usos prejudiciais, como o desenvolvimento de armas biológicas e ciberataques avançados. No entanto, a pressa para cumprir um prazo de lançamento em maio gerou preocupações sobre a integridade do processo de avaliação.

Imagem de perguntas no ChatGPT. Fonte: The Washington Post

Membros da equipe de segurança da OpenAI foram pressionados a acelerar os testes do GPT-4 Omni para atender à data estabelecida pelos líderes da empresa. Os testes foram realizados em uma única semana, uma compressão significativa do tempo originalmente planejado. A empresa agora é acusada de priorizar interesses comerciais em detrimento da segurança, uma alteração notável em relação às suas origens como uma organização sem fins lucrativos.

PREVISÕES METEOROLÓGICAS PRECISAS

A DeepMind, uma empresa do Google, tem demonstrado um impacto impressionante na meteorologia com seu modelo de IA, o GraphCast. William J. Broad conta que o GraphCast se destacou ao prever com precisão a trajetória do Furacão Beryl, que atingiu o Texas, EUA, com força devastadora.

O GraphCast exemplifica o avanço da IA em previsões meteorológicas, processando dados históricos em minutos e gerando previsões de 10 dias em segundos — um feito que antes demandava mais de uma hora com supercomputadores tradicionais. Esse modelo de IA também está ampliando as possibilidades para a descoberta científica, permitindo a criação de variações sutis nas previsões que ajudam a identificar fatores inesperados em eventos extremos, como tornados, segundo Amy McGovern, professora na Universidade de Oklahoma.

Apesar dos avanços significativos da IA, a previsão do tempo continua sendo um desafio complexo devido à natureza caótica da atmosfera terrestre. Especialistas ressaltam que, embora a IA possa melhorar a precisão das previsões e tornar a ciência mais acessível, o papel humano continua sendo essencial na previsão meteorológica, garantindo a eficácia e a segurança pública.

TRANSPARÊNCIA CONTINUA SENDO A EXCEÇÃO

Desde maio, a Open Knowledge Brasil vem fazendo os lançamentos regionais do projeto Indíce de Dados Abertos para Cidades (ODI Cidades), idealizado pelo eixo de Advocacy e Pesquisa. O estudo mostra que a grande maioria das capitais brasileiras não dá transparência aos dados sobre suas políticas públicas, tendo 21 das 26 capitais classificadas no nível opaco de transparência de dados.

As capitais receberam uma pontuação de 0 a 100 em 111 conjuntos de informações sobre 14 áreas da administração e governança dos dados. Em um ano de eleições, um projeto como este visa apoiar tanto as instituições governamentais quanto a sociedade civil a entender a importância dos dados na compreensão de cenários reais. 

Dentro da metodologia aplicada, São Paulo, Belo Horizonte, Recife, Curitiba e Fortaleza são as cidades que escaparam dos piores níveis na avaliação. Ainda assim, nenhuma cidade chegou a atingir 50 na pontuação. O projeto conta com um site onde reúne detalhes visuais sobre a avaliação e uma explicação detalhada da metodologia que levou aos resultados e também o ebook com toda explicação a respeito.

SAIBA MAIS

Para aprender mais e aprender sempre


CODA AMAZÔNIA 2024

Já está disponível a documentação das mais de 30 atividades realizadas no Coda Amazônia 2024. No site do evento você encontrará um resumo do que foi abordado nos paineis e workshops, além das apresentações e links de referência. Neste ano, as atividades práticas abordaram temas como métodos de investigações de redes de desinformação, crimes ambientais, uso de Inteligência Artificial e dados georreferenciados.

APRENDIZADOS EM R

Trevor French, autor do livro “R para Ciência de Dados” (lançado em 2022), criou uma série de vídeos no seu canal no YouTube. Esses vídeos curtos são projetados para complementar o conteúdo do livro, abrangendo desde uma visão geral da linguagem R aplicada à Ciência de Dados até o uso do framework Shiny. Tanto o livro quanto os vídeos estão licenciados sob a Creative Commons, permitindo que o material seja usado, copiado e redistribuído em qualquer meio ou formato.

SNIPPETS

Dicas curtas e certeiras


Escola de Dados publica tutorial escrito por Giovane Caruso sobre Como começar sua análise com dados públicos utilizando a Base dos Dados.

O painel Forced Displacement da Agência das Nações Unidas para Refugiados (UNHCR) agora recebe atualizações automáticas através da biblioteca de microdados da UNHCR e do Banco Mundial (World Bank).

Pesquisadores da Universidade de Washington e George Mason escreveram um artigo analisando vieses sociais em Modelos de Linguagem de Visão (VLMs).

O International Journal of Public Opinion Research publicou um artigo analisando  campanhas de desinformação nas eleições brasileiras de 2022. 

O jornalista Pedro Burgos fez um vídeo para InvestNews dando dicas de como escrever melhor utilizando o NotebookLM.

Bianca Muniz e Rodrigo Menegat disponibilizaram a apresentação DDJ para freelas e pequenas redações, facilitada no Congresso da Abraji 2024. 

Raphael Hernandes publicou sua pesquisa que investiga se o GPT-4 da OpenAI pode classificar com precisão o viés político de fontes de notícias com base em suas URLs, comparando seus resultados com classificações humanas estabelecidas.

A empresa Nixtla apresentou o Time Series Forecasting com ChatGPT, o primeiro modelo transformer especificamente projetado para previsão de séries temporais. 

Bellingcat lança a ferramenta Search grid generator, que ajuda a investigar uma área territorial de interesse, quadrado por quadrado, apenas inserindo as coordenadas de latitude e longitude.

Professor Nivan Pereira explica como a visualização de dados pode ser usada para facilitar a interpretação de resultados complexos e tornar a comunicação de insights mais eficaz e acessível.

Vinícius Hector ensina como acessar os dados de uso e cobertura da terra, do MapBiomas, utilizando Python e o Google Earth Engine (GEE).

Estadão lança o Radar da Criminalidade, ferramenta que permite calcular a quantidade de ocorrências ao redor de um endereço em São Paulo.

O jornalista Santiago Villa discorre sobre como o jornalismo investigativo está se adaptando ao desafio de cobrir crime organizado na sociedade latino-americana.

O jornalista Rowan Philp apresenta dicas de como usar o ChatGPT como uma ferramenta de pesquisa em investigações.

A Kyutai Labs, laboratório francês de IA, anunciou o lançamento do Moshi, um modelo com capacidades avançadas de áudio e texto, incluindo interações em tempo real. O modelo é open source.

INSPIRA

Trabalhos e iniciativas inovadoras para te inspirar


Entre julho e agosto estão acontecendo os jogos olímpicos em Paris. Esta terceira edição no país,  que acontece depois de um século desde a última, quebra alguns recordes: além de apresentar novos países nas competições, também se coloca na história como a primeira competição com equidade de gênero em todas modalidades.  Em um momento como este, onde o mundo para para assistir as competições, o South China Morning Post desenvolveu a visualização Games of two eras, mostrando o que mudou 100 anos depois.

Na imagem, as mudanças que aconteceram na modalidade salto de vara.

A visualização explora as mudanças mais notáveis nas disciplinas esportivas e nos atletas que competem nos jogos ao longo dos anos. A funcionalidade “deslize para explorar” é utilizada na maioria das imagens para permitir ao leitor uma melhor visualizçaão do do que mudou dos jogos de 1924 para os de 2024, colocando também em foco a maneira como os atletas executavam os movimentos. Começando pela mudança no design das medalhas, passando pela história dos jogos e chegando nos esportes olímpicos, a visualização comprova o quanto este evento mundial é tão mágico, até mesmo neste contexto informativo. 

NOVOS DADOS

IBGE lança Mapa Político do Brasil com atualizações do Censo 2022, em GeoPDF e em metadados e a base de Cadastro Nacional de Endereços para Fins Estatísticos (CNEFE)

Nasa disponibiliza o Índice de Complexidade Estrutural do Feixe de Pegada (Level 4C Footprint Waveform Structural Complexity Index), um conjunto de dados que apresenta a variação entre altura e densidade da vegetação que compõem a copa das árvores na floresta.



MapBiomas lança a versão beta do módulo de degradação, contendo 6 vetores, dentre eles frequência do fogo, idade de vegetação secundária e isolamento.

Base dos Dados incluiu microdados da Pesquisa Nacional de Saúde (PNS) de 2013 a 2019 e Sistema de Vigilância Alimentar e Nutricional com dados de 2008 a 2023.

UPDATE

Atualize-se com as novidades de softwares e bases de dados


BrazilCrime, pacote em R, possui dados de segurança pública desde 2015.

Quarto 1.5 trás propriedades CSS em tabelas, inclusão de anúncio de sites e aprimoração dos rascunho