#39 Um artista que usa OSINT; IA; corrupção e cartéis de dados
Setembro/2022
AGENDA
Oportunidades e prazos para não perder de vista
01 a 31/10 – Ao longo do mês, acontece o Hacktoberfest, evento promovido para estimular contribuições com projetos de código aberto. Confira os projetos da Open Knowledge Brasil que estão participando e entenda como colaborar.
02/10 – Prazo para se inscrever no curso Dados e Políticas Urbanas, ofertado pelo Insper.
04 a 06/10 – Série de webinars ‘Como criar um análise descritiva usando Power BI’, da EBAC.
05/10 – Aula aberta no contexto do curso ‘No alvo’, com Ivan Marques, Roberto Uchoa e Cecília Olliveira.
05/10 – Escritório de Dados da Prefeitura da Cidade do Rio de Janeiro realiza evento de lançamento dos dados do Centro de Operações no datalake municipal.
10/10 – Webinar ‘O uso do CKAN no ecossistema de dados abertos’, para participantes de nosso programa de membresia e do curso ‘Publicadores: Gerenciando dados abertos com o CKAN’.
10/10 – Reunião de apresentação da chamada de propostas para Pesquisa Estratégica em Internet previstas em convênio entre FAPESP, MCTI e MCom, no interesse do Comitê Gestor da Internet no Brasil – CGI.br.
15/10 – Prazo para se inscrever no Fellowship for Prospective Leaders, com bolsas de até € 2.600 mensais, organizado pelo German Chancellor Fellowship.
17 a 21/10 – Data da Coalesce, conferência voltada à engenharia analítica e a pessoas que trabalham com dados.
17 a 23/10 – Ocorre a Python Brasil, em Manaus (AM).
18/10 – Último dia para aplicar a vaga de coordenação de engajamento na América Latina da Organized Crime and Corruption Reporting Project (OCCRP).
24/10 – Início do curso online massivo ‘Jornalistas e saúde mental: como cuidar de nós mesmos e promover uma profissão saudável’, promovido pelo Centro Knight para o Jornalismo nas Américas.
31/10 a 06/11 – É a vez da sétima edição da Conferência de Jornalismo de Dados e Métodos Digitais, Coda.Br 2022, que terá atividades online e em São Paulo.
07 a 08/11 – Acontece a primeira edição da Data Privacy Global Conference, em São Paulo, organizado pela Data Privacy Brasil.
NO MUNDO DOS DADOS
Notícias e discussões quentes
The Follower
O artista belga Dries Depoorter, que trabalha com privacidade, inteligência artificial, vigilância e mídias sociais, provocou um grande debate na comunidade de tecnologia ao divulgar os resultados do projeto “The Follower”. Ele utilizou imagens de câmeras abertas ao redor do mundo e Inteligência Artificial para descobrir como uma foto do Instagram foi tirada.
O programa foi desenvolvido em Python a partir de gravações de imagens feitas pelas câmeras da webcam da Earthcam. Até um brasileiro foi flagrado fazendo sua selfie.
Ainda sobre Inteligência Artificial
Não há dúvidas de que o uso da Inteligência Artificial em diferentes ferramentas que fazem parte do nosso dia a dia será cada vez mais frequente. Pensando nisso, o escritor e programador Jon Stokes, co-fundador da Ars Technica, publicou um fio em sua conta no Twitter com noções básicas de aprendizado de máquina. No conteúdo, o especialista que já tem livros publicados sobre o assunto traz exemplos, diagramas e analogias que até mesmo criativos não técnicos podem usar para inferir coisas sobre o que eles estão fazendo quando estão criando e refinando prompts de geração de conteúdo de IA. O material completo pode ser lido neste link (em inglês).
¡Sigan el dinero!
No último dia 7, o Organized Crime and Corruption Reporting Project (OCCRP) com o apoio da Chile Transparente, SANCUS e a União Européia realizou um webinar para lançar o manual ‘Siga o dinheiro’, que tem como objetivo ajudar jornalistas a buscar empresas, propriedades, contratos públicos e processos judiciais na América Latina. Há dicas, ferramentas e técnicas para buscar dados públicos em 19 países, incluindo o Brasil. Tanto o webinar quanto a publicação estão disponíveis apenas em espanhol.
Cartéis de dados
Nesta semana, o laboratório de pesquisa DigiLabour publicou uma entrevista com Sarah Lamdan, professora da Escola de Direito da City University of New York que pesquisa políticas e legislação da informação. Ela é autora do livro Data Cartels: The Companies that Control and Monopolize Our Information, com lançamento previsto para novembro. Editado pela Stanford University Press, a obra aborda a perpetuação das desigualdades pelas empresas de análises de dados e defende a criação de estruturas digitais que apoiem ideais democráticos e o tratamento de dados como bem público.
Apagão de dados do Inep
No início deste mês, a Open Knowledge Brasil e a Associação de Pesquisa Data Privacy Brasil lançaram um relatório sobre workshop realizado no contexto do apagão de dados do Inep, que aconteceu em fevereiro deste ano. O encontro “LGPD e microdados: avançando em metodologias para avaliar riscos e garantir a transparência” contou com representantes de diversos setores (governo, setor privado, academia, jornalistas, terceiro setor) e evidenciou as diferentes perspectivas dos atores envolvidos com o tema a respeito da operacionalização de uma política de dados abertos que assegure o direito à proteção de dados pessoais dos cidadãos.
SAIBA MAIS
Para aprender mais e aprender sempre
Tecnologia, dados e políticas públicas
Datificação, bases de dados, políticas públicas datificadas, vigilância e vigilantismo, justiça de dados. Esses termos parecem outra língua para você? Neste mês, as pesquisadoras Clarice Tavares, Bárbara Simão, Anna Martha e Juliana Fonteles publicaram no Nexo um importante glossário com conceitos para tratar de tecnologias, dados e políticas públicas.
Narrativas digitais
Para a próxima geração de jornalistas latinxs. Este foi o tema de um curso online gratuito oferecido pelo Centro Knight de Jornalismo para as Américas em colaboração com a Microsoft. Originalmente realizada de 20 de junho a 17 de julho, a atividade foi ministrada por Amara Aguilar, designer, jornalista visual, repórter, produtora e consultora de engajamento em redes sociais. Agora, o treinamento está disponível como um curso autodirigido e pode ser acessado a qualquer momento, de qualquer lugar.
De olho nas eleições
O NetLab, Laboratório de Estudos de Internet e Mídias Sociais da Universidade Federal do Rio de Janeiro, lançou, ao longo de setembro, quatro relatórios analisando anúncios do Google, da Meta e do algoritmo de recomendação do YouTube no contexto das eleições de 2022. São eles: ‘Anúncios no 7 de setembro: estratégias e irregularidades da publicidade política no Google Ads’, ‘Irregularidades e opacidade nos anúncios do Google’, ‘Meta Ads: voto impresso e ataques à integridade eleitoral’ e ‘Recomendação no YouTube: o caso Jovem Pan’.
SNIPPETS
Dicas curtas e certeiras
Desde o início de setembro, está liberado para usuários da ferramenta CruzaGrafos, informações sobre os 29.058 candidatos às eleições de 2022.
O Observatório de Ética Jornalística (ObjETHOS) lançou a publicação ‘Transparência Jornalística: o que é e como se faz?’, que visa subsidiar o debate sobre a necessidade da adoção de mais transparência no jornalismo brasileiro.
Flourish disponibilizou um artigo apontando 4 erros comuns em visualizações de dados e como resolvê-los.
Eduardo Amaral lançou o xlRCode, uma integração do R com o Excel possibilitando que o Excel rode scripts, acesse bibliotecas ou até mesmo transfira dados entre eles.
A Escola Britânica de artes criativas & tecnologia (EBAC) organizou o webinar ‘Iniciando em análise de dados com Python’ com acesso gratuito.
Yanina Bellini disponibilizou o curso Sensoriamento remoto com R aplicado à agricultura’ e Ujaval Gandhi o curso Mapeamento e Visualização de Dados com Python.
Ravit Dotan organizou um documento com várias perguntas que podem ser feitas por organizações para entender os riscos que a Inteligência Artificial representa para sociedade.
A jornalista Judite Cypreste incluiu em seu site o material do seu curso de jornalismo de dados ofertado na Universidade de Brasília (UNB).
Simon Willison escreveu um tutorial ensinando como rodar o compilador PyPy no MacOS.
Jared Wilber fez uma introdução visual sobre Regressão Linear contendo quase tudo que é necessário saber sobre o assunto.
Miguel Ramalho escreveu um artigo para o Bellingcat’s sobre a ferramenta Auto Archiver, que arquiva conteúdos de maneira uniforme e simplificada, independentemente da plataforma ou tipo de mídia.
No Towards Data Science, Kenneth Leung escreveu um guia prático sobre PyMySQL, Elad Rapaport fez a parte dois sobre recomendadores usando Tensorflow e Shawhin Talebi continuou seu artigo sobre Efeitos Causais.
O Núcleo Jornalismo destacou dois novos bots para transcrição de áudios no WhatsApp: ViraTexto, da empresa Take Blip, e o Instant Class, desenvolvido por Guilherme Ribeiro.
INSPIRA
Trabalhos e iniciativas inovadoras para te inspirar
Neste mês, o programa Ciência de Dados para Inovação Cívica, da Open Knowledge Brasil, lançou a versão 2022 do Perfil Político. A ferramenta compila dados oficiais das candidaturas ao Executivo e Legislativo de todo o país para as eleições deste ano e ajuda a conhecer e comparar seus históricos — político e financeiro.
A plataforma é voltada tanto para a sociedade civil, que quer saber mais sobre os candidatos, quanto para jornalistas e formadores de opinião que queiram construir pautas em cima de dados relevantes, como declaração de bens e patrimônio, mudanças de partido, cargos já exercidos e desempenho em eleições passadas.
NOVOS DADOS
Conjuntos de dados e plataformas publicados recentemente
O Instituto Fogo Cruzado e o Grupo de Estudos dos Novos Ilegalismos (GENI) lançaram o Mapa Histórico dos Grupos Armados do Rio de Janeiro.
Gabriel Zanlorenssi organizou e disponibilizou uma planilha com todas as receitas das campanhas dos candidatos à presidente em 2022.
Bruno Stabile tratou e liberou na plataforma da Base dos Dados a tabela com a lista da fauna e flora ameaçadas de extinção, publicada pelo Ministério do Meio Ambiente.
APT UPDATE
Atualize-se com as novidades de softwares e bases de dados
A API Minha Receita agora tem a lista das URLs dos arquivos para download
no formato TSV e a data de extração dos dados.
JSON Crack 2.0, dentre as várias novidades agora possui validador JSON e melhoria de algoritmo em arrays nulos.
A nova versão da biblioteca DocArray permite exibição de documentos de imagem usando tensor ou URI, adicionar operadores lógicos no Redis, entre outros.
Nas principais novidades do Airflow 2.4 temos agendamento com base em outras tarefas de atualização e gerenciamento facilitado de bibliotecas Python conflitantes.
Pandas 1.5 chega com mais atributos no read_xml, ler diretamente arquivos .tar, método para visualizar cálculos adicionais sobre os dados nos rodapés, e mais.