#37 Adeus ao RStudio e números sem numerismo
Julho/2022
AGENDA
Oportunidades e prazos para não perder de vista
03 a 07/08 – 17º Congresso Internacional de Jornalismo Investigativo da Abraji, em formato híbrido.
05/08 – Prazo para se inscrever em bolsas de até $ 500 para jornalistas que trabalham com dados e códigos, oferecidas pela OpenNews.
09 a 11/08 – Acontece o I Encontro da Rede Brasileira de Repositórios Digitais, promovido pela Fiocruz, Ibict e as Redes Regionais de Repositórios.
11/08 – O Cerveja com Dados volta a São Paulo, em sua primeira edição pós-pandemia na capital paulista.
12/08 – E, no dia seguinte, é a vez de Recife receber mais um encontro do Cerveja com Dados.
15/08 – Prazo de submissão de trabalhos na área de matemática para The Summer of Math Exposition, com prêmio de $ 1.000.
17 a 18/08 – 13º Seminário de Proteção à Privacidade e aos Dados Pessoais em São Paulo.
23/08 – Webinar sobre a JSAT, ferramenta para avaliar os esforços de segurança física e digital de uma organização de mídia, organizado pelo GIJN.
24/08 – Prazo final para a chamada de propostas da PyData NYC.
26 a 28/08 – Acontece a Python Nordeste em Aracaju.
29/08 – Início do nosso curso Python para Inovação Cívica. As inscrições estão abertas.
01/09 – Começa o nosso curso Publicadores: gerenciando dados abertos com o CKAN. As inscrições também seguem abertas.
31/08 – Data limite para participar de cursos gratuitos sobre Inteligência Artificial e automação de redações, oferecidos pela Associated Press.
31/08 – Último dia para solicitar fundos para projetos que utilizem as ferramentas e os dados da Global Forest Watch na redução do desmatamento.
14/09 a 15/09 – Acontece a Git Merge 2022, um grande encontro internacional da comunidade Git.
15/10 – Prazo para se inscrever no Fellowship for Prospective Leaders, com bolsas de até € 2.600 mensais, organizado pelo German Chancellor Fellowship.
17 a 23/10 – Ocorre a Python Brasil, em Manaus (AM).
31/10 a 06/11 – É a vez da sétima edição da Conferência de Jornalismo de Dados e Métodos Digitais, Coda.Br 2022, que terá atividades online e em São Paulo.
NO MUNDO DOS DADOS
Notícias e discussões quentes
RStudio vira Posit e mira além do R
Pensando em novos horizontes, o RStudio oficializou durante a rstudio::Conf2022 a mudança de seu nome corporativo para Posit, visando dar mais credibilidade à utilização dos seus produtos em Python, que já existem há alguns anos, mas contam com pouca adesão.
De todo modo, o desenvolvimento da linguagem R continuará. “Nunca haverá um idioma para governar todos eles, R sempre foi sobre construir pontes, combinando ferramentas para fazer as coisas”, disse Hadley Wickham, cientista-chefe do RStudio.
Nesse caminho, o Quarto nasceu com a proposta de ser “a próxima geração do R Markdown”, um sistema de publicação científica e técnica, reunindo o aprendizado de 10 anos do R Markdown. O objetivo é melhorar o processo de criação e colaboração em documentos científicos e técnicos, sem se limitar à linguagem R. O famoso construtor de painéis interativos (dashboard) Shiny também não ficou de fora e lançou sua versão alpha para uso em Python.
Reportando números sem numerismo
Números não falam por si mesmos. Ainda assim, muitas pessoas acreditam em uma ideologia que pode ser chamada de numerismo, “que confere um status epistêmico privilegiado à quantificação”, e jornalistas não são exceção. Esta é a posição do artigo ‘Number Soup: Case Studies of Quantitatively Dense News’ publicado em julho por um grupo de pesquisadores, que trata do uso de dados na imprensa.
Em vez de longas e complexas sentenças, repletas de números, o artigo sugere que jornalistas escrevam frases mais curtas e claras. Igualmente importante é fornecer o contexto por trás das estatísticas, sendo transparente sobre incertezas, limitações e os métodos da pesquisa. No Nieman Lab, Joshua Benton resenhou a publicação e destacou conclusões importantes, como o fato de que geralmente a inclusão de muitos números em um texto está associada a uma maior complexidade gramatical das sentenças, resultando em dificuldades de compreensão para um público que não esteja acostumado a este tipo de texto.
Jornalismo de dados nas universidades
Na IJNet, Taís Seibt abordou a disseminação de cursos e disciplinas sobre jornalismo de dados nas universidades brasileiras. O texto pincela as dificuldades de docentes e alunos para incorporar o trabalho com dados à prática jornalística, passando por desafios que vão desde o acesso à informação em portais de transparência à ausência de uma formação em estatística nas faculdades de comunicação.
Aquecimento para as eleições no Brasil
A Global Investigative Journalism Network (GIJN) publicou o ‘Guia de eleições para repórteres investigativos’, que oferece várias ferramentas e técnicas para ajudar no aprofundamento investigativo de quase todos os tipos de eleição. Já para dicas à brasileira, vale conferir o webinar sobre eleições no Brasil em 2022, que teve a presença de Juliana Dal Piva, Breno Pires e Jamile Santana, e foi mediado por Sérgio Lüdke.
SAIBA MAIS
Para aprender mais e aprender sempre
Programando com ajuda de inteligência artificial
Em edições anteriores, já comentamos aqui sobre a GPT-3, algoritmo de processamento de linguagem natural, e soluções como o GitHub Copilot, que coloca tecnologias de inteligência artificial (IA) a serviço das pessoas que desenvolvem softwares. Explorando a versão beta da OpenAI, é possível descrever tarefas e pedir para a IA escrever códigos que a executem. Experimente, por exemplo, pedir algo como “escreva um script Python para baixar um arquivo ZIP e descompactá-lo” e você verá o código surgir sozinho na tela.
Além disso, como Simon Willison mostra em post recente, é também possível fazer o caminho inverso, ou seja, apresentar um código e pedir que a GPT-3 o explique. Saiba mais e veja exemplos na postagem ‘Using GPT-3 to explain how code works’.
Falando em IA, Ethan Mollick usou o DALL-E para imaginar como artistas como Picasso, Monet ou Basquiat (reprodução acima) criariam um gráfico acadêmico.
Comparando distribuições
Uma das tarefas mais comuns na ciência de dados é a análise da distribuição de uma variável, algo especialmente importante em experimentos com grupos randomizados e testes A/B. Matteo Courthoud escreveu um guia completo usando estatística e visualização de dados, com Python, e mostrando como comparar distribuições corretamente, apontando motivos de erros comuns e como saná-los.
Busca avançada na web
Referência quando o assunto é busca avançada na web, Michael Bazzell liberou novamente o acesso a suas interfaces para facilitar a busca em fontes online abertas. São mais de 20 categorias, que vão desde redes sociais a pesquisa de veículos. Em seu livro ‘Open Source Intelligence Techniques’, que chegou à nona edição este ano, Bazzell destrincha esta e outras técnicas de OSINT. Outro link imperdível sobre o assunto é o workshop ‘So You Think You Can Google?’ feito por Henk van Ess em julho, que mostra como extrair o máximo da busca do Google.
Como Nightingale mudou a visualização de dados para sempre
Na edição de agosto da Scientific American, R J Adamsn escreveu um artigo sobre Florence Nightingale, pioneira da visualização de dados e da enfermaria moderna. A publicação conta histórias do período da guerra da Criméia no século XIX e mostra como ela utilizou estatística e “data storytelling” com maestria para informar sobre a perda de soldados e os impactos do conflito. A versão online traz versões dos gráficos de Nightingale em boa resolução.
SNIPPETS
Dicas curtas e certeiras
Os materiais do curso CS109A Data Science de Harvard estão abertos e disponíveis para todos.
O GIJN preparou um guia de investigação sobre a elevação do nível do mar, que conta com capítulos específicos sobre mapas, dados e visualizações.
A SciPy Conf 2022 disponibilizou uma playlist no YouTube com o vídeo de todas as atividades do evento.
O time do Knowing Machines compartilhou uma lista de referências acadêmicas para estudos críticos a respeito do uso de conjuntos de dados (datasets) em processos de aprendizagem de máquina.
O Tiny Python Projects liberou o acesso ao seu livro de mesmo nome. É possível também acessar o mesmo conteúdo em vídeo no canal deles no YouTube.
A Base dos Dados, em parceria com Souk Analytics, organizou o curso ‘Análise de Dados do Governo’, que pode ser acessado gratuitamente, com direito a certificado.
No Towards Data Science, Andrew D tratou de análise exploratória com Python, Fernando Barbalho escreveu sobre sazonalidades e séries temporais com R e Cassie Kozyrkov falou sobre erros comuns ao realizar testes com aprendizagem de máquina.
O episódio 11 da série ‘SQL para análise de dados’, produzido pelo canal Programação Dinâmica, explica como lidar com strings em consultas.
Simon Willison publicou um novo tutorial ensinando como limpar dados utilizando sql-utils e Datasette, incluindo uma demonstração rápida em vídeo.
O YouTube expandiu o acesso da sua API para pesquisadores acadêmicos, como parte do YouTube Researcher Program.
Gabriela Caesar publicou a visualização de dados ‘Eleições no Brasil’, que compara o desempenho dos presidenciáveis em cada UF, com dados desde 2002.
E a Rede Ponte e a Base dos Dados disponibilizaram o painel interativo ‘Fotografia do Município’, que permite acessar facilmente dados de educação, representatividade, violência, mobilidade urbana, entre outros, em nível municipal.
INSPIRA
Trabalhos e iniciativas inovadoras para te inspirar
Neste mês, o The New York Times trouxe uma reportagem interativa revelando diversas pistas de pouso clandestinas que levam operações criminosas de mineração aos cantos mais remotos da Amazônia, mais de 60 delas em território Yanomami. A investigação, feita em parceria com o The Intercept Brasil, identificou 1.269 pistas de pouso sem registro legal, 362 destas localizadas perto de áreas devastadas pelo garimpo na região da Amazônia Legal.
Pistas de pouso clandestinas na Amazônia
Colaboração do Intercept com o Pulitzer Center e a ONG Earthrise Media, que analisou dados e imagens de satélite, a apuração utilizou OpenStreetMaps, informações do Instituto Socioambiental e de investigações policiais, além de estruturas identificadas visualmente ao longo da apuração para chegar ao número final das pistas.
No Coda Amazônia, Hyury Potter, que assina a matéria do Intercept, mostrou como analisar dados geográficos usando o QGIS e a plataforma Amazon Mining Watch, cruzando-os com informações da Agência Nacional de Mineração para verificar se o garimpo é legal, no workshop Mapas e AI: Como investigar dados georreferenciados. A documentação completa da sessão será publicada em breve.
NOVOS DADOS
Conjuntos de dados e plataformas publicados recentemente
Lançada Plataforma Nimuendajú, um mapa etno-histórico do Brasil e regiões adjacentes, permitindo interação por meio de consultas diretas no banco de dados ou filtros.
A plataforma TerraBrasilis agora tem um plugin que pode ser instalado no QGIS, facilitando o consumo de dados do serviço.
O Instituto de Estudos para Políticas de Saúde (IEPS) criou uma nova ferramenta, o IEPS Data, para analisar e comparar dados de saúde no Brasil, com mais de 180 indicadores, além de diferentes recortes geográficos e temporais.
Os dados de empresas disponíveis na OpenCorporates agora também estão vinculados ao OpenSanctions.
O Banco Interativo de Desenvolvimento (BID) organizou o ‘Code for Development’, um catálogo para compartilhar recursos e softwares de código aberto, além de conectar comunidades com o mesmo propósito.
Aos Fatos lançou o ‘Banco de Discursos’, plataforma que reúne transcrições de discursos, entrevistas e lives dos principais pré-candidatos à Presidência da República.
APT UPDATE
Atualize-se com as novidades de softwares e bases de dados
Hunchly 2.3.2 traz menu de exportação personalizado, cores ajustadas para melhorar a legibilidade, entre outros. Membros do nosso programa de membresia têm desconto ao adquirir a ferramenta.
Lançada a biblioteca Color.js para trabalhar com cores em JavaScript, que traz diferenciais como uma API orientada a objetos.
PyTorch 1.12 traz novos pesos pré-treinados no TorchVision, aumento do número de conjuntos de dados no TorchText, entre outros.
O LibreOffice 7.4 chegará em algumas semanas e uma das novidades é o suporte a 16.384 colunas no Calc.
Script em R criado por Fernando Barbalho trata documentos de despesa do portal da transparência, uma alternativa à API do portal.
Conheça Minerva, modelo de linguagem capaz de resolver questões matemáticas passo a passo, usando processamento de linguagem natural.
Rafael Saldanha lançou o brpop, pacote em R para estimativas populacionais de municípios e estados por faixas etárias e sexo, de 2000 a 2021.
Mapiso é um pacote em R que facilita o trabalho com malhas (grids) e polígonos em geodados.
Simon Willison lançou a ferramenta sqlite-comprehend, que pega os textos nas tabelas do SQLite, extrai entidades do AWS Comprehend via API e armazena o resultado no mesmo banco.