MARÇO/2022

Olá,

Lançamos nesta semana nossa mais nova publicação! 🙂

Geodados: uma introdução gentil” é o quinto ebook listado em nossa página e, assim como outros materiais gratuitos que disponibilizamos, foi construído com o apoio de você que faz parte de nosso programa de membresia. Esta é uma publicação de código aberto, disponível nos formatos HTML (gis.escoladedados.org), PDFMOBI e EPUB.

Todo o conteúdo pode ser editado, atualizado e melhorado, por meio de contribuições em nossos repositórios no GitHub. Os textos e exercícios cobrem os fundamentos básicos para trabalhar com dados espaciais usando softwares livres e dados abertos, como o QGIS e o Open Street Maps.

Outro conteúdo aberto que publicamos foi o tutorial sobre raspagem de dados sem programação, além de vários vídeos curtos em nosso canal no YouTube, com alguns dos melhores momentos da última edição de nossa conferência anual, o Coda.Br. Para votar no tema do próximo tutorial, participe da enquete disponível no grupo no Telegram.

Em abril, iremos fechar a primeira turma de nosso curso de curta duração sobre inteligência com fontes abertas (Open Source Intelligence ou OSINT), um conjunto de técnicas e metodologias para a realização de investigações digitais. As aulas ao vivo terão início em maio e você tem direito a 20% de desconto sobre a taxa de inscrição. Saiba mais e candidate-se a uma das últimas vagas.

Boa leitura e até a próxima,

Adriano Belisario
Coordenador da Escola de Dados

AGENDA

Oportunidades e prazos para não perder de vista


• 01/04 – Prazo para participar da consulta pública sobre o Plano de Dados Abertos, realizado pelo Instituto Nacional do Semiárido (INSA) e o Ministério de Ciências, Tecnologia e Informação (MCTI).

• 01-02/04 – Acontece o International Symposium on Online Journalism (ISOJ), realizado pelo Knight Center.

• 03/04 – Após a ISOJ, ocorre o Colóquio Ibero-Americano de Jornalismo Digital, uma conferência em espanhol.

• 02/04 – Prazo para inscrever trabalhos na versão brasileira do Summer Institute in Computational Social Science, na Fundação Getúlio Vargas.

• 06-10/04 – Acontece a XVI edição do International Journalism Festival, que será gratuito e terá todas as sessões transmitidas ao vivo.

• 07/04 – Abertura de chamada para envio de propostas de palestras no evento Data for Policy.

• 10/04 – Último dia para se candidatar para a vaga temporária de pessoa desenvolvedora na Énois Conteúdo.

• 15/04 – Prazo para se inscrever nas bolsas AI Accountability de até US$ 20.000, oferecidas pelo Pulitzer Center.

• 22/04 – Último dia para enviar seus notebooks ou artigos sobre código aberto ao Google Open Source Expert Prize, prêmio oferecido em parceria com o Kaggle.

• 28/04 – Prazo para inscrições em bolsas do curso ‘Eleições e Proteção de Dados’, oferecido pelo Data Privacy Brasil.

• 30/04 – Último dia para enviar trabalhos sobre chatbots e COVID-19, no Journal of Medical Internet Research (JMIR).

• 02/05 –  Prazo para se candidatar a uma das 60 vagas do Ministério da Agricultura, Pecuária e Abastecimento (Mapa), para profissionais com ensino superior. Os postos de trabalho são em áreas como análise e governança de dados.

• 09/05 – Prazo para acadêmicos do sul global com doutorado se inscreverem nas bolsas internacionais oferecidas pela Urban Studies Foundation.

• 8-10/06 – Acontece o re:publica, festival de cultura digital, em Berlin.

• 20/06 – Data limite para o envio de propostas ao FINEP, que visa financiar laboratórios abertos de prototipagem e espaços compartilhados em Instituições de Ciência e Tecnologia.

• 25-28/06 – rstudio::conf(2022), conferência organizada pela comunidade do RStudio, acontece nos Estados Unidos.

• 03-07/08 –  17º Congresso Internacional de Jornalismo Investigativo da Abraji, em formato híbrido.

NO MUNDO DOS DADOS

Notícias e discussões quentes



Mercado de trabalho de dados e jornalismo

Mais investimentos de empresas privadas e um domínio entre China e Estados Unidos da América quando se trata de colaborações bilaterais entre países. Estas foram algumas das conclusões do diagnóstico sobre inteligência artificial publicado em março pela Universidade de Stanford. O AI Index Report também comenta sobre os vieses dos modelos de linguagem natural atuais e aponta um aumento global nas pesquisas sobre ética.

Saiu também o State of Data Brazil 2021, uma pesquisa sobre o mercado de trabalho com dados que teve mais de 2.600 respondentes. Profissionais de TI e engenharia ainda são maioria, mais de 66% do total, mas há também um número considerável de de áreas como economia, jornalismo, marketing, entre outras. No final do mês, 40% das pessoas indicou ter um salário maior que R$ 8 mil.

Jornalistas podem também conferir os indicadores do Atlas da Notícia e do Reuters Institute. O primeiro destacou que agora o jornalismo online agora é maioria, mas cerca de 14% da população ainda vive uma cidade considerada um “deserto de notícias”. Já o segundo, após pesquisar a participação feminina na imprensa em 12 países, descobriu que apenas 7% das pessoas em cargos altos de edição nas redações brasileiras são mulheres. Foi a pior performance entre os mercados analisados.

E, na confluência das áreas, o New York Times anunciou planos mais ambiciosos para seus trabalhos em jornalismo de dados. “Queremos que os leitores recorram regularmente ao Times para análises sofisticadas, painéis e ferramentas orientadas por dados e projetos de investigação impactantes”, anunciaram alguns editores do jornal em texto recente. Além de abrirem novas vagas, dados eleitorais e climáticos estão entre as áreas que receberão uma atenção especial do grupo.


 

Números nas telas e caixas de som

Visualizações na web e em impressos são bastante comuns, mas como trabalhar com dados para contar histórias atraentes em podcasts e vídeos? Algumas dicas valiosas foram compartilhadas por jornalistas em março.

“Áudio é onde você pode fazer dados e números brilharem”, afirmou Angelina Salazar, da Sonoro Podcast, em alto e bom tom. A empresa se apresenta como a principal rede de podcasts da América Latina.

Salazar e Jessica Jaglois (University of Memphis) participaram de um painel do NICAR 2022, que aconteceu em março, com atividades online e em Atlanta (EUA).

Ambas enfatizaram a importância de escolher bem os números utilizados e sempre humanizá-los. A máxima “menos é mais” vale também no audiovisual, inclusive na própria construção do texto dos roteiros. Nós acompanhamos o evento e destacamos outras sessões e o guia de recursos do evento em uma postagem recente.

Em sua apresentação, a jornalista do Sonoro Podcast citou trabalhos de referência quando se trata de visualizações de dados em áudio, como o Audiograph da BBC e programa do Radiolab sobre cores. Para a TV, Jaglois apresentou ferramentas simples que usa nas reportagens do dia a dia, como o software para captura de tela FreeCam e o Google My Maps.

SAIBA MAIS

Para aprender mais e aprender sempre


Análise de dados com Jupyter Notebook

Um dos mais respeitados centros de pesquisa sobre opinião pública, o Pew Research Center mostrou como montou sua infraestrutura interna de análise de dados. Tudo começou em 2015, após a formação de uma equipe interna de ciência social computacional, quando o think tank decidiu desenvolver novos fluxos de trabalho para lidar com os dados.

Partindo da identificação de uma série de requisitos necessários para a infraestrutura, o grupo optou por usar soluções do Jupyter na “nuvem”. A primeira fase envolveu a disseminação do Jupyter notebooks como interface padrão para processar e analisar os dados. Na sequência, o time passou a usar o JupyterHub como espaço de trabalho colaborativo. Saiba mais no texto de Brian Broderick no Medium.

E, se você já usa o Jupyter Notebook, atenção: pesquisadores identificaram o primeiro ransomware baseado em Python especificamente desenhado para sequestrar informações de análises de dados feitas com essa ferramenta. Saiba mais na notícia do ZDNet e veja a descrição do ataque e as medidas de segurança que devem ser tomadas no site do grupo Aquasec.


 

Visualização de dados

Responsável pela comunicação do Datawrapper, Lisa Charlotte publicou mais um texto, o mais extenso e completo já feito pela autora, sobre visualização de dados. Quem acompanha o Boletim e as atividades da Escola de Dados talvez reconheça seu nome, que referenciamos frequentemente por aqui por conta de seus ótimos tutoriais.

Novo guia do Datawrapper mostra o uso de cores em guias de estilo de visualização

O mais novo guia disseca o uso de cores em guias de estilo de visualização de dados, muito úteis para alinhar as produções de gráficos com a identidade visual de uma organização, por exemplo. Interessados na área podem se inspirar e descobrir mais sobre o mercado de trabalho em visualização de dados, com os resultados da competição de gráficos sobre o ‘State of the Industry 2021’, pesquisa do Data Visualization Society.


 

Investigações digitais e a guerra na Ucrânia

Diversos veículos repercutiram a relevância do trabalho com fontes abertas (OSINT) nas investigações sobre a invasão da Ucrânia pela Rússia em 2022. Enquanto o Washington Post mostrou o trabalho de sua equipe de “visual forensics” analisando imagens e dados sobre a guerra, o Rest of World destaca a contribuição de pesquisadores e contas anônimas. Em português, o Geocracia também tratou do tema. Para aprender mais sobre o tema na prática, você pode conferir também o tutorial publicado no OS2INT sobre geolocalização e análise dos vídeos do conflito.

SNIPPETS

Dicas curtas e certeiras


Pulitzer Center está oferecendo ajuda financeira de até $25,000 para reportagens que usem técnicas avançadas de mineração de dados para resolver problemas ou de cunho investigativo.

Redações ainda podem se inscrever para as últimas vagas da consultoria e levantamento de dados gratuitos sobre diversidade para redações, feita pela ÉNois.

Para ficar de olho: está em tramitação na Câmara dos Deputados um projeto de lei para aumentar a transparência sobre dados fundiários.

A Coding Rights completou 7 anos e em comemoração lançou um canal no Telegram e WhatsApp com informações sobre intersecções entre tecnologia e feminismos.

Tem tutorial novo sobre o Observable Plot, trazendo uma introdução para pessoas que já estão familiarizadas com o Matplotlib em Python.

Cecília Vieira iniciou em seu blog uma série de artigos contendo conceitos sobre estatística básica aplicada à Ciência de Dados.

Já David Keyes disponibilizou uma versão em construção do livro ‘R without Statistics’, com o objetivo de mostrar o poder da linguagem para além de fins estatísticos.

Ainda em R: Beatriz Milz mostrou como importar dados em planilhas do Google Sheets e Mara Averick falou de visualização de dados acessíveis com o pacote highcharter.

Está disponível versão em português do site MicroSD, que traz ferramentas de segurança digital e proteção de dados de jornalistas, comunicadores e ativistas.

Melhorias no OpenAi: a nova versão do GPT-3 pode editar ou inserir textos ou códigos em documentos já existentes. Os resultados da atualização podem ser sentidos em breve por usuários do GitHub Copilot.

A Abraji anunciou o lançamento do Abramos Dados, plataforma que comporta as bases de dados coletadas pelo jornalista Cláudio Weber Abramo, e uma parceria para fornecer acesso à ferramenta Aleph.

INSPIRA

Trabalhos e iniciativas inovadoras para te inspirar


Neste mês, a NASA divulgou uma visualização de dados para mostrar o cenário alarmante de mudança climática ao longo de quase 150 anos. A espiral climática animada desenvolvida pelo cientista Ed Hawkins, do Centro Nacional de Ciências Atmosféricas da Universidade de Reading, mostra as variações da temperatura global entre os anos de 1880 e 2021.

Na visualização, que se inicia em 2 dimensões, os círculos brancos e azuis indicam temperaturas mais baixas, enquanto os laranjas e vermelhos mostram temperaturas mais quentes. Cada ano mostrado na exibição do círculo se transforma numa camada da espiral, que é exibida no fim do vídeo. Não deixe de ver até o final.

Até 1940, é possível observar um avanço tímido nos aumentos de temperatura, mas no início deste século, a situação mudou drasticamente. Visualizações de espirais climáticas têm sido amplamente divulgadas por facilitar a compreensão do público em relação ao tema das mudanças climáticas. Uma versão desta visualização chegou a fazer parte da cerimônia de abertura dos Jogos Olímpicos de 2016, no Rio de Janeiro.

UPDATE

Atualize-se com as novidades de softwares e bases de dados


Banco Mundial liberou microdados sobre ética e corrupção no serviço público federal, extraídos de uma pesquisa entre mais de 22 mil servidores do país.

Lançado pela USP, o UrbanData é um novo banco de dados bibliográficos sobre o espaço urbano brasileiro.

Dados sobre o prêmio de jornalismo de dados Sigma Awards dos anos 2020 e 2021 agora estão no GitHub.

Dados sobre furtos na cidade de São Paulo, de 2016 a 2022, foram disponibilizados pela agência Fiquem Sabendo.

Repórter Brasil lançou o projeto ‘Mapa da Água’, que conta também com um repositório no GitHub, sobre substâncias tóxicas presentes na água que sai da torneira no Brasil.

Fundação Getúlio Vargas criou uma ferramenta que permite a realização de buscas em decisões publicadas pelo Supremo Tribunal Federal.

Microsoft e outras iniciativas lançaram a plataforma ‘PrevisIA’, que utiliza Inteligência Artificial e dados do INPE para prever riscos de desmatamento na Amazônia.

Rafael Azevedo disponibilizou um algoritmo de reconhecimento facial dos participantes do BBB em repositório no GitHub.

JupyterLab 3.3.0 chega trazendo uma interface amigável para editar configurações, possibilidade de abrir notebooks direto na plataforma e personalização da barra de ferramentas.

Nova versão do PyTorch apresenta a versão beta do TorchData, biblioteca para construir fluxos de dados, e do FunTorch, para transformação de função composta.

GitHub agora melhorou a integração entre os recursos de “branches” e “issues” na plataforma.

Datawrapper incluiu 8 pequenos ícones de guerra nos mapas de geolocalização, adicionou a opção de incluir uma borda transparente em PDF e outras melhorias.

Mitosheet, uma biblioteca Python, cria uma interface gráfica similar a de um editor de planilha integrada ao Pandas, gerando o código Python para todas as etapas executadas.

Feito para facilitar a extração de dados sobre o mercado de eletricidade, o finnishgrid foi um dos destaques entre novos pacotes em R selecionados na R Views.

Bibliometria em R: o pacote bibliometrix chegou à versão 4.0.

Google Docs anunciou o suporte ao uso de Markdown nos documentos.


Sugestões? Envie um e-mail para [email protected].