#32 Cadê os microdados que estavam aqui?

FEVEREIRO/2022

Olá,

Quer se planejar para participar de nossos cursos e eventos? Em fevereiro, lançamos o calendário de atividades da Escola de Dados para 2022, com as atividades previstas até o momento. Confira e reserve as datas de seu interesse! 🙂

Falando em curso, lançamos recentemente uma formação inédita sobre inteligência com fontes abertas (OSINT), um dos temas recorrentes daqui do Boletim. As vagas são limitadas, candidate-se a uma delas para aproveitar seu desconto de 20% como participante do programa de membresia.

Você também pode aproveitar o desconto diretamente no site, para o curso ‘Publicadores de dados: da gestão estratégica à abertura’, cuja última turma foi aberta recentemente. Ainda em fevereiro, botamos mais um ebook em nossa estante, com a publicação ‘Análise de dados educacionais: aplicando evidências na gestão pública’.

E, no Boletim deste mês, falamos sobre o “apagão de dados” na educação no Brasil, a nova regulamentação de inteligência artificial na China, aplicações desta tecnologia nas redações, a situação do jornalismo de dados no mundo e muito mais. A agenda para março está recheada e traz destaques como o Open Data Day, uma iniciativa global organizada pela Open Knowledge e diversas redes internacionais, para fortalecimento do ecossistema de dados abertos.

Boa leitura e até a próxima,

Adriano Belisario
Coordenador da Escola de Dados

AGENDA

Oportunidades e prazos para não perder de vista


• 02/03 – O BEAAMO, grupo de pesquisa da Universidade da Califórnia em Berkeley, convida pessoas interessadas na auditoria e avaliação de algoritmos usados na justiça criminal no Brasil e nos EUA a participar de seu Summer Fellowship.

• 03/03 – Acontece o 2º VS Code Day, encontro virtual com a comunidade de usuários do editor Visual Studio.

• 03/03 – Início da Conferência de Jornalismo de Dados NICAR22, promovida pelo Investigative Reporters & Editors (IRE).

• 04/03 – Prazo para se inscrever nas vagas de conteudistas de cursos de transformação digital, oferecidas pela Escola Virtual do Governo da Enap.

• 05/03 – Open Data Day 2022, evento que acontece no Brasil e em várias partes do mundo para abertura de dados.

• 06/03 – Último dia para se inscrever propostas de participação no festival re:publica 22, que ocorre em julho na Alemanha.

• 06/03 – Término da chamada para submissões de trabalhos para a revista Internet&Sociedade.

• 06/03 – Término das inscrições para Bolsas de Tecnoinvestigações, voltadas a pessoas negras e oferecidas pelo The Intercept Brasil.

• 07/03 – Início do Mozilla Festival, conferência de tecnologia organizada pela Mozilla Foundation.

• 07/03 – Prazo para se inscrever no programa de estágio em tempo integral no RStudio.

• 10/03 – Começo do NPA Summit 2022, evento sobre produtos de notícias, promovido pela News Product Alliance.

• 10/03 – Último dia para enviar propostas para o fórum Data of Policy, sobre impacto e potência dos dados no setor governamental.

• 10/03 – Prazo para se inscrever no programa The Future Rising Fellows, sobre igualdade de gênero e mudanças climáticas, oferecido pela Girl Rising.

• 11/03 – Último dia para adquirir ingressos antecipados para 11ª RightsCon, conferência online sobre direitos humanos na era digital.

• 13/03 – Prazo para solicitar bolsas no Information Controls Fellowship Program para  pesquisa relacionadas a censura e vigilância na internet.

• 13/03 – Encerramento das inscrições para o curso de ciência de dados no programa Top Coders, promovido pela Let’s Code em parceria com o Banco Safra.

• 14/03 – Término da chamada para enviar propostas de palestras na rstudio::conf(2022).

• 14/03 – Último dia para se inscrever na Especialização em Estatística Aplicada, oferecida pela Universidade Federal Rural do Rio de Janeiro (UFRRJ).

• 15/03 – Encerramento das inscrições para descontos e bolsas na inscrição do Lede Program for Data Journalism, programa da Universidade de Columbia, considerado referência na área de jornalismo de dados.

• 15-25/03 – Acontece o Festival 3i – Jornalismo Inovador, Inspirador e Independente, online e gratuito.

• 17/03 – Prazo para artistas enviarem propostas de até 20 mil euros ao programa AI Anarchies, desenvolvendo trabalhos sobre Inteligência Artificial e Ética.

• 20/03 – Término das inscrições para o curso sobre ciência de dados aplicada à saúde, ofertado pela Fiocruz.

• 24/03 – Último dia para enviar seus notebooks ou artigos sobre código aberto ao Google Open Source Expert Prize, prêmio oferecido em parceria com o Kaggle.

• 30/03 – Open Data Institute realiza o evento online “Compartilhando melhor os dados: a ascensão das instituições de dados”.

• 30/03 – Começo do curso gratuito de Machine Learning com Matemática e Ética voltado para mulheres entre 15 e 21 anos, oferecido pelo Coppe/UFRJ em parceria com IST Lisboa.

NO MUNDO DOS DADOS

Notícias e discussões quentes


Apagão de dados no INEP​​

No último dia 18, o Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira (Inep), vinculado ao Ministério da Educação, publicou os dados do Enem 2020 e do Censo Escolar da Educação Básica 2021 suprimindo diversas informações outrora públicas. O órgão também retirou do ar os microdados da série histórica do Censo Escolar e do Enem.

Para efeitos de comparação, Marcelo Soares, do Lagom Data, mostrou que os microdados do Censo Escolar 2021 estão armazenados num arquivo zip de 23 MB, enquanto que os do ano anterior somavam 1,9 GB. Segundo o Estadão, os microdados suprimidos do Censo continham informações sobre os alunos e professores da educação básica, e os do Enem traziam dados sobre a situação socioeconômica dos participantes da prova, servindo para orientar a elaboração de estudos e políticas públicas na área de educação.

A mudança causou uma forte oposição de organizações da área de transparência, educação e mesmo de instituições como a Defensoria Pública da União. Em defesa da remoção dos dados pessoais, por sua vez, o Inep alegou que a reformulação visa o “pleno atendimento” à Lei Geral de Proteção de Dados Pessoais. A decisão foi embasada em estudo de mais de 700 páginas, elaborado em parceria com pesquisadores ligados ao departamento de ciência da computação da Universidade Federal de Minas Gerais. A partir de uma avaliação das limitações e dos riscos de privacidade da técnicas de desidentificação e pseudonimização, até então adotadas pelo Inep, bem como de estudos de caso dos EUA, Holanda e Austrália, os pesquisadores consideraram que os padrões de transparência adotados pelo Inep poderiam ser conflitantes com a atual legislação de proteção de dados.

A mobilização e o debate sobre a transparência dos dados educacionais acontece em um momento importante. Até 6 de março, próximo domingo, o Ministério da Educação recebe contribuições a uma consulta pública sobre o Plano de Dados Abertos para o período de 2022/2024.



Inteligência artificial no mundo

Amanhã, dia 1 de março, passa a valer oficialmente a nova regulamentação da China sobre inteligência artificial (IA). Trata-se de uma iniciativa arrojada, que versa sobre temas como proteção de dados, transparência e discriminação algorítmica, proibindo empresas de oferecer preços diferentes para usuários com bases em seus dados pessoais, por exemplo. A regulamentação também aborda as aplicações de inteligência artificial para manipulação de vídeos (deep fakes), entre outros temas. A Wired fez uma matéria sobre o tema e o site Covington organizou uma tabela resumindo as principais características das novas regras para as áreas de recomendações algorítmicas e produção de mídia sintética.

Outros destaques sobre IA em fevereiro incluem a entrevista recém-publicada na IEEE Spectrum, onde o especialista Andrew Ng fala da importância do “small data” e pede mais atenção à produção de dados de qualidade, ao invés de algoritmos mais avançados. Além disso, a Organização para a Cooperação e Desenvolvimento Econômico publicou um framework para classificação de sistemas de inteligência artificial e o Data.org compartilhou uma taxonomia de iniciativas que usam dados e IA para o bem.

Panorama de iniciativas de dados e inteligência artificial para o bem, compilada pelo Data.org


Jornalismo de dados, presente e futuros

A partir de um questionário aplicado a mais de 1200 jornalistas de todo mundo, a plataforma DataJournalism.com publicou a pesquisa ‘The State of Data Journalism Survey 2021’ e Andrea Abellán listou 11 descobertas interessantes. Nada menos que um quarto dos respondentes afirma que entrou no campo por conta da pandemia. A maioria trabalha com jornalismo de dados em tempo integral, em equipe pequenas. E 7 em cada 10 se dizem autodidatas.

No geral, em termos tecnológicos, Python é a linguagem de programação mais popular, mas os editores de planilha seguem imbatíveis como a principal ferramenta para análise e visualização de dados. A pesquisa apontou ainda uma correlação positiva entre a diversidade de habilidades das pessoas e seus salários.

Ainda que esteja longe de ser amplamente disseminado, os potenciais da aplicação de técnicas de inteligência artificial nas redações são motivos para muita expectativa e prospecções sobre as futuras transformações da área. O uso de inteligência artificial nas redações já é uma realidade. Além de códigos, as máquinas já produzem textos jornalísticos.

Columbia Journalism Review publicou um artigo sobre as potencialidades e dificuldades que a BBC enfrentou em projetos de automação de produção de notícias, em áreas como saúde e eleições. O tema também foi abordado no blog do projeto JournalismAI, da London School of Economics, que irá realizar um workshop sobre análise de representatividade das mulheres nas notícias, com a participação da jornalista brasileira Bárbara Libório. Já a Global Investigative Network publicou um guia para jornalistas usarem IA e imagens de satélite em seus trabalhos.

E o futuro? O programa Partnership on AI perguntou a nove especialistas: qual é a mudança mais radical que esta tecnologia vai proporcionar no modo como notícias locais serão produzidas e distribuídas nos próximos cinco anos? Entre as respostas, destacam-se a possibilidade de lidar com grandes volumes de documentos e dados de forma mais simplificada, mudanças na relação com o público e o uso de dados locais sobre o bairro ou território das pessoas para a produção de conteúdos mais customizados.

SAIBA MAIS

Para aprender mais e aprender sempre


 

Menos cores, por favor

Em mais um excelente artigo no blog do Datawrapper, Lisa Charlotte dá dez dicas valiosas para evitar o uso excessivo de cores em visualizações de dados. Para começar, pergunte-se se seu gráfico funciona sem cores, em preto e branco, ou se alguma outra forma de visualização poderia ser utilizada. Se não for possível, considere trabalhar mais com matizes, ao invés de tons, ou usar cor somente para destacar uma categoria importante.

Você também pode mesclar e agrupar categorias, usar anotações em texto, outras simbologias ou recursos como efeito hover e caixas de dicas (tooltips). Outra dica valiosa é trabalhar com “pequenos múltiplos” (small multiples). Para entender a importância da escolha correta de cores em visualizações de dados, vale revisitar outros textos da autora, como a série de posts sobre daltonismo que traduzimos no site da Escola de Dados ou sua reflexão sobre o uso de cores na representação de dados sobre gênero.


 

Federalismo de dados

No Harvard Law Review, Bridget A. Fahey desenvolve o conceito de “federalismo de dados” para abordar os desafios envolvendo a troca de dados pessoais entre diferentes instâncias governamentais. “Nossos governos desenvolveram sistemas complexos, muitas vezes sem escrutínio público, para transferir seus dados de uns para os outros e agregá-los para uso conjunto”, argumenta. Fahey vai além e diz que tais intercâmbios de dados são raramente detalhados na legislação e alguns ocorrem sem qualquer tipo de autorização legal.

O texto está dividido em partes. Na primeira, a autora introduz os tipos e formas destes programas de troca de dados. Na sequência, debruça-se sobre os processos de construção de política pública que facilitam tais trocas e estabelecem as regras que governam nossos dados. Na parte 3, discorre sobre como a doutrina do federalismo pode ser aplicada a transações de dados e, na última parte, ressalta como a troca intergovernamental de dados traz implicações importantes para o modo como o federalismo é teorizado atualmente.


 

Novas publicações no Brasil

Tarcizio Silva lançou seu livro ‘Racismo algorítmico: inteligência artificial e discriminação nas redes digitais’. Na obra, o pesquisador da UFABC e fellow da Mozilla analisa a incorporação de hierarquias raciais nas tecnologias digitais e bases de dados atuais. No campo do jornalismo de dados, foi lançada a tese de Marília Gehrke, com o título ‘Os elementos de transparência no Jornalismo Guiado por Dados’. A pesquisadora da Universidade Federal do Rio Grande do Sul e colaboradora do Trust and News Authenticity aborda mais resumidamente a importância da transparência no jornalismo de dados em artigo para o site Desinformante.

 

SNIPPETS

Dicas curtas e certeiras


A Economist mostrou os bastidores da construção de seu agregador de pesquisas eleitorais na França, comentando sobre os desafios para comunicar a incerteza dos resultados.

O coletivo Minas Programam, em parceria com o Twitter, produziu um guia de segurança no Twitter voltado para pessoas que se identificam com o gênero feminino.

Charles Migletti defendeu na revista Nightingale que as visualizações foquem em narrativas, não números. E, no Towards Data Science, Josh Taylor argumenta a favor do uso de animações em gráficos.

Sobre R, Scraping Dog produziu um tutorial sobre raspagem de dados, o RStudio mostrou suas integrações com SQL e David Keyes ensinou passo a passo para trabalhar com Git e GitHub.

Machine Learning University Explain (MLU-Explain) disponibilizou um artigo interativo explicando o conceito de árvore de decisão.

Jornalismo Científico em 5 minutos: a segunda temporada traz a jornalista Fabiana Cambricioli mostrando como encontrar pautas de saúde no DATASUS.

Para quem usa Google Sheets, o Chalkbeat apresentou maneiras interessantes de turbinar a fórmula VLOOKUP, incluindo filtros mais refinados.

Use enquanto é tempo: Bernhard Rieder alertou que a equipe do Youtube está auditando o Youtube Data Tools, ferramenta que permite extrair alguns dados básicos sobre vídeos na plataforma. Veja o mais novo vídeo em nosso canal para saber como usá-lo.

Tableau publicou um relatório com as 5 principais tendências para os dados em 2022 e irá realizar uma série de webinars tratando sobre os assuntos.

O Canal Programação Dinâmica iniciou um curso aberto de SQL para análise de dados, onde usa o Big Query e as bases do projeto Base dos Dados.

Mel Hogan publicou uma lista de referências bibliográficas para estudos sobre datacenters.

INSPIRA

Trabalhos e iniciativas inovadoras para te inspirar


Quantas horas seguidas um recém-nascido consegue dormir?

 “Goodnight, Leni” é um projeto da designer e desenvolvedora de visualização de dados Aucher Serr que tenta responder a essa pergunta. O site mostra o padrão fragmentado do sono de sua filha recém-nascida por meio de diferentes modalidades de gráficos.

Visualização da quantidade de horas dormidas pela recém-nascida. Os traços amarelos estão mais próximos do limite inferior (0 horas), enquanto os azuis representam o limite superior (8 horas).

Gráficos de barras ou de “explosão solar” permitem verificar quantas horas seguidas a bebê dormiu em cada noite de seus seis primeiros meses. Ao passar o mouse sobre cada linha, há a indicação da data e da quantidade de horas das sonecas.

Os dados foram coletados utilizando o aplicativo Huckleberry Care, e a visualização, feita com o framework Sveltekit e D3. Tudo está disponível em código aberto no GitHub.

UPDATE

Atualize-se com as novidades de softwares e bases de dados


IBGE atualizou a lista de subdivisões municipais do país para 2021, acrescentando 18 municípios em Minas Gerais.

Agora o painel de Análises SICONFI do Tesouro Nacional possui a opção de download dos dados.

InfoAmazônia lançou uma plataforma que permite visualizar todos os requerimentos de mineração dentro de terras indígenas e áreas protegidas.

Data Zoom Amazônia disponibiliza visualizações voltadas para região que podem ser exploradas no site do projeto ou do repositório no GitHub de seu pacote em R.

A extensão do Chrome da Wayback Machine trouxe atualizações incríveis, tais como informar se a página que está navegando já foi arquivada e arquivamento de URLs personalizadas. Craig Silverman destacou estas e outras novidades.

O Flourish lançou um modelo de gráficos de bolha foi comprado pelo Canva, que tornou gratuita a funcionalidade para criação de projetos privados de visualização de dados na plataforma.

Navegador gratuito de imagens de satélites, EO Browser anunciou novidades na função de timelapse.

O pacote Tidyr chega a versão 1.2.0 com novo mantenedor e a correção de cerca de 50 bugs relacionados a valores ausentes, mensagem de erros mais nítidas, grids, entre outros.

Igor Laltuf criou o pacote DAIL que permite acessar via R os dados dos pedidos e recursos solicitados via Lei de Acesso à Informação ao Executivo Federal.

Vizzu é uma biblioteca escrita em JavaScript, gratuita e de código aberto, que gera gráficos animados com filtros.

Simon Willison lançou o google-drive-to-sqlite, ferramenta que cria um banco de dados SQLite contendo metadados de arquivos no Google Drive.

GitHub apresentou melhorias na sua área de gerenciamento de projeto, como filtros e gráficos novos.


Sugestões? Envie um e-mail para [email protected].

Posts relacionados

Deixe um comentário

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.