#26 Twitter caça vieses; dados da CPI e novo curso

*Este conteúdo integra o acervo de Boletins de Dados, nossos informativos mensais sobre as principais novidades e oportunidades relacionadas ao trabalho com dados. Para acessar as edições mais recentes reunidas na seção exclusiva e receber a próxima edição em sua caixa de entrada, junte-se ao nosso programa de membresia e apoie nosso trabalho.

JUlho/2021

Olá,

Em agosto, iremos lançar um curso inédito e gratuito, voltado para a análise de dados na área de educação. O objetivo é capacitar pessoas que atuam na administração pública municipal e estadual para utilizarem dados de avaliações no aperfeiçoamento de políticas educacionais. O lançamento será na próxima quarta-feira, dia 4.

Semana que vem também começa o curso de Python para Inovação Cívica. Na segunda-feira, às 19 horas, faremos uma atividade inaugural, aberta ao público, para apresentar a formação e tirar dúvidas de pessoas interessadas. Ainda temos poucas vagas disponíveis, e participantes do programa de membresia têm 20% de desconto neste e outros cursos.

Enquanto abrimos estes novos ciclos formativos, também encerramos outro. No último mês, finalizamos nosso projeto sobre jornalismo de dados ambientais. Todos os materiais do curso sobre o tema estão disponíveis abertamente em nosso site e, neste mês, foram publicadas as duas matérias das bolsistas selecionadas.

Uma delas foi desenvolvida pela Frente de Comunicação Indígena Borari, sobre os impactos socioambientais da expansão imobiliária em Alter do Chão, no Pará. A outra, de autoria da jornalista Larissa Zuim, aborda as diferenças de gênero no uso de agrotóxicos no campo. Em postagem no blog, contamos mais sobre estes e outros resultados do projeto.

Boa leitura e um excelente mês de agosto!

Adriano Belisario
Coordenador da Escola de Dados

AGENDA

Oportunidades e prazos para não perder de vista


• 01/08 – Último dia de candidaturas para o processo de seleção das bolsas de pós-doutorado do Instituto de Computação da Universidade Federal do Amazonas, em colaboração com o Jusbrasil.

• 02/08 – Aula inaugural aberta e gratuita de nosso curso Python para Inovação Cívica, às 19h.

• 02/08 – Durante todo o mês de agosto, a Coalizão Direitos na Rede promoverá a campanha #Criptoagosto2021, sobre a importância da criptografia. O primeiro evento é a live “Pela porta da frente: por que defender a criptografia?”.

• 04/08 – Início do Terceiro Encontro Brasileiro de Data Science.

• 04/08 – Encerramento das inscrições para o 13º Prêmio Jovem Jornalista Fernando Pacheco Jordão, realizado pelo Instituto Vladimir Herzog.

• 05/08 – Webinar do Committee on Data sobre a importância da limpeza de dados (em inglês).

• 09/08 – Prazo para se candidatar à vaga de Engenheira de Dados, para atuar no eixo Inovação Cívica da Open Knowledge Brasil.

• 09/08 – Segundo encontro Cobrindo o Painel Intergovernamental sobre Mudanças Climáticas, que irá tirar dúvidas de jornalistas.

• 12/08 – Último dia para submissão de atividades para a Python Brasil 2021.

• 15/08 – Encerramento da chamada de propostas de palestras para a PyData Global Conference 2021.

• 17/08 – Prazo final para a inscrição de bolsas para participar da 12ª Conferência Global de Jornalismo Investigativo (Online).

• 19/08 – Seminário Dados Abertos e Democratização dos Dados no Brasil, do núcleo de Computação Aplicada do Instituto Nacional de Pesquisas Espaciais (INPE), com a participação de Adriano Belisario, coordenador da Escola de Dados.

• 20/08 – Fim das inscrições de atividades para a Semana de Inovação 2021, que será realizada em novembro pela Escola Nacional de Administração Pública (Enap).

• 23/08 – Primeiro dia do 16º Congresso Internacional de Jornalismo Investigativo da Abraji. O evento será completamente online e gratuito

• 29/08 – 3º edição do Domingo de Dados, parte da programação do Congresso Internacional de Jornalismo Investigativo da Abraji.

NO MUNDO DOS DADOS

Notícias e discussões quentes


Abrindo os dados do diário oficial

Em julho, a Open Knowledge Brasil lançou a primeira versão da plataforma de busca do Querido Diário, projeto colaborativo que visa tornar os diários oficiais dos municípios brasileiros mais transparentes e acessíveis. O evento de lançamento foi transmitido via YouTube.

De código-aberto, os robôs do Querido Diário “raspam” o conteúdo das fontes oficiais e disponibilizam os dados de forma centralizada em uma plataforma com interface amigável.

No momento, dados dos diários de 12 capitais já podem ser buscados, mas o projeto já tem capacidade para raspar dados de mais 2.200 municípios, que serão acrescentados à medida que a campanha de financiamento coletivo consiga mais recursos para expandir o projeto.

Além de contribuir financeiramente, é possível ajudar o projeto construindo raspadores no repositório do Querido Diário no GitHub e preenchendo dados sobre o censo da iniciativa, que mapeia o estado dos diários oficiais dos municípios brasileiros.

A ferramenta também foi pauta de um webinar do Fórum de Reportagem sobre a Crise Global de Saúde, do International Center for Journalists e da Rede de Jornalistas Internacionais. Nele, a jornalista Beatriz Farrugia contou como investigou o colapso da rede de saúde de Manaus a partir do Querido Diário, e Ariane Alves, da equipe de Inovação Cívica da OKBR, e Mário Sérgio Queiroz, da rede de embaixadoras da organização, explicaram como a plataforma funciona.

Twitter abre temporada de caça a vieses

No final de julho, o Twitter anunciou um desafio inédito, em um post no seu blog. A rede social convida pesquisadores e cientistas de dados a descobrir vieses nos mecanismos de inteligência artificial de sua plataforma – e irá oferecer recompensas por isso.

Iniciativas assim de recompensas já são comuns para a identificação de erros em softwares (bug bounties). A criação de um mecanismo semelhante para mitigação de vieses já era apontada por especialistas como um caminho promissor, como defende o artigo ‘Toward Trustworthy AI Development: Mechanisms for Supporting Verifiable Claims’, publicado em abril de 2020.

Após a polêmica envolvendo os vieses de seu algoritmo de recorte de imagens, que funcionava de forma diferente a depender do gênero ou raça das pessoas, a empresa resolveu dar um passo além. A equipe vencedora do novo desafio irá receber 3500 dólares e os trabalhos podem ser submetidos até 6 de agosto. Confira todos os detalhes no site do Hackerone.

CPI em dados

Dia 3 de agosto, o legislativo brasileiro reinicia os trabalhos da CPI da Covid e, agora, será possível explorar as atividades da Comissão Parlamentar de Inquérito por meio de análises ou buscas automatizadas entre os documentos recebidos. Jornalistas e pessoas pesquisando o tema podem se beneficiar do trabalho feito por Eduardo Cuducos, que automatizou o download de todos os documentos públicos recebidos pela CPI.

O objetivo é facilitar não apenas o acesso, mas também a procura de termos específicos nos arquivos. Todos os dados estão disponíveis em uma pasta no  Dropbox. Outra fonte é o repositório de Breno Rodrigues, que criou scripts para baixar os dados e transformar os arquivos PDF em texto, por meio da técnica de reconhecimento ótico de caracteres (OCR).

SAIBA MAIS

Para aprender mais e aprender sempre


Python: curso de NLP e FlowPy

O corpus de documentos da CPI da Covid pode ser uma boa oportunidade para praticar as técnicas de Processamento de Linguagem Natural. Se você já tem algum conhecimento de computação e quer se aprofundar no assunto, veja o curso Python para Processamento de Linguagem Natural, oferecido pela Universidade de São Paulo, gratuitamente, em setembro. São 10 mil vagas gratuitas e não é necessário ser estudante da universidade para se inscrever.

Já quem está começando pode se interessar pelo FlowPy, um pacote que permite manipular dados com Python via interface gráfica, diretamente do seu navegador. O Towards Data Science publicou um tutorial sobre a ferramenta.

Aliás… o Python está perto de se tornar a linguagem de programação mais popular do mundo, passando C e Java, segundo o índice Tiobe. A ZDnet publicou reportagem sobre a ascensão da linguagem.

GitHub além do básico

Você sabia que é possível utilizar o GitHub para automatizar processos envolvendo dados? Se você precisa raspar informações de um determinado site periodicamente, por exemplo,o GitHub Actions pode ser seu mais novo aliado.

A ideia de raspar dados usando git (“git scraping”) foi popularizada por Simon Willison. No tutorial ‘Git scraping: track changes over time by scraping to a Git repository’, ele explica a sua abordagem.

Sua ideia inspirou a equipe do GitHub a desenvolver o projeto Flat-data, que permite criar rotinas para obtenção e processamento de dados. A ferramenta também oferece uma forma mais amigável para visualizar dados tabulares no GitHub.

Se você quiser explorar os dados de algum repositório de forma mais amigável, com possibilidade de filtros e até mesmo análises descritivas básicas, basta trocar o endereço da URL de “github.com” para “flatgithub.com”. Veja o exemplo abaixo.

Adicione “flat” antes do endereço para visualizar o repositório regular do The Pudding (https://github.com/the-pudding/data/ ) em um explorador de dados (https://flatgithub.com/the-pudding/data).

Para aprender mais, vale conferir também o tutorial ‘GitHub Actions para Data Science’ publicado em julho por João Pedro Santos.

Gráficos simples, mas eficazes

Alguns designers podem achar entediantes, mas Lisa Charlotte Rost, do Datawrapper, defende a simplicidade, na hora de criar gráficos. Bem feito, o “feijão com arroz” muitas vezes não só pode dar conta do recado, como ser uma melhor alternativa do que visualizações de dados ultra complexas.

No texto ‘In defense of simple charts’, Lisa argumenta que, quando mostram dados interessantes e são bem desenvolvidos, gráficos simples cumprem sua função de informar bem, além de serem atraentes e fáceis de entender. Vida longa aos gráficos de barra, colunas, linhas, áreas e pizzas.

SNIPPETS

Dicas curtas e certeiras sobre o trabalho com dados


GitHub Copilot promete colocar a inteligência artificial a serviço dos programadores. Inscreva-se para experimentar a tecnologia.

Python Brasil procura voluntários e voluntárias para participar da equipe de organização do evento desde ano.

O site Hackers Arise explica como usar o Wigle.Net para explorar dados sobre a localização de redes WiFi mundo afora.

E no OSINT ME, uma lista das 30 melhores extensões do Google Chrome, para tirar todo proveito de fontes abertas de informações.

Em encontro promovido pelo Observable, Shirley Wu e Mike Bostock, dois especialistas em visualização de dados, exploram as diferenças entre as bibliotecas D3 e Plot.

Post do Open Data Institute aponta como líderes podem desenvolver uma estratégia de dados para lidar com desafios globais envolvendo infraestrutura compartilhada de dados.

A turma do Curso-R entrevistou Gabriela de Queiroz, cientista-chefe de dados da IBM, líder em estratégia e inovação em IA.

No podcast Pizza de Dados, Yasodara Córdova falou sobre a contribuição do hack cívico para a abertura de dados no Brasil, cibersegurança, privacidade, carreira e mais.

Em post para o Instituto Reuters, Luiz Fernando Toledo mostrou como sistematizar o uso da LAI nas redações, a partir de conversas com jornalistas de outros países e uma pesquisa com cerca de 400 jornalistas brasileiros.

O IBGE abriu inscrições para o curso gratuito de capacitação no Sistema IBGE de Recuperação Automática – Sidra, a sua plataforma de visualização de dados. As inscrições podem ser feitas até o final do ano.

Criado pela Enap, o RegBR classifica quase 100 mil normas federais desde 1950 por setores econômicos, medindo sua restritividade, popularidade e complexidade linguística.

Em artigo, Lindsay Poirier fala como ensinou seus alunos a interpretar conjuntos de dados por meio de leituras críticas de dados de remoções, drogas e paradas policiais.

INSPIRA

Trabalhos e iniciativas inovadoras para te inspirar


Quem gosta de dados e esportes certamente vai se empolgar com o festival de reportagens baseadas em dados sobre as Olimpíadas no Japão, que está fazendo muitas pessoas perderem o sono, literalmente.

Washington Post explorou diferentes modalidades para mostrar a predominância de cada país competidor ao longo do tempo. Com gráficos leves e simples, a narrativa permite visualizar rapidamente o histórico de medalhas dos países que dominam certas modalidades. Ou de quais modalidades dominam os países, como é o caso do vôlei, no Brasil.

Texto e ilustração da reportagem de Bonnie Berkowitz e Arthur Galocha.

E, se você adora as Olimpíadas e quer aprender a extrair alguns insights, a dica é conferir este post de Sejal Dua, do Towards Data Science. Ele compartilhou seus estudos sobre os dados das competições olímpicas até Tóquio 2021, usando PostgreSQL e Python.

UPDATE

Atualize-se com as novidades de softwares e bases de dados


A agência Fiquem Sabendo lançou um aplicativo que facilita a consulta das remunerações de pensionistas civis e militares do governo federal.

A Base dos Dados disponibilizou os dados dos atletas e delegações nas Olimpíadas de 1896 a 2016 e dados de banda larga e telefonia móvel no Brasil.

JupyterLite recebeu atualizações. Há novos recursos para autocompletar códigos, entre outros.

Experimente a WikipediaQL, uma biblioteca Python para consulta de dados estruturados da Wikipédia.

Conheça o Search Atlas, um buscador que permite pesquisas que ultrapassam as barreiras “invisíveis” de resultados do Google. A ferramenta está na versão beta e com acesso restrito, por ora.

VSCode 1.58 traz novidades para quem usa o terminal, fórmulas matemáticas, além de outros recursos novos.

Metabase chegou na versão 0.40, com melhorias nos cards e perguntas salvas.

O Bellingcat fez algumas melhorias no auto-archiver, um script Python que arquiva automaticamente vídeos e conteúdos registrados em planilhas do Google.

Os pacotes de visualização R, Tidy Bayes e ggdist, ambos na versão 3.0 agora estão no CRAN.

AnyChart JS chega à versão 8.10 trazendo novos gráficos, como o treemap circular e gráfico de calendário.


Sugestões? Envie um e-mail para [email protected].

Posts relacionados

Deixe um comentário

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.