#22 Papagaios estocásticos, wikidata e o novo manual de jornalismo de dados
*Este conteúdo integra o acervo de Boletins de Dados, nossos informativos mensais sobre as principais novidades e oportunidades relacionadas ao trabalho com dados. Para acessar as edições mais recentes reunidas na seção exclusiva e receber a próxima edição em sua caixa de entrada, junte-se ao nosso programa de membresia e apoie nosso trabalho.
Março/2021
Olá, Hoje, dia 31 de março, teremos às 19h um webinar no Zoom com Guilherme Felitti, exclusivo para participantes do nosso programa de membresia. Ele irá mostrar como descobrir APIs “escondidas” em websites, para facilitar a raspagem de dados na web. Se você não puder participar ao vivo, dá para conferir o vídeo depois em nosso canal no Youtube. Aliás, estamos publicando também em nosso canal do YouTube semanalmente os vídeos do curso ‘Jornalismo de dados para coberturas locais’. Inscreva-se e ative as notificações para não perder nenhuma novidade. Já o curso ‘Jornalismo de dados ambientais’ está entrando na reta final das inscrições. Preencha o formulário até dia 10 de abril para concorrer a uma vaga nesta formação gratuita e a uma das bolsas de R$ 8 mil que forneceremos, com apoio da Earth Journalism Network, para impulsionar trabalhos na área. Se preferir se inscrever no curso Dados 360, não se esqueça de utilizar o cupom do programa de membresia para garantir 20% de desconto. E, em nosso site, você já pode conferir o tutorial ‘Raspando dados de notícias usando Python e XML’, que foi escolhido na última votação no grupo do programa de membresia no Telegram. Entre no grupo e participe da votação deste mês! Boa leitura e até breve, Adriano Belisário |
Agenda
Oportunidades e prazos para não perder de vista
• 01/04 – Pesquisadores do INPE participam de um webinar (em inglês) sobre dados espaciais e classificação de usos da terra.
• 02/04 – Pessoas com pós-graduação interessadas no uso de computação nas ciências sociais podem se inscrever no Summer Institute in Computational Social Science (SICSS). Não é necessário conhecimento prévio em programação.
• 02/04 – Último dia de inscrição para a vaga de gerente de pesquisas sobre gênero na World Wide Web Foundation.
• 02/04 – No Fact-Checking Day, a International Fact-Checking Network promove duas palestras online sobre checagem de fatos.
• 04/04 – Fim da primeira rodada de inscrições no “Fondo de Respuesta Rápida”, que dá apoio financeiro a organizações e pessoas afetadas pela pela pandemia de COVID-19.
• 05/04 – Começa o Simpósio Brasileiro de Sensoriamento Remoto.
• 08/04 – A Prefeitura do Rio de Janeiro está com vagas abertas para cargos envolvendo proteção de dados e governo digital, com salários de até R$ 15 mil.
• 09/04 – Kátia Brasil e Eliane Brum são algumas das convidadas do evento do Pulitzer Center sobre cobertura remota na Amazônia, que dará dicas de como fazer boas reportagens na região com segurança.
• 15/04 – Prazo para envio de propostas sobre a destruição da Amazônia em tempos de pandemia para o Rainforest Journalism Fund.
• 15/04 – Prêmio de jornalismo recebe inscrições de notícias sobre a pandemia para crianças.
• 15/04 – Jornalistas interessados em participar de uma rede sobre empreendedorismo e inovação na América Latina podem se inscrever na chamada do International Center for Journalists.
• 20/04 – Começa a conferência ‘Enviroment (re)definied’, feita pelo Pulitzer Center, que discute temas relevantes para a cobertura do meio ambiente.
• 23/04 – Jornalistas podem concorrer a bolsas oferecidas pelo Persephone Miel Fellowship.
• 26-30/04 – Acontecerá a International Symposium on Online Journalism – ISOJ Online 2021, que este ano será gratuita.
• 28/04 – A Intra Rede realizará a live “Legislação e tecnologia: impacto das leis na gestão das redes e da Internet”.
• 29/04 – Data limite para envio de proposta de serviço de comunicação digital para o edital de reestruturação do Portal Brasileiro de Dados Abertos, da UNESCO.
• 03/05 – Último dia de inscrições no Desafio de Inovação Google News Initiative (GNI) na América Latina.
• 05/05 – Prazo para inscrição na Digital Methods Summer School 2021, que este ano aborda a identificação de usuários e conteúdos falsos em redes sociais.
No mundo dos dados
Notícias e discussões quentes
Nova edição do guia de jornalismo de dados
A segunda edição do ‘The Data Journalism Handbook’ foi publicada em março. O livro traz 54 capítulos de 74 pesquisadores de todo mundo, incluindo Natália Mazotte, co-fundadora da Escola de Dados. Com o título ‘Data Journalism Handbook: Towards a Critical Data Practice’, a obra foi editada por Liliana Bounegru e Jonathan Gray.
Gray falou para esta edição do Boletim de Dados sobre o novo livro.
“Estamos animados com o lançamento desta nova edição do Data Journalism Handbook, dez anos depois de começarmos a trabalhar na primeira edição do livro, em 2011. A nova edição mostra o quanto o campo se desenvolveu e mudou na última década. Isso inclui como os jornalistas não estão apenas usando dados, mas relatando como eles são feitos e montando os seus próprios, bem como reaproveitando dados para contar histórias sobre a dinâmica de algoritmos e plataformas. Esperamos que o livro estimule posturas críticas com dados, bem como novas colaborações entre jornalistas, pesquisadores, grupos da sociedade civil e outros em torno do uso de dados para atender a questões sociais, econômicas e ecológicas urgentes”
Veja mais sobre o assunto na postagem feita em nosso blog.
Vieses codificados
No dia 5 de abril, estreia no Netflix o documentário Coded Bias. Nós conferimos o trabalho no Indie Lens Pop-Up em março e explicamos aqui o porquê que vale a pena conferir o filme.
Desde a estreia no Festival de Sundance em 2020, Coded Bias é aclamado por dar protagonismo a mulheres e pessoas negras, ao contrário de outros trabalhos recentes sobre os desafios envolvendo as tecnologias de inteligência artificial (IA), como o documentário ‘O Dilema das Redes’, também disponível no Netflix.
Coded Bias mostra como algoritmos podem reforçar desigualdades sociais de forma interseccional, trazendo a perspectiva de gênero, raça e classe. A linha mestra do filme é a pesquisa e o trabalho de Joy Buolamwini, dos laboratórios do MIT – onde iniciou sua pesquisa – ao Congresso nacional, onde protagoniza um momento marcante com a congressista Alexandria Ocasio-Cortez, reproduzido no final do filme.
A pesquisa de Joy mostrou como os algoritmos de reconhecimento facial de gigantes da tecnologia eram enviesados e tinham uma performance significativamente pior com pessoas não-brancas. O trabalho ganhou destaque na imprensa e gerou reações díspares das big tech: enquanto a IBM estabeleceu um diálogo com a pesquisadora, reproduziu os testes internamente e corrigiu sua tecnologia, a Amazon tentou desacreditar a pesquisa. Além de Joy, o trabalho da organização inglesa Big Brother Watch e da matemática Cathy O’Neil – autora do livro Weapons of Math Destruction – também são importantes no fio narrativo.
Como afirmou o filósofo David Casacuberta em um texto recente sobre inteligência artificial, não basta que os resultados dos algoritmos sejam corretos. É preciso também que eles sejam justos.
Papagaios estocásticos
Outra pesquisadora presente no Coded Bias é Timnit Gerbru, especialista em IA que foi demitida recentemente pelo Google após criticar algumas práticas da empresa. Em março, a trajetória da pesquisadora também foi tema de um artigo do New York Times e veio a público o artigo que foi um dos pivôs da demissão: ‘On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?’. O trabalho investiga os riscos dos atuais modelos de processamento de linguagem natural e fornece recomendações práticas para um uso mais ético da tecnologia.
“Ao contrário do que parece quando observamos seu resultado (output), um modelo de linguagem é um sistema para costurar ao acaso sequências de formas linguísticas observadas em seus vastos dados de treinamento, de acordo com informações probabilísticas sobre como elas se combinam, mas sem qualquer referência a significado: um papagaio estocástico”, afirma o artigo, assinado por Gebru, Emily Bender, Angelina McMillan-Major e Shmargaret Shmitchell.
Mais IA, nas cortes e nos Estados Unidos
Um estudo recente mostrou que quase metade dos tribunais nacionais já usam tecnologias de IA e as perspectivas são de ampliar ainda mais esta presença na mais alta corte do país. E, nos Estados Unidos, a National Security Commission publicou um relatório extenso sobre o assunto, que traz uma visão estratégica de como o país mais rico do mundo pretende garantir sua soberania em meio aos avanços desta tecnologia.
Brasileiros na premiação da Society for News Design
O Brasil foi duplamente representado na premiação da Society for News Design: o projeto No Epicentro ganhou em uma categoria de pequenas redações. Já o designer brasileiro Gabriel Gianordoli (editor de gráficos no The New York Times) levou uma premiação individual.
Saiba mais
Para aprender mais e aprender sempre
Wikidata
A Wikimedia anunciou uma nova versão da sua API, voltada para usos empresariais e comerciais. Os dados da maior enciclopédia colaborativa do mundo também foram abordados pelo site Data Journalism no texto ‘The promise of Wikidata’, que mostra como jornalistas podem tirar proveito de dados da Wikipédia em suas investigações, dando inclusive dicas para usar a linguagem de consulta SPARQL e realizar buscas semânticas nos dados. Se você quiser algo de mais fácil acesso, vale conferir o WikiPulse, que permite ver as tendências de popularidades na plataforma. Funciona como o Google Trends, só que para a Wikipédia.
Visualização de dados
No blog do Datawrapper, foi publicada uma série de posts de Lisa Charlotte que visa responder a uma pergunta comum para quem trabalha com gráficos: quais escalas de cores devem ser utilizadas para cada tipo de dados? São ao todo quatro textos, que tratam de boas práticas para dados quantitativos, qualitativos, escalas divergentes, sequências, entre outros temas.
Outro material excelente sobre o tema que foi publicado em março é o ‘The Data Visualizations Behind COVID-19 Skepticism’, uma pesquisa de seis meses que investigou como grupos anti-máscara usam dados e gráficos para defender suas posições.
Data steward
Em nossa edição de novembro de 2020, falamos da chamada “terceira onda dos dados abertos”, caracterizada pela utilização de dados para fins de interesse público, garantindo direitos e fortalecendo comunidades. Neste mês, o Open Data Policy Lab publicou um guia sobre o tema, que traz princípios operacionais sobre a captura do valor institucional e social da reutilização de dados.
Um dos conceitos centrais é o de “administrador de dados” (data stewards), uma função nova no ecossistema de dados abertos, que também foi abordada em uma postagem do Data & Policy Blog. Sobre o tema, há também os estudos de casos recém-publicados pelo Open Data Institute, sobre instituições que atuam como administradoras de dados para terceiros.
Snippets
Dicas curtas e certeiras sobre o trabalho com dados
O site do ObservableHQ publicou um tutorial mostrando como trabalhar colaborativamente e realizar cache de consultas no Google BigQuery ao importar dados para notebooks de visualização de dados.
•
“Eu li e concordo com os Termos” é a maior mentira na web. O site ‘Terms of Service Didn’t Read’ (agora em português) quer corrigir isso.
•
Acessibilidade: Vinicius Barqueiro trouxe dez dicas (em português) para fazer visualizações de dados mais democráticas. Em inglês, tem o post do Flourish sobre o mesmo tema.
•
Web scraping com Python: Rodolfo Viana fez uma introdução prática ao pacote BeautifulSoup.
•
O pessoal da Base dos Dados mostrou como extrair dados do Diário Oficial da União e está contratando um desenvolvedor front-end para se juntar ao time.
•
A newsletter Warning: Graphic Content organizou uma planilha colaborativa com quase 70 newsletters, podcasts, eventos e conteúdos sobre dados abertos.
•
O texto ‘Multimodal Neurons in Artificial Neural Networks’ anunciou a descoberta de que redes neurais podem identificar o mesmo conceito, seja ele apresentado visualmente ou por meio de texto.
•
No canal do AI Inclusive, é possível conferir o vídeo recém-lançado que mostra como utilizar o GitHub para compartilhar projetos de ciência de dados.
•
Notícias falsas geradas por inteligência artificial já são uma realidade e a pesquisadora Kate Saenko mostrou como detectá-las em um webinar da Boston University.
•
Já estão disponíveis as gravações da Outlier 2021, a conferência online da Data Visualization Society. Confira os mais de 60 vídeos com especialistas de todo mundo na playlist do evento no YouTube.
•
Narrativas e contranarrativas sobre compartilhamento de dados na África é o tema de um artigo recém-publicado na Association for Computing Machinery.
Inspira
Trabalhos e iniciativas inovadoras para te inspirar
Lançada no Dia Internacional da Mulher, a reportagem que nos inspira este mês é um bom exemplo de como jornalistas podem investigar vieses em algoritmos online. A investigação é de Rodrigo Menegat, coautor do ebook da Escola de Dados, para a Deutsche Welle.
O levantamento mostra como o buscador de imagens do Google reproduz estereótipos sobre mulheres de certas nacionalidades. “A julgar por buscador de imagens, brasileiras são sexy e exibicionistas, e ucranianas estão loucas para se casar”, afirma a matéria.
Com o título ‘Como o Google contribui para perpetuar estereótipos sexistas’, analisou 20 mil imagens usando o serviço de visão computacional do próprio Google, o Cloud Vision. Além da nacionalidade, outro fator que parece influenciar nos vieses exibidos é o idioma usado na busca. A reportagem conta, por exemplo, que buscas em inglês sobre mulheres trazem resultados mais relacionados ao sexo do que as pesquisas feitas nas línguas locais, em diversos países.
Em nota, o Google reconheceu que as buscas mostram “conteúdo explícito ou perturbador […] incluindo resultados que refletem estereótipos negativos ou preconceitos existentes na rede”. Afirmou ainda que este é um problema que “impacta desproporcionalmente mulheres, também de cor” e que está trabalhando para encontrar “soluções em escalas diversas” para estes problemas.
Update
Atualize-se com as novidades de softwares e bases de dados
A Base de Dados disponibilizou esse mês dois conjuntos de dados robustos: tem o Sistema de Informação sobre Mortalidade (SIM), com dados completos de 2019, e os microdados completos do Censo de 1970 até 2010.
•
A Controladoria-Geral da União atualizou as despesas públicas no Portal da Transparência, com informações até 31 de dezembro de 2020.
•
Os dados abertos da Câmara dos Deputados ganharam uma nova versão e agora estão disponíveis em JSON e XML, podendo ser feita requisições de até 100 itens.
•
O IBGE desenvolveu um pacote em R, para facilitar o acesso a microdados da PNAD Contínua, PNAD Covid19 e Pesquisa Nacional de Saúde.
•
Já para os amantes de futebol, dá para se divertir com R usando a nova versão do pacote worldfootballR, que traz dados dos jogadores por temporada, entre outros.
•
O cientista da computação Christian Perone desenvolveu o Episuite, um conjunto de ferramentas e componentes para trabalhar com dados epidemiológicos em Python.
•
Março trouxe algumas atualizações para a extensão Pylance do VSCode, inclusive no suporte ao Python 3.10.
•
Agora você pode usar popups e painéis no Flourish para enriquecer suas visualizações.
•
Conheça o SpeechBrain, um conjunto de ferramentas do PyThorch voltados para pesquisa e desenvolvimento de tecnologias de fala.
•
O Tableau chega à versão 2021.1 com atualizações significativas, incluindo aplicações de inteligência artificial.
•
A linguagem de programação Julia alcançou a versão 1.6 com diversas atualizações, incluindo mudanças na biblioteca padrão e melhorias no compilador.
Sugestões? Envie um e-mail para escoladedados@ok.org.br.