#35 Impacto social, algoritmos e inteligência artificial
maio/2022
AGENDA
Oportunidades e prazos para não perder de vista
• 31/05 – Webinar sobre análise de dados do WhatsApp, com Fernando Cavalcante.
• 03/06 – Fortaleza recebe mais uma edição do Cerveja com Dados.
• 05/06 – Inscrições no programa de estágio em ciência de dados e engenharia de machine learning do Nubank.
• 06 a 10/06 – 11ª RightsCon Summit, uma conferência sobre Direitos Humanos na era digital. As inscrições já estão abertas.
• 07/06 – Data limite para do Desafio de Inovação para América Latina, com premiação de até US$ 250 mil, oferecido pela Google News Initiative.
• 07 a 09/06 – II Encontro de Mulheres na Estatística e Ciências de Dados (EMECD), que ocorre online e presencialmente no Rio de Janeiro.
• 07/06 – Dados abertos e jornalismo investigativo na cobertura da “guerra às drogas” é o tema do painel com participação da equipe do Fogo Cruzado na RightsCon.
• 08/06 – Prazo para se inscrever no programa gratuito JournalismAI Academy for Small Newsrooms, oferecido pela The London School of Economics and Political Science .
• 08 a 10/06 – re:publica, festival de cultura digital, em Berlim.
• 09 a 11/06 – Conferência Computation + Journalism 2022, sediada pelo The Brown Institute.
• 13/06 – Prazo para enviar propostas de financiamento para mídias independentes, organizado pelo International Fund For Public Interest Media (IFPIM).
• 15/06 – Prazo para envio de trabalhos para concorrer a 10ª edição do prêmio Gabo, organizado pela Fundação Gabo.
• 15/06 – Workshop gratuito de Introdução ao Open Refine, oferecido pela Brock University Digital Scholarship Lab.
• 21/06 – Nosso webinar sobre dados e racismo religioso, com Polinho, coordenador de dados no data_labe e mestre em Epidemiologia e Ciência de Dados.
• 23/06 – Data limite para enviar seus notebooks ou artigos sobre código aberto ao Google Open Source Expert Prize, prêmio oferecido em parceria com o Kaggle.
• 25 a 28/06 – rstudio::conf(2022), conferência organizada pela comunidade do RStudio, acontece nos Estados Unidos.
• 26/06 – Prazo final para as inscrições nas vagas gratuitas do laboratório “No Alvo – Segurança Pública e Política de Armas”, parceria da Escola de Dados com o Fogo Cruzado.
• 26/06 – Data limite para envio de propostas de workshops para a VII Conferência Brasileira de Jornalismo de Dados e Métodos Digitais (Coda.Br 2022), que será realizada de forma híbrida no segundo semestre.
• 30/06 – Último dia para se inscrever no Prêmio Latinoamericano de Jornalismo Investigativo, com premiação de US$5,000, organizado pelo El Instituto Prensa y Sociedad (IPYS).
• 30/06 – Prazo para submeter para o 4ª Edital de Jornalismo de Educação, com bolsas de 6 a 8 mil reais, organizado pelo Associação de Jornalista de Educação (Jeduca) e Itaú Social.
• 19/07 – “A Pública em dados e o ‘Mapa dos Conflitos’”: webinar de nosso programa de membresia.
• 19 a 28/07 – Transform 2022, evento voltado para Inteligência Artificial nos negócios e na tecnologia, organizado pela VentureBeat.
• 03 a 07/08 – 17º Congresso Internacional de Jornalismo Investigativo da Abraji, em formato híbrido.
• 26 a 28/08 – Python Nordeste em Aracaju.
• 31/08 – Data limite para participar de cursos gratuitos sobre Inteligência Artificial e automação de redações, oferecidos pela Associated Press (AP).
• 15/10 – Prazo para se inscrever no Fellowship for Prospective Leaders, com bolsas de até € 2.600 mensais, organizado pelo German Chancellor Fellowship.
NO MUNDO DOS DADOS
Notícias e discussões quentes
Em defesa dos algoritmos de recomendação
Um recente post do Belfer Center for Science and International Affairs, da Harvard Kennedy School, defende que algoritmos de recomendação na verdade podem ser benéficos e que há problemas em adotar um “feed cronológico” para suplantar as recomendações baseadas em engajamento, utilizadas atualmente em serviços como YouTube, Facebook, Netflix, Amazon e TikTok, por exemplo. Uma alternativa sugerida no artigo seria a “classificação por ponte”, que serviria para ajudar a reintegrar a confiança entre grupos com visões opostas sobre um mesmo conteúdo.
Dados e impacto social
O blog do UK Data Service publicou dois posts, que resumem um estudo sobre os impactos sociais de pesquisas baseadas em dados, no Reino Unido e na Austrália. O trabalho, que utilizou estudos de caso do UK Research Excellence Framework (REF) e foi publicado no PLOS One, apontou que “dados de pesquisa raramente geram impacto por si só”. “Ao invés disso, eles exigem análise, curadoria, desenvolvimento de produtos ou outras intervenções para potencializar um valor não acadêmico mais amplo a partir dos dados de pesquisa”, apontam os autores Eric Jensen and Mark Reed.
Inteligência artificial no jornalismo
Nos últimos anos, diversas organizações jornalísticas adotaram soluções de inteligência artificial. Em postagem recente, a LatAm Journalism Review destacou algumas experiências com tecnologias para lidar com grandes quantidades de documentos públicos, abordando ferramentas como o DockIns e o DocumentCloud, que permitem trabalhar com documentos em texto usando Processamento de Linguagem Natural (NLP).
A adoção de IA nas redações vai além e passa ainda por tarefas como moderação de comentários, tradução ou transcrição de textos. Não é raro que tais ferramentas, serviços ou infraestrutura de inteligência artificial pertençam a grandes corporações como Google, Microsoft ou Amazon. No artigo “Uneasy Bedfellows: AI in the News, Platform Companies and the Issue of Journalistic Autonomy”, o jornalista e pesquisador Felix Simon trata do risco de transferir ainda mais controle para as gigantes de tecnologia, tornando o setor de notícias ainda mais dependente delas do que já é.
O Pulitzer Center organizou uma conversa sobre colonialismo e inteligência artificial, discutindo como a IA está criando uma nova ordem mundial colonial.
E no governo brasileiro
O Tribunal de Contas da União realizou um estudo sobre a adoção de tecnologias de inteligência artificial na administração pública federal. De acordo com a pesquisa, mais de um terço das organizações analisadas não utilizam nem planejam adotar tais soluções. Por outro lado, cerca de 10% das organizações federais já possuem projetos de IA em produção. Entre outros objetivos, o estudo buscou contribuir com o desenvolvimento da Estratégia Brasileira de Inteligência Artificial.
Brasil destaca-se em avaliação global sobre dados abertos
The Global Data Barometer disponibilizou em maio um relatório que avaliou a disponibilização dos dados abertos em relação a questões sociais urgentes em 109 países, entre 2019 e 2021. O Brasil lidera o ranking da América Latina, com 58 pontos, na mesma faixa de países como Alemanha e Dinamarca. Por outro lado, a média geral da América Latina é de 32 pontos, valor bem próximo da média global. Comparativamente com nossa região, o destaque positivo brasileiro fica por conta dos dados sobre emissão de gases de efeito estufa, enquanto o destaque negativo são as informações sobre finanças públicas.
SAIBA MAIS
Para aprender mais e aprender sempre
Validação de modelos e viés de inicialização
Em seu blog, o Pluralistic, Cory Doctorow publicou uma reflexão sobre o processo de validação de modelos de inteligência artificial. De acordo com ele, muito se fala sobre os problemas causados por conjuntos de dados enviesados, que são usados para treinar tais modelos. Porém, baseado em um artigo acadêmico sobre o tema, Doctorow destaca outro problema, que recebe menos atenção: o chamado “viés de inicialização”: “mesmo que você comece com dados imparciais – ou seja, amplamente representativos –, a ordem em que você apresenta esses dados a um modelo de aprendizado de máquina pode induzir viés”.
Estatística e causalidade
A Universidade Federal do Rio Grande do Sul (UFRGS) disponibilizou gratuitamente todo material de um curso sobre probabilidade e estatística. Na mesma linha, vale conferir também o material do professor Alexandre Patriota, que organiza séries sobre estatísticas que vão do básico ao avançado no canal do YouTube ‘A Ciência da Estatística’.
E, se você se sente confortável com palestras inglês, pode conferir a apresentação de Judea Pearl no Ucla Institute for Digital Research and Education sobre inferência causal e direcionamentos na ciência de dados.
SNIPPETS
Dicas curtas e certeiras
Luisa Bider fez um tutorial explicando uma nova funcionalidade do Flourish, que permite aos leitores interagir com gráficos de linha.
•
Alan Jones publicou um tutorial no Towards Data Science usando Python sobre como utilizar a Wikipédia como fonte de dados.
•
Isabella Velasquez organizou um tutorial explicando como explorar o editor visual de markdown no RStudio.
•
Renne Rocha e Ana Cecília – participantes da rede de Embaixadoras de Inovação Cívica da Open Knowledge Brasil – apresentaram palestras sobre dados abertos na PyCon US.
•
No GitHub agora é possível organizar o resumo das tarefas executadas pelo GitHub Actions utilizando Markdown.
•
Em maio, foi lançada a Unredacted, revista sobre privacidade, segurança e OSINT.
•
O Bellingcat organizou um videotutorial sobre ferramentas para analisar hashtags no TikTok.
•
A Global Investigative Journalism Network deu dicas de como jornalistas podem fazer investigações no Telegram.
•
Simon Wilson desenvolveu o Datasette Lite, uma aplicação que possibilita utilizar o Datasette diretamente do navegador.
•
Conheça o Felt, uma aplicação que possibilita a criação de mapas na internet de maneira mais fácil e colaborativa.
•
A suíte de desenvolvimento Anaconda está trabalhando em uma nova aplicação: PyScript. A ideia é desenvolver aplicativos Python avançados utilizando o navegador.
•
O IBGE passará a captar as coordenadas geográficas de todos os domicílios urbanos, com a finalidade de obter agregações de dados em diferentes recortes geográficos.
•
O Open Data Policy Lab organizou um repositório para avaliar o desenvolvimento de políticas de dados abertos, reutilização de dados e colaboração de dados em todo o mundo.
•
Python Speed publicou um artigo sobre como tornar mais rápidas as instalações de pacotes nesta linguagem.
•
Cite Drive indicou pacotes de visualização de dados em R que são destaque em 2022.
•
O desenvolvedor Willian Justen liberou em seu canal no Youtube seu curso ‘Git e GitHub na vida real’.
INSPIRA
Trabalhos e iniciativas inovadoras para te inspirar
A plataforma multimídia Aquazônia, da startup brasileira de jornalismo científico Ambiental Media, mostra quais localidades da Bacia Hidrográfica Amazônica têm sofrido os maiores impactos da atividade humana nos últimos anos.
O projeto envolveu jornalistas, cientistas e desenvolvedores, que fizeram análise de dados espaciais, investigações jornalísticas e trabalho de campo para plotar mapas inéditos mostrando a intensidade de ameaças de atividades como agricultura, pecuária, mineração e garimpo à bacia amazônica.
A responsável pelos mapas do projeto foi Laura Kurtzberg, designer de visualização de dados e desenvolvedora front-end que também participou do módulo de dados espaciais do curso Jornalismo de Dados Ambientais, cuja primeira turma foi aberta em 2021 e atualmente está disponível de forma gratuita em nosso site.
UPDATE
Atualize-se com as novidades de softwares e bases de dados
A Meta está convidando pesquisadores a conhecer seu modelo de linguagem Open Pretrained Transformer (OPT).
•
Em comemoração aos 10 anos de Pesquisa Nacional por Amostra de Domicílios (PNAD), o IBGE organizou um painel com indicadores sobre mercado de trabalho, educação e outros temas.
•
O MapBiomas lançou o ‘Monitor da Fiscalização do Desmatamento’ consolidando dados sobre estas ações no Brasil.
•
Gabriel Medeiros disponibilizou no Kaggle dados sobre a agenda diária do presidente Jair Bolsonaro, desde o começo do mandato até o dia 20 de maio.
•
O INEP disponibilizou microdados das edições de 2018 e 2019 do ENEM, anteriormente removidos.
•
RStudio Cloud agora permite que projetos sejam editados de maneira colaborativa, em tempo real.
•
Frictionless Data chega à versão 1.0.3 compilando no Windows sem problemas e com correções no carregamento remoto de pacotes zip.
•
Metabase 0.43 apresenta uma navegação mais fluida, possibilidade de favoritar páginas e painéis, suporte a JSON, entre outras novidades.
•
Disponível pacote Stata para acessar os dados da Base dos Dados.
Sugestões? Envie um e-mail para escoladedados@ok.org.br.