#05 Jornalismo de dados colaborativo, história dos dados e desinformação
* Este conteúdo integra o acervo de Boletins de Dados, nossos informativos mensais sobre as principais novidades e oportunidades relacionadas ao trabalho com dados. Para acessar as edições mais recentes reunidas na seção exclusiva e receber a próxima edição em sua caixa de entrada, junte-se ao nosso programa de membresia e apoie nosso trabalho.
OUTUBRO/2019
Olá,
Tem mês que é Coda. E ele chegou. Em novembro, temos nosso grande encontro anual: a Conferência de Jornalismo de Dados e Métodos Digitais. A quarta edição do Coda.Br acontece nos próximos dias 23 e 24, na ESPM (campus Vila Mariana, em São Paulo), e é desenvolvido em parceria com a Google News Initiative.
A programação terá sessões livres, que são temáticas e permitem aos participantes interagirem e trocarem experiências de forma horizontal. Em 2019, queremos construí-las com a sua colaboração. Participe votando ou propondo temas de sua preferência.
Mais das metades das vagas para o Coda.Br 2019 já foram reservadas. Garanta a sua e aproveite o cupom de 20% desconto (euapoioaescoladedados) no evento.
Até breve!
AGENDA
Oportunidades e prazos para não perder de vista
• 05-06/11 – Treinamentos do Google no Rio de Janeiro para professores, jornalistas e profissionais do marketing; • 08/11 – Prazo final para inscrever nas bolsas de isenção de inscrição no Coda.Br; • 09/11 – Oficina gratuita de Raspagem de Dados Públicos no Rio de Janeiro; • 18/11 – Começa o curso online gratuito do Knight Center sobre aprendizado de máquina para jornalistas (em inglês); • 20/11 – Encerram os prazos de inscrição no programa de Fellowship do New York Times; • 20/11 – Data limite para envio de propostas para o LibrePlanet 2020, que oferece apoio com custos de participação no evento em Boston (EUA); • 22/11 – Prazo para inscrições de atividades na PyCon 2020, em Pittsburgh (EUA); • 23/11 – Começa a quarta edição do Coda.Br, a conferência anual sobre jornalismo de dados e métodos digitais da Escola de Dados em São Paulo; • 23/11 – A AfroPython realiza uma oficina em Porto Alegre; • 30/11 – Jornalistas, empreendedores e especialistas em comunicação e tecnologias digitais podem se inscrever no programa ‘A Digital Path to Entrepreneurship and Innovation for Latin America‘ para conseguirem apoio a iniciativas inovadoras; • 30/11 – A conferência SatRDays acontece em São Paulo com foco em atividades com a linguagem R; • 30/11 – O Data Justice Fellowship busca colaboradores para um mês de pesquisa no Reino Unido, com despesas pagas. |
NO MUNDO DOS DADOS
Notícias e discussões quentes
Jornalismo de dados colaborativo
A Propublica lançou um guia para jornalismo de dados colaborativo, que foi traduzido recentemente para português pela Natália Mazotte, cofundadora da Escola de Dados no Brasil. O material dá o passo a passo para realizar projetos a vários mãos ou organizações: desde sua elaboração inicial até sua manutenção e o encerramento das atividades. Também foi disponibilizado o software Collaborate, que promete facilitar os fluxos de trabalho entre as pessoas.
Vale conferir também o trabalho do Center for Cooperative Media, que em texto recente destacou o guia da Propublica e iniciativas de outros veículos que visam facilitar a colaboração entre jornalistas e pesquisadores que trabalham com dados, como a Associated Press, que desenvolveu o AP Datakit. Editora de dados do veículo, Meghan Hoyer apresentou a ferramenta em um webinar recente – e estará presente conosco no Coda.Br logo mais!
Uma breve história dos dados
Na Nature, Sabina Leonelli publicou um ensaio sobre as transformações no uso de dados nos últimos 150 anos. Se, até o início do século XIX, coletar dados era um ato de poucos indivíduos visionários, a partir de então, houve uma mudança. Os dados passam a ser considerados uma “commoditie” e novos métodos de visualização emergem, como o famoso mapa da cólera de John Snow ou os gráficos de Florence Nightingale.
No século XX, o crescimento dos Estados-nações e a demanda de comércio internacional impulsionaram as iniciativas de mensuração da natureza e sociedade de forma ainda mais sistemática. Na década de 1970, segundo a pesquisadora, quase todas disciplinas científicas já tinham infraestruturas de compartilhamento de dados globais e digitalizados, mas a popularização do uso dos computadores representou uma transformação ainda maior. Nas últimas décadas, por um lado, observamos o surgimento de movimentos como os de Ciência Aberta, mas também uma crescente opacidade sobre os algoritmos.
A reflexão final nos lembra que os dados não devem ser encarados como evidências independentemente do interesses ou objetivos das pessoas envolvidas na sua elaboração, bem como seus contextos de financiamento e institucionais. “Extrair conhecimento de dados não é um ato neutro”, afirma.
Sociedade da desinformação
Em outubro, diversos materiais de peso foram publicados sobre os novos rumos da desinformação. A começar pelo guia ‘Understanding Information Disorder‘ da First Draft, que propõe uma escala para diferentes tipos de conteúdos enganosos: desde os menos danosos, como sátiras, passando por atribuição falsa de contexto, conteúdos manipulados, como imagens adulteradas, entre outros, até chegar aos conteúdos fabricados, ou seja, aqueles são 100% falsos e feitos para causar danos.
Entre eles, estão as chamadas “deep fakes”, vídeos alterados automaticamente por algoritmos de inteligência artificial (IA) capazes de lidar com dados não estruturados, como imagens. Recentemente, a Deeptrace lançou um relatório com um panorama desse fenômeno no ano de 2019. Por ora, 99% dos quase 15 mil vídeos de deep fakes mapeados são pornográficos e todos eles atingem mulheres.
Ainda em outubro, a Witness também publicou o relatório do primeiro encontro sobre o tema realizado no Brasil, que reuniu pesquisadores, jornalistas que atuam com checagem e ativistas para debater as implicações das deep fakes localmente. A conclusão geral dos trabalhos é que, na medida que a criação destes vídeos ou áudios falsos se tornem uma mercadoria como outra qualquer, as deep fakes tendam também a desestabilizar processos políticos, minando a pretensa objetividade de vídeos para serem utilizadas em ataques de reputação, engenharia social ou fraudes.
E engana-se quem pensa que o potencial de estrago das técnicas de IA para fins de desinformação restringe-se à troca de rosto. Fontes de agências de inteligência afirmam que a China já utiliza os mesmos algoritmos para alterar fotos de satélites. O blog do Sentinel Hub inclusive publicou um texto com 6 dicas para identificar imagens de satélites falsas.
SAIBA MAIS
Para aprender mais e aprender sempre
Por falar em inteligência artificial, a quarta edição do simpósio AI Now trouxe reflexões sobre outros usos nocivos de tecnologias de inteligência artificial, convidando a pesquisadores, desenvolvedores e advogados a refletirem sobre seus trabalhos na área.
Na abertura, as criadoras do encontro refletiram sobre cinco temas, considerados cruciais: reconhecimento facial ou de afetos; a transição entre “vieses na Inteligência Artificial” para noção de justiça; cidades, vigilância e fronteiras; trabalho e organizações de trabalhadores e, enfim, o impacto climático destas tecnologias. Aqui, você encontra um resumo da fala e, no site do evento, os vídeos com as atividades.
***
Novas publicações sobre dados e gênero estão por vir: o MIT Press lançou uma página oficial do livro Data Feminism, a ser publicado em 2020, mas com as publicações já acessíveis online. E a Forbes destacou o livro ‘Invisible Women: Exposing data bias in a world designed for men’ de Caroline Perez, que analisa como as políticas de gênero são afetadas por ausência de dados (“data gaps”).
***
A pesquisadora brasileira Doris Kominsky é coautora do artigo ‘Data Changes Everything: Challenges and Opportunities in Data Visualization Design Handoff’, premiado em outubro na VIS Conf 2019, uma das principais conferências globais sobre visualização de informações. O trabalho analisa processos de colaboração entre designers e desenvolvedores para criar projetos de visualização de dados, identificando problemas nos fluxos de trabalho e propondo soluções. Aqui, é possível encontrar outras pesquisas de acesso aberto sobre visualização, que fizeram parte da conferência.
SNIPPETS
Dicas curtas e certeiras sobre o trabalho com dados
Stephanie Evergreen mostrou como melhores gráficos nos ajudam a contarmos melhores histórias, recriando uma visualização de dados sobre câncer de mama e desigualdades raciais.
***
Excelente ferramenta de código-aberto para visualização de dados online, o RawGraphs lançou uma campanha de financiamento colaborativo para preparar a sua versão 2.0: apoiadores podem ajudar a decidir quais gráficos serão futuramente adotados pela ferramenta.
***
Este artigo no portal DataJournalism.com explica como jornalistas podem lidar como informações pessoais ao trabalhar com dados, como avaliar riscos associados à publicação e utilizar diferentes métodos de “desidentificação”.
***
Grandes encontros de jornalismo no Brasil e no mundo: os vídeos da Global Investigative Journalism Conference de 2019 já estão disponíveis no YouTube, assim como os do Festival 3i.
***
Aliás, em passagem pelo Brasil para o 3i, a premiada Giannina Segnini deu entrevista ao Nexo sobre o uso de dados no jornalismo.
***
Quem trabalha com conjunto de dados massivos em Python, pode se interessar por estas duas postagens (parte I e parte II) que Rodolfo Viana fez em seu blog, tratando de otimização do consumo de memória com Pandas.
***
O trabalho de mapeamento de iniciativas de jornalismo de dados no Brasil realizado por Mathias Felipe, que mencionamos no último boletim, ganhou uma reportagem no IJNet.
INSPIRA
Trabalhos e iniciativas inovadoras para te inspirar
A noção de justiça na inteligência artificial também foi abordada por Jonathan Stray e Karen Hao no MIT Technology Review de outubro. Eles apresentam ao leitor a lógica por trás do software COMPAS, um algoritmo utilizado nas cortes norte-americanas para auxiliar juízes a avaliar a probabilidade de reincidência de pessoas acusadas de cometerem crimes.
Apesar de não incluir raça entre os critérios avaliados, acusados negros eram eram duas vezes mais propensos do que brancos a serem classificados como de “alto risco”, conforme revelou esta reportagem da ProPublica em 2016. Mas será possível tornar este algoritmo mais justo?
O leitor pode tentar, explorando os gráficos da matéria de Stray e Hao. Mas a conclusão é que é impossível manter as taxas de erro comparáveis entre os grupos, como brancos e negros, e ao mesmo tempo tratar pessoas como as mesmas classificações de risco da mesma maneira.
“Em qualquer contexto no qual um sistema automatizado de tomada de decisão precise alocar recursos ou punições entre vários grupos que possuem diferentes resultados, diferentes definições de justiça inevitavelmente se tornarão mutuamente exclusivas”, apontam.
APT UPDATE
Atualize-se com as novidades de softwares para trabalhar com dados
Raspe sites rapidamente. Essa é a proposta do Simple Scraper, novo plugin para o Chrome, que torna simples como nunca a extração de dados na web para exportação em tabelas ou JSON.
***
Outubro open source: a Microsoft abriu o código do SandDance, plataforma para visualização e exploração de dados.
***
Já a Netflix liberou o código do Polynote, uma ferramenta de “notebook” para cientistas de dados, com suporte a Scala, Python, SQL e Vega.
***
E o software de análise e visualização de dados Exploratory lançou uma versão gratuita para Windows e Mac OS.
***
A Terra cada 10 minutos: a plataforma Worldview da NASA agora permite a visualização de imagens de satélite praticamente em tempo real.
***
O TensorFlow alcançou sua versão 2.0 com melhorias em suas APIs e melhor integração com Python.
Ficou algo de fora? Envie sugestões e dicas para escoladedados@ok.org.br