Machine Learning no Jornalismo de Dados

A transmissão abaixo será traduzida simultaneamente para o português. Para conferir o vídeo com o áudio original, em inglês, clique aqui.

SOBRE O KEYNOTE

Uma das maiores apostas do jornalismo de dados, o aprendizado de máquina está revolucionando o mercado, sobretudo o seu uso em projetos com análises em larga escala. A tecnologia, que usa Inteligência Artificial para criar modelos a partir de padrões, vem sendo cada vez mais usada por pesquisadores, empresas e governos ao redor do mundo. Porém, com grandes poderes, vêm grandes responsabilidades. Debates sobre vieses, incertezas, transparência e outras questões estão sendo levantados pela comunidade. Quer entender as principais regras de machine learning e como adotar no seu projeto? Assista ao keynote e mergulhe nessa nova realidade.

Comandada pelo jornalista sênior de dados na The Economist, Sondre Solstad, a palestra “Machine learning no jornalismo de dados” aconteceu no último dia (13/11) da IV Conferência de Jornalismo de Dados e Métodos Digitais (Coda.Br) e contou com a mediação da jornalista Carolina Moreno, da TV Globo. Na apresentação, Solstad mostrou como o The Economist usou machine learning para estimar o número de mortes por COVID-19 globalmente. Ao longo da apresentação, o jornalista ainda deu orientações para quem deseja dar os primeiros passos e explicou como e quando usar aprendizado de máquina em projetos jornalísticos. 

Aprendizado de máquina na cobertura da pandemia

Na primeira parte do keynote, Sondre Solstad compartilha os bastidores do impressionante projeto da The Economist que usou aprendizado de máquina para estimar o número de mortes por COVID-19 no mundo. Segundo o jornalista, o principal problema com os dados oficiais é que apenas pessoas testadas entram nas estatísticas e muitos países não têm condições de testar em larga escala. 

“No The Economist, nós tentamos ter uma noção da subcontagem estimando o número de pessoas que se infectaram em setembro do ano passado. Na época, chegamos a um total de 620 milhões de pessoas. Naquele momento, cerca de 30 milhões entraram nos dados oficiais”, revela Solstad. 

O desafio era ainda maior nos países mais pobres, já que a ausência de dados dava a sensação de que os locais estavam lidando bem com a COVID-19, o que gera consequências na distribuição de recursos como vacinas, por exemplo. De acordo com Solstad, “os números tendem a subestimar a gravidade da pandemia justamente nos países com menos recursos disponíveis para lutar contra ela”.

A solução do The Economist foi tentar estimar a diferença entre o número total de mortos no período da pandemia e o número de mortos caso o país não tivesse passado pela pandemia. O resultado dessa conta chega ao que o veículo chamou de excesso de mortes. Mas ainda assim há problemas. “Muitos não informam os dados totais de mortalidade necessários para o cálculo e, os que informam, geralmente o fazem com muito atraso”, afirma.

Nesses casos, a equipe considerou mais de cem indicadores para estimar o excesso de mortes, como políticas econômicas, expectativa de vida, entre outros. Dessa forma, a partir dos cálculos feitos em 84 países que tinham dados consistentes de mortalidade, foram ensinados padrões para os algoritmos de machine learning criarem um modelo capaz de estimar o excesso de mortes também nos países que não tinham o dado bruto, mas apresentaram outros indicadores.

Os resultados do ambicioso projeto foram impressionantes e colaboraram para o mundo ter uma visão mais fidedigna da dimensão da pandemia, sobretudo em regiões com escassez de dados. Segundo o projeto, estima-se que o número de mortos por COVID-19 desde janeiro de 2020 até hoje seja de mais de 16 milhões de pessoas. Ou seja, duas a quatro vezes o número oficial, que aponta para 5 milhões de mortes. Além do número total, o trabalho também apresenta uma visão diferente sobre as “ondas” da pandemia, isto é, os picos de casos ao redor do mundo. 

Solstad destaca a importância do projeto para além do valor da notícia, mas como um trabalho social que impacta a forma como olhamos a pandemia e as desigualdades ao redor do mundo. Para isso, o jornalista compara mapa oficial de impacto da covid-19 por país com o mapa feito a partir dos resultados do algoritmo de machine learning

“A nossa impressão da pandemia foi formada por uma imagem que parece mostrar que África, Sul da Ásia e Sudeste da Ásia foram pouco afetados pela pandemia”, afirma Solstad. “O que esta imagem incorreta significa é que a prioridade do envio de vacinas a países pobres, de ajudá-los com intervenções que freiam a pandemia e de entendermos melhor a doença, foi muito inferior do que poderia ter sido.”

Machine learning no jornalismo: quando e como usar 

Na segunda parte do keynote, o jornalista fala de forma mais ampla sobre o uso de aprendizado de máquina no jornalismo de dados e dá dicas para quem tem interesse em conhecer mais sobre a tecnologia. Segundo Solstad, o objetivo é oferecer sugestões sobre quando e como usar machine learning no jornalismo, entendendo também as questões éticas que atravessam este uso. 

Além disso, o jornalista revela que o método é muito mais acessível e versátil do que se imagina, já que está disponível gratuitamente para linguagens como R e Python, roda em computadores mais simples e tem capacidade para analisar diversos formatos de dados. 

O jornalista alerta para a importância de os jornalistas estarem mais atentos a essas novas tecnologias. “É essencial que os jornalistas acompanhem isso, não apenas para utilizarmos essas técnicas poderosas, mas também para questionarmos e interrogarmos governos e empresas quando eles usam”, afirma. 

Ao longo do keynote, Sondre Solstad destaca algumas questões relevantes que devem ser consideradas ao utilizar esta tecnologia. Entre elas, a transparência na metodologia, a explicação dos dados e processos, a importância de deixar os códigos abertos para a comunidade e, principalmente, a comunicação das incertezas nos resultados. Para o jornalista, é importante olhar para o aprendizado de máquina de forma cética, compreendendo que se trata de um método passível de erros e vieses como qualquer outro. Ainda assim, é um excelente caminho para investigações em larga escala de grande alcance e impacto social, como é o projeto da The Economist

DURAÇÃO

1:30h

REFERÊNCIAS DA ATIVIDADE

Sondre-Solstad1

Sondre Solstad

É jornalista sênior de dados da The Economist. Possui doutorado em Filosofia pela Princeton University e pós-doutorado em Relações Internacionais, Métodos Formais e Quantitativos e Políticas Comparativas pela mesma universidade. Desde 2020, seu trabalho já foi citado pelo New York Times, CNN, Wired, Foreign Policy, e tema de um documentário curta-metragem da Vox. Por seu trabalho cobrindo a pandemia, foi selecionado para o prêmio de “Jornalista de dados do ano 2020” pela Society of Editors.

Ana Carolina Moreno

Carolina Moreno

Jornalista sênior de dados da TV Globo, é jornalista desde 2006, com especialização em edição em jornalismo desde 2009, e produz reportagens dirigidas por dados desde 2017. Cobre os dados da pandemia de Covid-19 desde o início para os telejornais locais e nacionais da TV Globo em São Paulo. Vencedora do Prêmio Andifes 2014 e 2015, segundo lugar no Prêmio Impa 2019. Jornalista Amiga da Criança pela Andi desde 2020. Participante do R-Ladies São Paulo desde 2019.

REALIZAÇÃO

DESENVOLVIDO COM

APOIO

APOIO DE MÍDIA

Visite os sites das edições anteriores: 2016201720182019 e 2020