Em maio, foram anunciados 103 projetos que concorrerão este ano na última fase do maior prêmio de jornalismo de dados do mundo, o Data Journalism Awards. O Brasil foi o terceiro país com mais inscrições na premiação e emplacou 2 projetos nacionais na categoria de inovação em jornalismo de dados.

Os trabalhos foram feitos pelo Estadão e a Folha de São Paulo, enfocando sob diferentes óticas as eleições presidenciais de 2018. A Folha criou o GPS Eleitoral, um projeto que coletou e analisou dados sobre os discursos dos candidatos em vídeos e nas redes sociais. Já o Estadão analisou as expressões dos candidatos durante um debate, usando tecnologias de reconhecimento facial.

A Escola de Dados fez uma breve entrevista com Rodrigo Menegat e Fábio Takahashi, responsáveis pela inscrição dos projetos no prêmio internacional pelo Estadão e pela Folha de São Paulo, respectivamente. Confira abaixo o diálogo, com grifos nossos, e saiba mais sobre os bastidores destas notícias reconhecidas internacionalmente.

# Como surgiu a ideia para a pauta?

Fábio Takahashi (Folha): Estávamos pensando o que poderíamos fazer de interessante na cobertura eleitoral do ano passado. Achávamos importantíssimo ter um projeto grande, tanto pela importância da eleição presidencial, quanto porque seria nossa primeira grande cobertura como grupo de jornalismo de dados na Folha. Então, ficamos atrás de algo muito marcante.

Ninguém da equipe tinha trabalhado em uma cobertura de eleição, mas como espectador ou usuário tínhamos uma angústia de conseguir dar sentido ao que acontecia em várias frentes na campanha: nas redes sociais, em vídeo, nos programas eleitorais, etc. Cada vez é mais coisa pro eleitor médio acompanhar. Antes já era muita coisa e agora ainda tem um monte de rede social, com conteúdos e formatos diferentes. Nós queríamos organizar o que os candidatos estavam falando, visando a boa informação aos eleitores.

Rodrigo Menegat (Estadão): Sabíamos que o Estadão iria co-organizar um debate entre os candidatos presidenciais e que precisávamos desenvolver algo especial para a ocasião. Depois de algum tempo de brainstorming, resolvemos aproveitar nosso acesso privilegiado ao estúdio para gravar o debate todo e fazer algo com reconhecimento facial, inspirados nesse material que o Periscopic produziu para o discurso de posse de Donald Trump. A partir daí, passamos a elaborar um projeto-piloto – praticamente uma reportagem a parte, mas que nunca viu a luz do dia – usando imagens de um debate televisionado anteriormente. Com o resultado dessa análise, que serviu como teste para nossa metodologia, descobrimos que resultados podíamos esperar e definimos um formato para a matéria “de verdade”.

# Entre a pesquisa inicial, realização e publicação, quanto tempo foi necessário para desenvolver o trabalho?

Fábio: Ficamos pelo menos uns 3 meses montando a infra-estrutura para o GPS começar a rodar e, depois, trabalhamos com ela toda eleição. Era uma estrutura bem complexa: tínhamos que captar dados de diferentes plataformas (Twitter, Facebook e Youtube), além dos programas eleitorais gratuitos. Cada um com um padrão diferente para armazenar os dados, então, tivemos que encontrar soluções para cada uma das ferramentas. Certamente, o que deu mais trabalho foi organizar os programas eleitorais, pois fizemos isso de forma automatizada. Não daria para ter alguém assistindo os programas e digitando o que estava acontecendo. E na propaganda é um candidato atrás do outro, então, a gente tinha que saber onde estava o corte entre eles.

Isso foi um desafio bem grande: saber exatamente como organizar o programa eleitoral. Naqueles três meses de trabalho, houve um grande destaque para esta parte. O Twitter, por exemplo, tem uma API boa. O Facebook também tem uma abertura de dados suficiente para isso que precisávamos, mas o programa eleitoral na TV era um super desafio.

Rodrigo: O primeiro arquivo relacionado ao projeto que consegui encontrar no meu computador foi criado no dia 20 de agosto e a matéria foi publicada no dia 13 de setembro. Assim, considerando apenas o tempo de mão na massa, levamos pouco menos de um mês. Entretanto, a ideia já estava em gestação antes disso – passamos um bom tempo discutindo pormenores e planejando. Também passei alguns dias lendo papers para ver se essa ideia de análise computacional de expressões faciais fazia mesmo sentido.

# Quais foram as principais dificuldades encontradas para realizar a pauta?

F: Uma grande dificuldade foi justo colocar esta infra-estrutura de pé – ela é super complexa, como eu disse. E, durante a campanha, a gente atualizava o GPS Eleitoral pelo menos uma vez na semana e às vezes a gente coloca também os candidatos ao governo de São Paulo. Então, o volume de trabalho era uma dificuldade também. Às vezes, os scripts não funcionavam bem, não capturavam bem o que a gente precisava. A Marina Merlo, que trabalha com a gente na época e foi uma das que puxaram o projeto, descobriu um algoritmo que fazia análise de todos os dados e textos e agrupava de forma bem inteligente os termos. No fim, era um trabalho insano para arredondar isso, fazer uma limpeza manual e transformar em um produto jornalístico: fazer infografia, textos e etc. Tudo isso toda semana, fechando para a versão impressa e online.

R: A análise de dados foi bastante tranquila – basicamente, usamos uma API da Microsoft para gerar “notas” para as emoções que os candidatos demonstravam em cada frame. O mais difícil foi capturar vídeo de qualidade suficiente para que o programa não tivesse problemas em reconhecer cada participante. Para isso, precisamos do apoio das equipes da TV Estadão e da TV Gazeta, que foi uma das organizadoras do evento. Fizemos vários testes até perceber que teríamos de usar no mínimo quatro câmeras filmando em alta definição e em ângulo fechado. Para descobrir isso, até simulamos um debate: o pessoal da equipe foi até o estúdio, ficou no lugar onde estariam os púlpitos e começou a discutir. Em algum computador do Estadão existe um vídeo onde eu discuto sobre a Operação Lava Jato com meu editor.

# Como foi possível contorná-las?

F: A solução para a parte tecnológica foi uma boa programação, principalmente. Ainda que tenha sido complexo, a gente começou a fazer muito antes. Então, deu pra errar bastante antes enquanto não estava valendo. Quanto ao volume de trabalho, não tem muito jeito: foi suor. Um ou dois dias por semana a gente suava demais para colocar isso de pé.

R: Tudo funcionou graças às equipes da TV Estadão e da TV Gazeta que embarcaram no projeto. A primeira foi responsável por toda a filmagem e edição; a segunda nos ajudou a planejar o posicionamento das câmeras no estúdio. Foi essencial garantir boa comunicação entre os três times, assim como ter o apoio e o entusiasmo dos chefes.

# Teria alguma dica para quem for trabalhar em alguma investigação similar?

F: Acho que o segredo foi o planejamento. Se a gente tivesse começado muito em cima, não teria ficado bom ou talvez nem existisse. Era uma complexidade grande, muitas bases de dados convergindo. Coisas que a gente nunca tinha trabalhado, como identificar o corte entre os candidatos nos programas eleitorais. A gente precisou de tempo para aprender isso e felizmente começamos com antecedência.

R: O mais importante é perceber que absolutamente qualquer coisa pode ser mensurada e analisada com uma mentalidade de jornalismo de dados – até as caretas que o Ciro Gomes fazia nos intervalos de um debate na TV.

# Ao longo do processo, houve alguma percepção, descoberta ou insight interessante, mas não mencionada na matéria final?

F: Acho que não ficou nada de fora do material. Como a gente publicava toda semana, quando a gente achava que algo ficou de fora ou não ficou tão bom, a gente conseguia melhorar depois.

R: Vários. As pesquisas na área de reconhecimento de expressões faciais são incríveis. Os experimentos do Paul Ekman, de quem falamos no apêndice metodológico da reportagem, são especialmente interessantes. Ele viajou o mundo pedindo para que pessoas descrevessem as emoções demonstradas em diversas fotos de rostos humanos. O que ele descobriu? Que expressões de sentimentos como alegria, medo e raiva são praticamente universais – quase todos os povos e culturas percebiam as imagens da mesma maneira. Além disso, a análise das imagens rendeu umas boas risadas – na prática, nós construímos um gerador de memes que encontrou automaticamente as melhores caretas da noite. Falei um pouco sobre isso no Twitter, até.