Por Jennifer LaFleur, ProPublica, com contribuição de Danielle Cervantes.
Texto original em inglês disponível em: https://github.com/propublica/guides/blob/master/data-bulletproofing.md
Traduzido e adaptado para o português por Isabella Livramento e Adriano Belisario, em outubro de 2021.
Verificações de integridade, para qualquer conjunto de dados
- Certifique-se de saber quantos registros você deveria ter e que você tem todos eles. Algumas versões do Excel, especialmente as utilizadas nas agências governamentais, têm limites de linha. Fique preocupado se você ou alguém na sua redação descobrir que os dados possuem 65.536 linhas [NT: Neste caso, provavelmente alguns registros foram omitidos por conta do limite de linhas]. Programas de base de dados como o MySQL têm limites no tamanho dos números inteiros e no comprimento dos campos de texto (strings). Esses limites [do Excel ou bancos de dados] tendem a ser potências de dois – 2 ^ n ou 2 ^ n-1 – ou ter 1.048.576 registros, portanto, seja cético se suas strings tiverem 255 caracteres ou se uma soma parecer ser 2.097.152.
- Verifique duas vezes números totalizados ou contagens. Busque por estudos ou relatórios com sumários estatísticos.
- Faça uma verificação de consistência em todos os campos. Todos os nomes da cidade estão escritos da mesma forma? E quanto a outros campos importantes? Verifique isso executando um agrupamento (GROUP BY) e classificando alfabeticamente, em todos os campos importantes. Verifique se há inconsistências ortográficas. Por exemplo, se você estiver analisando uma base de dados de acidentes rodoviários, agrupe os registros (GROUP BY) pelo nome da estrada e ordene as linhas de forma ascendente para verificar se há inconsistências.
- Outras checagens básicas: certifique-se de que todos os estados/cidades/países [que deveriam estar presentes] estão incluídos. Verifique o intervalo dos campos. (Por exemplo, cheque se há datas de aniversário que tornem as pessoas velhas ou jovens demais.)
- Verifique se há dados ausentes ou campos em branco. Os valores presentes são reais? Ou aconteceu algo durante a importação dos dados ou a consulta de consolidação dos dados?
- Verifique a sua metodologia (se necessário) comparando-a com outras pesquisas semelhantes.
Além das checagens básicas
- Mantenha um notebook (ou um arquivo no seu computador) e escreva nele tudo o que você faz com os dados. Se estiver utilizando um notebook ou um arquivo markdown, você pode fazer a documentação junto com os códigos.
- Conheça a origem dos dados.
- Obtenha dados semelhantes de outra fonte.
- Crie uma cópia back-up da base de dados.
- Verifique os dados com outros relatórios.
- Certifique-se de que está usando a ferramenta certa. Você pode precisar fazer mais do que contar ou ordenar os registros.
- Consulte especialistas de diferentes perspectivas sobre o tema em questão.
- Encontre reportagens semelhantes e estude o que foi feito.
- Olhe para os dados. Se você tiver disponibilidade de checar presencialmente os registros, faça isso.
- Não se esqueça de fazer uma verificação intensa. Se algo não parece certo, provavelmente não está.
- Cuidado com as variáveis ocultas.
- Invente um padrão para nomear seus arquivos, a fim de se manter organizado. Não recomendo nomear arquivos como “final” ou mesmo “super final”.
- Se acha que algo está além do que você pode fazer, chame um profissional para ajudar.
- Cuidado com a linguagem. É muito fácil escrever sobre uma descoberta baseada em dados de uma forma que torna a afirmação errada. Se não tem certeza, pergunte.
- Se estiver a ranqueando os dados, tenha em conta a margem de erro pois isso pode alterar os rankings.
Algumas notas sobre estudos de terceiros
- Obtenha o questionário e a metodologia. Se não te derem, isso é um sinal de alerta.
- Tenha cuidado com métodos não científicos: pesquisas (surveys) feitos na web ou por pessoas nas ruas, bem como outras formas de autosseleção.
- Conheça o tamanho da amostra, o que lhe dará a taxa de erro da amostragem.
- Mais uma vez, conheça a fonte dos seus dados.
- Leve em conta a margem de erro, a taxa de não resposta ou a opção “não sei” ao tirar conclusões.
- Se possível, faça testes estatísticos nos dados. O que pode parecer significativo para você, pode não ser na realidade.
- Ao reportar os resultados, evite uma falsa precisão. Dizer que 52,18% das pessoas pensam que “blá, blá, blá” retrata para os leitores uma precisão impossível.
- Coloque os seus números em perspetiva.
Encontre a metodologia certa
- Leia os relatórios de pesquisa.
- Encontre um modelo de dados existente – existem algumas metodologias específicas para lidar com determinados tipos de dados.
- Encontre um especialista para melhorar a sua metodologia durante o processo.
- Mostre os resultados para os “alvos” de sua reportagem.
- Duplique o seu trabalho. Assim, você tem certeza que nada se irá se perder ao longo do caminho.
- Mantenha um universo consistente de casos. Se tiver de filtrar ou redefinir o seu universo, seja capaz de explicar por qual razão você isolou certos registros ou casos.
- Dê a si mesmo tempo suficiente para prosseguir com a coleta de informações para a sua base de dados antes de começar a escrever. Se você construiu uma base de dados orgânica, onde as informações podem precisar serem atualizadas ou irão mudar após novas inclusões, defina uma data de corte e não faça mais alterações na base de dados, a menos que os dados sejam imprecisos ou que as novas informações alterem o significado da história.
Outras dicas dos nossos colegas
Sarah Cohen da Universidade estatal do Arizona, ex-editora de dados do New York Times sobre bases de dados caseiras:
- Numere as páginas dos seus documentos para mantê-los em ordem e inclua o número quando introduzir dados. Isso ajuda a se manter organizado e na realização de uma segunda checagem posteriormente
- Adicione campos que relatem o quão “publicável” essa informação é. Costumo criar colunas que qualquer um possa preencher, por exemplo: a ortografia dos nomes foi revisada?
Ron Campbell da NBC News sobre documentar o seu trabalho:
“Tento documentar cada fase do meu trabalho usando três ferramentas:”
- Um registo (log) de trabalho (no Word ou num arquivo de texto): descrevo o que estou tentando fazer em cada etapa e coloco em forma de perguntas.
- Arquivos de consultas: fácil de fazer no SQL Server. Apenas certifique-se de colocar um comentário acima da consulta, explicando o que você estava tentando fazer.
- A ferramenta de comentários do Excel: mais uma vez, útil para documentar o que você está tentando fazer.
Russell Clemmings da The Fresno Bee [jornal da Califórnia] sobre a “rechecagem” dos seus dados:
- Escreva uma consulta diferente que deveria produzir os mesmos resultados e veja se funciona.
- Pegue uma amostra aleatória dos seus resultados e verifique-os com os dados brutos.
- Tenha alguém que conheça os dados para checar os seus resultados antes da publicação.
- Verifique duas vezes os resultados surpreendentes – se as citações aumentarem 50% num ano, pode ser uma história ou pode (mais provável) ser um erro.
Para mais informações
Numbers in the Newsroom: Using Math and Statistics in News by Sarah Cohen for Investigative Reporters and Editors, Inc.
Precision Journalism by Philip Meyer. Indiana University Press, Bloomington. 4th Edition. 2002.
News and Numbers by Victor Cohn. Iowa State University Press, Ames. 1989.
How to Lie with Statistics by Darrell Huff. W. W. Norton & Company, New York. 1954 (renovado em 1984)
Innumeracy: Mathematical Illiteracy and Its Consequences by John Allen Paulos. Vintage Books, New York. 1990.
A Mathematician Reads the Newspaper by John Allen Paulos. Anchor Books, New York. 1995. (Também confira a fita de apresentação de Paulos como keynote no NICAR 2002 na Philadelphia)
IRE Resource Center: www.ire.org