[O texto abaixo é um resumo do artigo “Putting data back into context” publicado no DataJournalism.com, por Catherine D’Ignazio, em 4 de abril de 2019. O resumo foi feito por Paulette Desormeaux, e a tradução para o português é de Adriano Belisário. O texto foi produzido no contexto do curso de jornalismo de dados realizado pelo Knight Center.]

Catherine D’Ignazio reflete sobre o que acontece quando uma instituição coleta dados e menciona que a origem da palavra “dados” significa o “que é dado”. É assim que, diz ela, muitos se aproximam dos dados pela primeira vez, entendendo-os como algo neutro: informações que estavam lá, que a instituição coletou e armazenou. 

No artigo, D’Ignazio aponta que a acadêmica Johanna Drucker propõe usar, em vez de “data” (dados, em inglês), a palavra “capta”, que vem de “o que é tirado”. Isso ocorre porque, como Drucker explica em seu artigo ´Graphesis: Visual knowledge production and representation´, os dados “são considerados informações objetivas, enquanto “capta” são informações coletadas porque estão em conformidade com as regras e hipóteses estabelecidas para um determinado experimento”.

D’Ignazio diz que pensar em “capta” e não em “data” nos ajuda a lembrar que os dados nunca são neutros, mas que são colocados em um contexto específico e coletados por um determinado motivo. É importante perguntar por que os dados foram coletados por uma instituição específica, como os utilizam e a quem essas informações beneficiam ou prejudicam.

Por que o contexto é difícil

Entender o contexto dos dados (“capta”) é um grande desafio. Primeiro, porque em geral os dados são coletados pelas instituições para fins internos, não para uso por terceiros. O texto menciona uma referência a Drew Sullivan, que diz que “dados existem para servir à burocracia e não ao jornalista”. A maneira de nomear, a estrutura e a organização da maioria das bases de dados são realizadas sob a perspectiva da instituição e não baseado na busca de uma história jornalística. D’Ignazio dá o exemplo de quando seus alunos passaram várias semanas tentando entender a diferença entre as colunas ‘PROD.WASTE (8.1_THRU_8.7)’ e ‘8.8_ONE-TIME_RELEASE’ de um banco de dados de liberação de produtos químicos tóxicos no meio ambiente por certas empresas.

Às vezes, a falta de contexto ou metadados nos bancos de dados se deve, entre outras coisas, à necessidade de recursos para gerá-los. Mas outras vezes, se a instituição que coleta as informações estiver interessada que certas informações não sejam tornadas públicas, a falta de metadados, usabilidade e contexto os favorecerá. D’Ignazio dá o exemplo do registro da Polícia de Boston e seu programa de detenção e registro da FIO (Field Interrogation and Observation). Para este programa, a Polícia deve registrar as informações das detenções de indivíduos feitas na rua, os interrogatórios, etc. No ano de 2014, ela foi forçada a divulgar essas informações, após uma ação legal vencida pela União Americana das Liberdades Civis. Mas era necessário conhecer – e pesquisar – o termo que a burocracia policial usa nesse programa para nomear este procedimento. Assim, o contexto pode ajudar a entender por que há informações que não aparecem em uma pesquisa.

O contexto pode ajudar a entender por que há informações que não aparecem em uma pesquisa. Fonte: DataJournalism.com

Outras instituições podem publicar as informações, mas não são claras as limitações desses dados, o que pode fazer com que sejam seriamente mal compreendidos. D’Ignazio dá o exemplo do site FiveThirtyEight, que removeu uma reportagem sobre o sequestro de meninas nigerianas, feito com base nas informações do GDELT (Global Database for Events, Language and Tone). A história era sobre a incidência de sequestros, mas os dados que eles coletaram do GDELT não eram sobre eventos de seqüestro, mas reportagens sobre sequestros. No livro Data Feminism, que D’Ignazio escreveu com Lauren Klein, explica que o GDELT não descreveu as limitações de seus dados, por estar pressionado a atrair financiamento para fazer pesquisas científicas de big data. 

O detetive de contexto em 3 etapas

D’Ignazio diz que um jornalista de dados deve se tornar um “detetive de contexto”, que consegue conectar as informações encontradas em planilhas e bancos de dados com o ambiente em que foram coletados. Para entender os dados, o jornalista deve entender quem, o que, quando, onde e como desta burocracia de onde esses dados vêm.

Em suas aulas, D’Ignazio usa o modelo “detetive de contexto em três etapas”, que podem ser executadas em qualquer ordem.

1 . Faça o download dos dados e oriente-se

Você pode explorar os dados com Excel ou Google Spreadsheets para responder a perguntas básicas, como:

  • Quantas observações (linhas de dados) você tem? 
  • Quantos campos (colunas) você possui? 
  • Está claro o que cada linha conta? (Lembre-se dos incidentes de sequestro versus relatos da mídia sobre sequestro; é extremamente importante esclarecer o que seus dados registram)
  • Qual é o período de tempo dos dados? Use a função “Classificar” em qualquer coluna com datas ou carimbos de data e hora para ver quando os dados começam e quando terminam.
  • Qual é a extensão geográfica dos dados?
  • Parece que muitos dados estão faltando?

Esse estágio pode ser tão desafiador que o autor criou uma ferramenta on-line gratuita chamada WTFcsv.

O que o WTFcsv faz é analisar cada coluna de informações e visualizar os dados em termos de padrões por coluna. Por exemplo, o exemplo dos passageiros do Titanic. O WTFcsv visualizou as informações sobre “sexo” com um gráfico de colunas mostrando que havia 314 mulheres e 577 homens registrados no Titanic. 

Aqui, a chave é fazer boas perguntas antes de iniciar uma história e o WTFcsv pode responder a todas as perguntas mencionadas acima. D’Ignazio menciona que boas perguntas sobre esses dados estariam, por exemplo, na qualidade dos dados, sabendo se as informações estão completas; na ética dos dados, por que a variável “sexo” é binária; na análise, descobrindo se as taxas de sobrevivências são maiores entre homens ou mulheres.

Taxas de sobrevivências entre homens ou mulheres do WTFcsv. Fonte: DataJournalism.com

2 . Explore todos os metadados disponíveis

Os metadados são “os dados dos dados”. No mundo ideal, todos os bancos de dados teriam um dicionário detalhado e atualizado, explicando, por exemplo, o que as variáveis ​​significam, quais são as limitações dos dados, as unidades de medida etc.

Metadados do banco de dados nacional NOAA de corais e esponjas do fundo do mar. Fonte: Datajournalism.com

Às vezes, encontrar metadados é difícil pois eles podem ser negados ou desatualizado. Outras vezes, pode haver um dicionário dos dados, mas com outro nome. D’Ignazio exemplifica: o dicionário de dados da cidade de Boston 311 é chamado de ‘CRM Value Codex’.

Seja sempre cético, verifique todas as informações e verifique os dados.

3 . Investigue os antecedentes dos dados 

Os jornalistas normalmente fazem uma investigação de antecedentes de nossas fontes ou assuntos, e também devemos fazê-lo nos dados. Isso nos permitirá entender as limitações, evitar erros e descobrir notícias.

Este estágio do detetive de contexto aplica-se a três coisas:

 3.1 Investigue os antecedentes de como os dados foram coletados.

Heather Krause, consultora de ciência de dados, usa um documento para criar o que ela chama de “biografias de dados”, onde descreve de onde vêm os dados, quem os coletou e como eles os coletaram. Os detalhes burocráticos da produção dos dados são essenciais para entender dados ausentes ou onde erros podem ter ocorrido (por exemplo, se eles foram cometidos por um ser humano ou se os dados foram medidos por uma máquina ou se foram relatados pelos usuários; ou ainda se a maneira pela qual a organização conta e mede os dados foi recentemente alterada, afetando a possibilidade de fazer comparações).

Nesse processo, você primeiro analisa os metadados. Então, você fala com uma fonte humana. Você precisa ser criativo para descobrir quem pode falar sobre os dados, caso alguém envolvido no processo de coleta não possa falar. 

Kraus oferece um modelo para fazer a biografia dos dados que estão vinculados ao texto.

 3.2 Pesquise o histórico da organização que os coletou

É importante saber o que motivou uma organização a coletar esses dados e saber como usá-los.

No exemplo da polícia de Boston, isso implica: qual é a sua missão? Há quanto tempo eles existem? Qual é o seu orçamento? Quantos oficiais existem? Quando estiveram no noticiário há dez anos e por quê? Também significa investigar o programa da FIO especificamente: quando e por qual razão (a polícia de Boston) iniciou o programa? Fazia parte de uma onda nacional de programas da FIO? Existe um debate acadêmico e jurídico sobre se esses programas são constitucionais e eficazes na redução do crime? 

Nesse contexto, devemos pensar em como essas informações são usadas internamente, por exemplo, no caso da polícia de Boston, quem relata esses números? Eles têm metas ou cotas para cumprir? Etc.

Entrevistas com pessoas do sistema são muito relevantes. Se você não conseguir obtê-los, poderá confiar na seguinte etapa:

 3.3 Investigar os antecedentes do ambiente regulatório

Dados são caros para coletar, organizar e manter. A maioria das organizações o fazem não por quererem, mas por estarem em conformidade com certas leis ou políticas internas. O entendimento da estrutura regulatória esclarece por qual razão uma instituição coleta determinados dados, a quem são relatados e como. Por exemplo, nos Estados Unidos, as instituições de ensino superior credenciadas registram e denunciam agressões sexuais no campus porque obedecem à Política de Divulgação de Segurança no Campus de Jeanne Clery e à Lei de Estatísticas de Crimes no Campus (Lei Clery). Em países com leis de acesso à informação pública, por exemplo, documentos de governança organizacional e manuais de treinamento podem ser solicitados para entender o contexto regulatório interno que orienta a coleta de dados.

Armadilhas

Existem duas armadilhas que devem ser levadas em consideração:

 1. Tenha cuidado ao fazer suposições pessoais para preencher as lacunas de informação. O conselho de Jonathan Stray deve ser seguido “considere várias explicações para os mesmos dados, em vez de aceitar a primeira explicação que faz sentido”. Por exemplo, os alunos de D’Ignazio estavam analisando um banco de dados de cães e havia uma variável chamada raça. Um dos valores era “desconhecido” e um aluno interpretou que isso significava “raça mista”, mas na realidade era que esse campo não havia sido preenchido ao se fazer os registros.

Banco de dados de cães. Fonte: Datajournalism.com

 2. Devemos considerar que existem desequilíbrios de poder no processo de coleta, na organização e no ambiente regulatório. Assim, “os números podem parecer contar uma história na primeira exploração, mas essa história pode ser completamente falsa, porque o ambiente de coleta silenciou sistematicamente as pessoas com menos poder”. Forças como racismo, patriarcado ou classismo podem subrepresentar mulheres e outros grupos marginalizados. É por isso que é tão relevante estabelecer o contexto e não apenas aceitar os números pelo valor de face. Um exemplo: a investigação dos estudantes de D’Ignazio revelou que os campi com o maior número de queixas de assédio sexual tinham, de fato, melhores políticas do que os de baixo número, por isso que as vítimas tendem a denunciar.

Data Feminism – Chapter Five: The Numbers Don’t Speak for Themselves

Oportunidades

Existem jornalistas e organizações de mídia criando recursos úteis com base nos relatórios do contexto de dados. Por exemplo, o ProPublica criou o Dollars for Docs, que se tornou a fonte de novas pesquisas sobre a influência de empresas farmacêuticas em contextos locais nos Estados Unidos. Assim, o ProPublica transformou o contexto de suas próprias pesquisas e dados em um recurso que outras organizações podem usar.

Datasets da ProPublica. Fonte: Datajournalism.com

Dados verificados e informação contextual também podem ser uma boa fonte de receita para a mídia. O ProPublica possui conjuntos de dados (datasets) à venda sobre vários tópicos. Muitos deles vêm com um “guia do usuário de dados” – como Bob Gradeck cunhou – algo que transcende o dicionário de dados e inclui coisas como a origem dos dados, como a organização os usa e quais são suas limitações.

A Associated Press (AP) compilou um banco de dados nacional sobre segregação escolar nos EUA, à venda com um guia do usuário de dados de 20 páginas, incluindo informações como: onde os dados foram coletados e que tipo de perguntas podem ser respondidas com eles. Também está desenvolvendo um modelo de assinatura no qual as organizações podem pagar pelo acesso a conjuntos de dados, seu contexto e discussões com repórteres que trabalharam nos problemas que foram gerados com base nesses dados.

Conclusão

Colocar os dados em contexto é um trabalho árduo, mas extremamente necessário para fazer jornalismo de dados, pois só podemos entender bem a história, se entendermos o contexto dos dados.