Tradução livre, feita por Natália Mazotte, do texto “I’m a data scientist who is skeptical about data“, publicado no Quartz pela Andrea Jones-Rooy, professora de Ciência de Dados na NYU.

Após milênios confiando em anedotas, instintos e contos da carochinha como prova das nossas opiniões, a maioria de nós hoje exige que as pessoas usem dados para apoiar seus argumentos e ideias. Seja curando o câncer, resolvendo a desigualdade no ambiente de trabalho ou ganhando eleições, os dados agora são vistos como a pedra da Roseta para decifrar o código de praticamente toda a existência humana.

Mas no frenesi, nós confundimos dados com a verdade. E isso tem implicações perigosas em nossa capacidade de entender, explicar e melhorar as coisas com as quais nos importamos.

Tenho muito em jogo. Sou professora de ciência de dados na NYU e consultora de ciências sociais para empresas, onde conduzo pesquisas quantitativas para ajudá-las a entender e melhorar a diversidade. Eu ganho meu sustento a partir de dados, mas sempre que estou conversando com alunos ou clientes tenho que lembrá-los de que os dados não são uma representação perfeita da realidade: é um construto fundamentalmente humano e, portanto, sujeito a vieses, limitações e outras imperfeições significativas e consequentes.

A expressão mais clara desse equívoco é a questão ouvida de escritórios a salas de aula quando pessoas bem-intencionadas tentam chegar ao fundo de questões delicadas:

“O que dizem os dados?”

Os dados não dizem nada. Humanos dizem coisas. Eles dizem o que percebem ou procuram nos dados — dados que só existem, em primeiro lugar, porque os humanos escolheram coletá-los e os coletaram usando ferramentas feitas pelo homem.

Os dados podem dizer tanto sobre um problema quanto um martelo pode construir uma casa ou farinha de amêndoa pode fazer um macaron. Os dados são um ingrediente necessário na descoberta, mas você precisa de um ser humano para selecioná-lo, moldá-lo e transformá-lo em um insight.

Os dados são, portanto, tão úteis quanto sua qualidade e as habilidades da pessoa que os utiliza. (Você sabe disso se já tentou fazer um macaron. O que eu já tentei. E digamos que os dados certamente não corresponderiam ao padrão da confeitaria francesa.)

Então, se os dados, por si só, não podem fazer ou dizer nada, então o que são?

O que são dados?

Os dados são uma aproximação imperfeita de algum aspecto do mundo em um determinado momento e lugar. (Eu sei, essa definição é muito menos sexy do que a que todos esperávamos.) É o resultado gerado quando os humanos querem saber algo sobre algo, tentam medi-lo e então combinam essas medidas de maneiras específicas.

Aqui estão quatro grandes maneiras de introduzir imperfeições nos dados.

  • erros aleatórios
  • erros sistemáticos
  • erros na escolha do que medir
  • erros de exclusão

Contudo, esses erros não significam que devemos descartar todos os dados e que nada será conhecido. Significa abordar a coleta de dados com ponderação, perguntando a nós mesmos o que podemos estar perdendo e saudando a coleta de dados adicionais.

Essa visão não é anticiência ou antidados. Pelo contrário, a força de ambos vem de ser transparente sobre as limitações do nosso trabalho. Estar ciente de possíveis erros pode tornar as nossas inferências mais fortes.

O primeiro são os erros aleatórios. Eles acontecem quando os humanos decidem medir alguma coisa e, seja por equipamentos quebrados ou erros que eles próprios cometem, os dados registrados estão errados. Isso pode acontecer quando penduramos um termômetro na parede para medir a temperatura ou usamos um estetoscópio para contar os batimentos cardíacos. Se o termômetro estiver quebrado, ele pode não informar o número correto de graus. O estetoscópio pode não estar quebrado, mas o ser humano que faz a contagem pode se distrair e perder uma batida.

Assim como queremos analisar as coisas cuidadosamente com estatísticas e algoritmos, também precisamos coletá-las cuidadosamente.

Uma forma disso ter um papel determinante no resto de nossas vidas (quando não estamos assiduamente registrando temperaturas e batimentos cardíacos) é na forma de falsos positivos em exames médicos. Um falso positivo para, digamos, câncer de mama, significa que os resultados sugerem que temos câncer, mas nós não temos. Há muitas razões para isso acontecer, a maioria das quais se resume a um passo em falso no processo de transformar um fato sobre o mundo (se temos ou não câncer) em dados (por meio de mamografias e humanos).

As conseqüências desse erro são muito reais também. Estudos mostram que um falso positivo pode levar a anos de consequências negativas para a saúde mental, mesmo que o paciente tenha se mostrado fisicamente bem. Por outro lado, o medo de falsos positivos também pode levar a uma triagem mais vigilante (… o que aumenta as chances de mais falsos positivos, mas eu divaguei).

De modo geral, desde que nosso equipamento não esteja quebrado e estejamos dando o melhor de nós, esperamos que esses erros sejam estatisticamente aleatórios e, assim, cancelados com o tempo, embora isso não seja um grande consolo se a sua triagem médica tiver um dos erros.

O segundo são erros sistemáticos. Isso se refere à possibilidade de que alguns dados estejam entrando no seu conjunto de dados às custas de outros, o que pode levar a conclusões equivocadas sobre o mundo. Isso pode acontecer por vários motivos: quem você escolha pra fazer parte da sua amostra, quando você coleta sua amostra ou quem participa do seu estudo ou preenche seu questionário.

Um tipo comum de erro sistemático é o viés de seleção. Por exemplo, usar dados de postagens no Twitter para entender o sentimento do público sobre um determinado problema é falho, porque a maioria de nós não tweeta — e aqueles que o fazem não publicam sempre seus sentimentos verdadeiros. Em vez disso, uma coleção de dados do Twitter é apenas isso: uma maneira de entender o que algumas pessoas que escolheram participar dessa plataforma específica decidiram compartilhar com o mundo, e nada mais.

A eleição presidencial dos EUA em 2016 é um exemplo em que uma série de vieses sistemáticos podem ter levado as pesquisas de opinião a favorecerem erroneamente a Hillary Clinton. Pode ser tentador concluir que todas as pesquisas estão erradas — e estão, mas não da maneira geral que podemos pensar.

Uma possibilidade é que os eleitores estavam menos propensos a relatar que iriam votar em Trump devido às percepções de que essa era a escolha impopular. Nós chamamos isso de viés de desejabilidade social. É útil parar para pensar sobre isso, porque, se tivéssemos tido mais consciência desse viés antes, poderíamos ter conseguido incorporá-lo aos nossos modelos e prever melhor os resultados das eleições.

Os estudos médicos também estão tristemente crivados de vieses sistemáticos: eles geralmente são baseados em pessoas que já estão doentes e que têm meios para chegar a um médico ou se inscrever em um estudo clínico. Há alguma empolgação com a tecnologia wearable como forma de superar isso. Se todos que têm um Apple Watch, por exemplo, pudessem enviar suas taxas cardíacas e passos diários para a nuvem, teríamos muito mais dados com menos viés. Mas isso pode introduzir uma nova tendência: os dados provavelmente serão distorcidos para membros ricos do mundo ocidental.

O terceiro é o erro na escolha do que medir. É quando pensamos que estamos medindo uma coisa, mas na verdade estamos medindo outra coisa.

Eu trabalho com muitas empresas que estão interessadas em — louvável — encontrar maneiras de tomar decisões mais objetivas sobre contratação e promoção. A tentação é muitas vezes de recorrer à tecnologia: como podemos obter mais dados para que nossos gerentes tomem decisões melhores e como podemos aplicar os filtros certos para nos certificarmos de que estamos obtendo os melhores talentos para nossos recrutadores?

Mas muito poucos fazem uma pausa para perguntar se seus dados estão medindo o que eles acham que estão medindo. Por exemplo, se estamos procurando candidatos de alto nível, podemos preferir aqueles que foram para as melhores universidades. Mas, em vez de ser uma medida de talento, pode ser apenas uma medida de participação em uma rede social que deu a alguém a sequência “certa” de oportunidades para colocá-los em uma boa faculdade em primeiro lugar. A média de notas de uma pessoa na universidade é, talvez, uma boa medida da capacidade da pessoa escolher matérias mais fáceis pra ela, e suas notas no vestibular talvez sejam uma bela expressão da capacidade de os pais pagarem por um professor particular.

As empresas — e meus alunos — são tão obcecadas em estar na vanguarda das metodologias que estão pulando a questão mais profunda: por que estamos medindo isso dessa maneira? Existe outra maneira de entender melhor as pessoas? E, tendo em vista os dados que temos, como podemos ajustar nossos filtros para reduzir alguns desses vieses?

Finalmente, erros de exclusão. Isso acontece quando populações são sistematicamente ignoradas nos conjuntos de dados, o que pode abrir um precedente para outras exclusões.

Fazemos inferências sobre maçãs a partir de dados sobre laranjas — mas com consequências piores do que uma salada de frutas desequilibrada.

Por exemplo, as mulheres são mais propensas a morrer de ataques cardíacos do que os homens, o que se acredita ser devido ao fato de que a maioria dos dados cardiovasculares é baseada em homens, que experimentam sintomas diferentes dos das mulheres, levando a diagnósticos incorretos.

Também temos atualmente muitos dados sobre como as mulheres brancas se saem quando concorrem a cargos políticos nos EUA, mas não muito sobre as experiências de pessoas de cor (de qualquer gênero) que enfrentam diferentes preconceitos em comparação com mulheres brancas durante a campanha eleitoral. (E isso sem mencionar os dados sobre as diferentes experiências de candidatos negros, por exemplo, em comparação com os candidatos latinos, e assim por diante). Até que façamos esses estudos, tentaremos fazer inferências sobre maçãs a partir de dados sobre laranjas.

Optar por estudar algo também pode incentivar pesquisas adicionais sobre esse tópico, o que é um viés por si só. Como é mais fácil criar a partir de conjuntos de dados existentes do que criar os seus próprios, os pesquisadores geralmente se reúnem em torno de determinados tópicos — como mulheres brancas concorrendo a cargos eletivos e saúde cardiovascular de homens — às custas de outras pessoas. Se você repetir isso o suficiente, de repente, os homens são o padrão nos estudos de doença cardíaca e as mulheres brancas são o padrão nos estudos de participação política.

Outros exemplos são abundantes. Medir a “liderança” pode incentivar as pessoas a serem mais agressivas nas reuniões, quebrando assim a comunicação a longo prazo. Adicionar uma pontuação de “adversidade” no vestibular pode incentivar os pais a mudarem para CEPs diferentes, para que suas pontuações valham mais.

Eu também vejo isso acontecer no espaço da diversidade: DiversityInc. e outras organizações que tentam avaliar a diversidade de empresas escolheram algumas métricas nas quais elas recompensam as empresas — por exemplo, “buy-in de liderança”, que é medido por ter um Diretor de Diversidade (CDO, na sigla em inglês). Para marcar essa caixa, ela incentivou uma explosão de comportamentos que podem não levar a nada, como nomear um Diretor de Diversidade que não tem poder real.

Por que ainda precisamos acreditar em dados

Na era do anti-intelectualismo, notícias falsas, fatos alternativos e pseudociência, estou muito relutante em dizer qualquer coisa. Às vezes parece que nós, cientistas, mal nos aguentamos como estamos. Mas acredito que a utilidade dos dados e da ciência não vêm do fato de serem perfeitos e completos, mas do fato de reconhecermos as limitações de nossos esforços. Assim como queremos analisar as coisas cuidadosamente com estatísticas e algoritmos, também precisamos fazer a coleta de dados cuidadosamente. Somos tão fortes quanto nossa humildade e consciência de nossas limitações.

Isso não significa descartar dados. Isso significa que, quando incluímos evidências em nossa análise, devemos pensar nos vieses que afetaram sua confiabilidade. Não devemos apenas perguntar “o que isso significa?”, mas perguntar “quem coletou, como eles fizeram isso e como essas decisões afetaram os resultados?”

Precisamos questionar os dados em vez de assumir que só porque atribuímos um número a algo ele é, de repente, a verdade dura e fria. Quando você encontrar um estudo ou conjunto de dados, peço-lhe que pergunte: O que pode estar faltando? Qual é outra maneira de considerar o que aconteceu? E o que essa medida específica considera, descarta ou incentiva?

Precisamos ser tão cuidadosos com os dados quanto começamos a ser sobre estatísticas, algoritmos e privacidade. Enquanto os dados forem considerados verdade fria, dura e infalível, corremos o risco de gerar e reforçar muitos entendimentos imprecisos do mundo ao nosso redor.