All for Joomla All for Webmasters

Guia Quartz para limpeza de dados

Um guia para problemas observados em dados do mundo real juntamente com sugestões sobre como resolvê-los.

Como repórter, seu mundo está cheio de dados. E esses dados estão cheios de problemas. Este guia apresenta descrições completas e soluções sugeridas para muitos dos tipos de problemas que você vai encontrar quando se trabalha com dados.

A maioria destes problemas pode ser resolvida. Alguns deles não podem ser resolvidos e isso significa que você não deve usar os dados. Outros não podem ser resolvidos, mas com precauções você pode continuar a utilizá-los. A fim de permitir a essas ambiguidades, este guia é organizado por quem está melhor equipado para resolver o problema: você, sua fonte, um perito, etc. Na descrição de cada problema, você também pode encontrar sugestões sobre o que fazer se essa pessoa não puder te ajudar.

Você não pode rever cada conjunto de dados que encontrar para todos estes problemas. Se tentar fazer isso, você acabará não publicando nada. No entanto, por familiarizar-se com os tipos de questões que são suscetíveis de se encontrar, você terá uma melhor chance de identificar um problema antes que ele faça você cometer um erro.

Se tiver alguma dúvida sobre o índice, envie um e-mail para [email protected] ou, em inglês, para Chris, o idealizador do Guia Quartz. Boa sorte!

O trabalho está sob a licença Creative Commons Attribution-NonCommercial 4.0 International License.

Índice

Problemas que sua fonte deve resolver

Problemas que você deve resolver

Problemas que um terceiro que seja especialista deve te ajudar a resolver

Problemas que um programador deve te ajudar a resolver

Lista detalhada de problemas

Problemas que sua fonte deve resolver

Faltam valores

Cuidado com valores em branco ou “null” (nulos) em qualquer conjunto de dados, a menos que você esteja certo de que sabe o que eles significam. Se os dados são anuais, o valor para aquele ano nunca foi coletado? Se é uma pesquisa, um entrevistado se recusou a responder a pergunta?

Toda vez que você estiver trabalhando com dados que tenham valores ausentes, você deve se perguntar: “Eu sei o que a ausência deste valor significa?” Se a resposta for não, você deve perguntar para sua fonte.

Zeros substituem os valores que faltam

Pior do que um valor em falta é quando um valor arbitrário é usado em vez disso. Isso pode ser o resultado de um ser humano não pensar nas implicações ou pode acontecer como resultado de processos automatizados que simplesmente não sabem como lidar com valores nulos. Em qualquer caso, se você vir zeros em uma série de números, você deve se perguntar se esses valores são realmente o número 0 ou se significa “nada”. ( -1 Também é usado às vezes desta maneira.) Se você não tiver certeza, pergunte para sua fonte.

O mesmo cuidado deve ser exercido para outros valores não-numéricos onde um 0 pode ser representado de outra maneira. Por exemplo, um valor 0 falso para uma data é muitas vezes apresentado como1970-01-01T00: 00: 00Z ou 1969-12-31T24: 59: 59Z que é a [Era Unix de datas](https: //en.wikipedia.org/wiki/Unix_time#Encoding_time_as_a_number). Um falso 0 para um local pode ser representado como0 ° 00'00.0 "N + 0 ° 00'00.0" e ou simplesmente 0 ° N 0 ° e que é um ponto no Oceano Atlântico, a sul de Gana, muitas vezes referida como Null Island (ilha nula, em tradução livre).

Ver também:

Faltam dados que você sabe que deveriam estar ali

Às vezes estão faltando dados e você não pode dizer a partir do próprio conjunto de dados, mas ainda pode identificar por saber o que os dados se propõem a ser. Se você tem um conjunto de dados que abrange os Estados Unidos, em seguida, você pode verificar para garantir que todos os 50 estados estão representados. (E não esquecer territórios – 50 não é o número certo se o conjunto de dados inclui, por exemplo, Porto Rico). Se você está lidando com um conjunto de dados dos jogadores de beisebol, certifique-se de que tem o número de equipes que você espera. Verifique se alguns jogadores que você conhece foram incluídos. Confie na sua intuição se algo parece estar faltando e verifique com sua fonte. O universo de seus dados pode ser menor do que você pensa.

Linhas ou valores estão duplicados

Se a mesma linha aparece em seu conjunto de dados mais de uma vez, você deve descobrir o porquê. Às vezes não necessita ser uma linha inteira. Alguns dados financeiros de campanha incluem “alterações” que usam os mesmos identificadores únicos que a transação original. Se você não sabia disso, então todos os cálculos que fez com os dados estariam errados. Se alguma coisa indicar que deve ser única, verifique se ela é. Se você descobrir que não é, pergunte a sua fonte por que.

Ortografia está inconsistente

Ortografia é uma das maneiras mais óbvias de dizer se os dados foram compilados à mão. Não basta olhar para os nomes das pessoas — esses são muitas vezes o lugar mais difícil de detectar erros de ortografia. Em vez disso, procure os lugares nos quais os nomes das cidades ou estados não são consistentes. ( Los Angelos é um erro muito comum.) Se você encontrar isso, pode ter certeza que os dados foram compilados ou editados à mão e que é sempre uma razão para ser cético em relação a eles. Os dados que foram editados à mão são os mais propensos a ter erros. Isso não significa que você não deve usá-los, mas você pode precisar corrigir manualmente esses erros ou de outra forma explicá-los em sua reportagem.

A ferramenta do OpenRefine para agrupar textos pode ajudar a agilizar o processo de correção ortográfica sugerindo correspondências entre valores inconsistentes dentro de uma mesma coluna (por exemplo, correspondendo Los Angelos e Los Angeles). Certifique-se, no entanto, de documentar as mudanças que fez para garantir boa proveniência dos dados.

Ver também:

Ordem dos nomes está inconsistente

Seus dados possuem nomes do Oriente Médio ou do Leste Asiático? Tem certeza de que os sobrenomes estão sempre no mesmo lugar? É possível que alguém em seu conjunto de dados use um monônimo? Estes são os tipos de coisas em que os formuladores de dados geralmente erram. Se você está trabalhando com uma lista de nomes etnicamente diversos—que é qualquer lista de nomes— então você deve fazer pelo menos uma análise superficial antes de presumir que juntar as colunas nome esobrenome vai te dar algo que é adequado para publicar.

Formatos de datas estão inconsistentes

Qual data é em setembro:

  • 10/9/15
  • 9/10/15

Se a primeira foi escrito por um europeu e a segunda por um americano, então ambas são. Mas sem saber a história dos dados, você não tem como ter certeza. Saiba de onde seus dados vêm e certifique-se de que foram todos criados por pessoas do mesmo continente.

Unidades não estão especificadas

Peso ou custo não transmitem qualquer informação sobre a unidade de medida. Não presuma tão rápido que dados produzidos dentro dos Estados Unidos estão em unidades de libras e dólares. Os dados científicos são muitas vezes a métrica. Preços externos podem ser especificados em suas moedas locais. Se os dados não enunciarem suas unidades, volte para sua fonte e descubra. Mesmo se não deixarem claro suas unidades, seja sempre cauteloso com significados que podem ter mudado ao longo do tempo. Um dólar em 2010 não é um dólar hoje. E uma ton não é uma ton nem uma tonelada.

Ver também:

Categorias foram mal escolhidas

Atente para os valores que pretendem ser apenas verdadeiro oufalso, mas realmente não são. Este é frequentemente o caso com pesquisas onde recusado ou sem resposta também são valores válidos — e significativos. Um outro problema comum é o uso de qualquer tipo de categoria outro. Se as categorias em um conjunto de dados são um bando de países e um outro, o que isso significa? Será que isso significa que a pessoa que coletou os dados não sabia a resposta certa? Eles estavam em águas internacionais? Eram expatriados? Refugiados?

Categorias ruins também podem excluir artificialmente dados. Isso acontece com frequência com as estatísticas de criminalidade. O FBI definiu o crime de “estupro” de várias maneiras distintas ao longo do tempo. Na verdade, eles fizeram um trabalho tão pobre em definir o que é estupro que muitos criminologistas afirmaram que suas estatísticas nem deveriam ser usadas de qualquer maneira. Uma má definição pode significar que um crime é contado em uma categoria diferente da que você espera ou que não foi contado em absoluto. Esteja excepcionalmente ciente deste problema quando se trabalha com temas onde as definições tendem a ser arbitrárias, como o raça ouetnia.

Nomes de campos estão ambíguos

O que é uma residência? É onde alguém vive ou onde paga impostos? É uma cidade ou um condado? Nomes de campos em dados nunca são tão específicos quanto gostaríamos, mas uma preocupação particular deve ser direcionada àqueles que podem obviamente significar duas ou mais coisas. Até mesmo se você inferir corretamente o que os valores podem significar, aquela ambiguidade poderia facilmente ter feito com que a pessoa que coletou os dados possa ter inserido um valor errado.

Origem não está documentada

Dados são criados por uma variedades de tipos de indivíduos e organizações incluindo empresários, governos, ongs e malucos que ficam criando teorias da conspiração. Dados são coletados de muitas formas diferentes, incluindo por pesquisas, sensores e satélites. Podem ser digitados, feitos por toques ou rabiscos. Saber de onde seus dados vieram pode fornecer uma série de reflexões sobre suas limitações.

Dados de pesquisas, por exemplo, raramente são exaustivos. Sensores variam em sua precisão. Governos são usualmente pouco inclinados a te dar informações sem viés. Dados de uma zona de guerra podem ter forte viés geográfico por causa do perigo de cruzar linhas de batalha. Para tornar essa situação pior, essas fontes diferentes estão geralmente juntas. Analistas de políticas frequentemente redistribuem dados que conseguiram do governo. Dados que foram escritos por um médico podem ter sido inseridos por uma enfermeira. Todo estágio naquela cadeia é uma oportunidade para erro. Saiba de onde vêm os seus dados.

Ver também:

Valores suspeitos estão presentes

Caso veja algum desses valores nos seus dados, trate-os com muito cuidado:

Números:

Dados:

Locais:

Cada um desses números tem uma indicação de um problema particular feito por um humano ou um computador. Se você achá-los, tenha certeza de que eles significam o que você acha que eles significam.

Ver também:

Dados estão muito brutos

Você tem estados e você precisa de municípios. Você tem empregadores e você precisa de funcionários. Te deram anos, mas você quer meses. Em muitos casos, obtemos dados que foram agregados demais para nossos propósitos.

Os dados geralmente não podem ser desagregados, uma vez que foram fundidos. Se te deram dados que são muito brutos, você precisa pedir para a sua fonte algo mais específico. Ela pode não tê-lo. Se tiver, pode não ser capaz ou estar disposta a te dar. Há muitos conjuntos de dados federais que não podem ser acessados no nível local para proteger a privacidade de pessoas que poderiam ser identificadas individualmente por eles. (Por exemplo, uma única pessoa Somali no Texas ocidental) Tudo o que você pode fazer é pedir.

Uma coisa que você nunca deve fazer é dividir um valor anual por 12 e chamá-lo de “média por mês”. Sem conhecer a distribuição dos valores, esse número será sem sentido. (Talvez todos os casos ocorreram em um mês ou um ano. Talvez os dados sigam uma tendência exponencial em vez de um linear.) É errado. Não faça isso.

Ver também:

Totais diferem dos agregados publicados

Imagine que depois de um longa batalha via Lei de Acesso à Informação, você recebe uma lista “completa” de casos de uso de força policial. Você abre e descobre que tem 2.467 linhas. Ótimo, hora de reportá-lo. Não tão rápido. Antes de publicar qualquer coisa desse conjunto de dados, veja se encontra a última vez que o chefe de polícia falou publicamente sobre o uso de força de seu departamento. Você pode achar que em uma entrevista de seis semanas antes, ele disse “menos de 2.000 vezes” ou que ele mencionou um número específico e que não corresponde ao seu conjunto de dados.

Esses tipos de discrepâncias entre as estatísticas publicadas e dados em estado bruto podem ser uma ótima fonte de lides jornalísticos. Muitas vezes, a resposta será simples. Por exemplo, os dados que foram dados a você podem não cobrir o mesmo período de tempo que ele estava falando. Mas às vezes você vai pegá-los em uma mentira. De qualquer maneira, você deve certificar-se que os números publicados correspondem aos totais para os dados que foram cedidos a você.

Planilha tem 65536 linhas

O número máximo de linhas que planilha antiga de Excel podia ter era 65.536. Se você receber um conjunto de dados com aquele número de linhas, você quase certamente recebeu dados incompletos. Volte e peça pelo resto. Versões mais recentes do Excel permitem 1.048.576 linhas, por isso é menos provável que você esteja trabalhando com dados que atingiram o limite.

Planilha tem datas em 1900, 1904, 1969 ou 1970

Por motivos pra lá de obscuros, a data padrão do Excel a partir da qual ele conta todas as outras datas é 1º de janeiro de 1900, a menos que você esteja usando o Excel em um Mac, no qual será 1º de janeiro de 1904. Há uma variedade de maneiras em que os dados no Excel podem ser introduzidos ou calculados de forma incorreta, e acabar aparecendo como uma destas duas datas. Se você identificá-las em seus dados, provavelmente trata-se de um problema.

Muitos bancos de dados e aplicações, muitas vezes, geram uma data de 1970-01-01T00: 00: 00Z ou1969-12-31T24: 59: 59Z que é a [Era Unix de datas](https: //en.wikipedia.org/wiki/Unix_time#Encoding_time_as_a_number). Em outras palavras, isso é o que acontece quando um sistema tenta exibir um valor vazio ou um valor 0 como uma data.

Texto foi convertido em números

Nem todos os numerais são números. Por exemplo, o Escritório do Censo americano usa “Códigos FIPS” para identificar todos os lugares nos Estados Unidos. Estes códigos são de diferentes tamanhos e são numéricos. No entanto, eles não são números. 037 é o código FIPS para o condado de Los Angeles. Não é o número 37. O numeral 37 é, no entanto, um código FIPS válido: para Carolina do Norte. Excel e outras planilhas muitas vezes cometem o erro de presumir que numerais são números e eliminar os zeros à esquerda. Isso pode causar todo tipo de problemas se você tentar convertê-lo os arquivos para outro formato ou fundi-los com um outro conjunto de dados. Atente para os dados nos quais isso pode ter acontecido antes de terem sido dados a você.

Números foram guardados como texto

Ao trabalhar com planilhas, números podem ser armazenados como texto com formatação indesejada. Isso geralmente acontece quando uma planilha é otimizada para apresentação de dados ao invés de torná-la disponível para reutilização. Por exemplo, em vez de representar um milhão de dólares com o número “1000000”, uma célula pode conter a string “1.000.000” ou “1 000 000” ou “USD 1.000.000” com a formatação de vírgulas, unidades e espaços inseridos como caracteres. O Excel pode cuidar de alguns casos simples com funções embutidas, mas muitas vezes você vai precisar usar fórmulas para retirar caracteres até que as células estejam limpas o suficiente para serem reconhecidas como números. A boa prática é armazenar números sem formatação e incluir informações de suporte nos nomes de colunas ou nos metadados.

Problemas que você deve resolver

Texto está truncado

Todas as letras são representadas por computadores como números. Problemas de codificação são questões que surgem quando o texto é representado por um conjunto específico de números (chamado de “codificação”) e você não sabe o que eles são. Isto leva a um fenômeno chamado mojibake onde o texto em seus dados parece lixo, ou como isto: ���.

Na grande maioria dos casos, o seu editor ou aplicativo de planilha vai descobrir a codificação correta. No entanto, se ele errar, você pode acabar publicando o nome de alguém com um caractere estranho no meio. A sua fonte de dados deve ser capaz de dizer qual a codificação dos caracteres. No caso de ela não poder, existem formas de descobrir que são bastante confiáveis. Pergunte a um programador.

Finais de linhas estão truncados

Todos os textos e arquivos de “dados de texto”, como CSV, usam caracteres invisíveis para representar as extremidades das linhas. Computadores que usam Windows, Mac e Linux têm historicamente discordado sobre o que esses caracteres de final de linha devem ser. A tentativa de abrir um arquivo salvo em um sistema operacional a partir de outro sistema operacional, por vezes, pode fazer com que o Excel ou outras aplicações não consigam identificar corretamente as quebras de linha.

Normalmente, isso é fácil de resolver: basta abrir o arquivo em qualquer editor de texto de uso geral e salvá-lo novamente. Se o arquivo for excepcionalmente grande, pode ser necessário considerar o uso de uma ferramenta de linha de comando ou contar com a ajuda de um programador. Você pode ler mais sobre este assunto aqui.

Dados estão num PDF

Uma tremenda quantidade de dados — especialmente dados governamentais — só está disponível em formato PDF. Se você tiver dados reais, em texto, dentro do PDF, então existem várias boas opções para extraí-los. (Se você tiver documentos escaneados, isso é um problema diferente.) Uma excelente ferramenta, gratuita é Tabula. No entanto, se você tiver o Adobe Creative Cloud, então também tem acesso ao Acrobat Pro, que tem um excelente recurso para exportar tabelas em PDFs para o Excel. Qualquer solução deve ser capaz de extrair a maioria dos dados tabulares a partir de um PDF.

Ver também:

Dados estão muito granulares

Este é o oposto de dados estão muito brutos. Neste caso você tem condados, mas você quer estados ou você tem meses, mas você quer anos. Felizmente, isso geralmente é bastante simples.

Os dados podem ser agregados usando o recurso de tabela dinâmica do Excel ou do Google Spreadsheets, usando um banco de dados SQL ou escrevendo código personalizado. Tabelas dinâmicas são uma ferramenta fabulosa que todo repórter deve aprender a usar, mas elas têm os seus limites. Para grandes conjuntos de dados ou para agregar grupos incomuns você deve perguntar a um programador para que ele possa criar uma solução que seja mais fácil de verificar e reutilizar.

Ver também:

Dados foram inseridos por humanos

A inserção de dados por humanos é um problema tão comum que os sintomas provocados por ela são mencionados em pelo menos 10 dos outros problemas descritos aqui. Não há pior maneira de estragar os dados do que deixar uma única marca humana neles, sem validação. Por exemplo, uma vez eu adquiri o banco de dados completo de cães cadastrados no Condado de Cook, em Illinois. Em vez de pedir à pessoa que registrava seu cão para escolher sua raça de uma lista, os criadores do sistema simplesmente tinham lhes dado um campo de texto para preencher. Como resultado, este banco de dados continha pelo menos 250 grafias de Chihuahua. Mesmo com as melhores ferramentas disponíveis, dados tão confusos não podem ser salvos. Eles são efetivamente sem sentido. Isso não é tão importante com os dados de cães, mas você não quer que isso aconteça com soldados feridos ou cotações de ações. Cuidado com os dados introduzidos por humanos.

Dados estão mesclados com formatação e anotações

Representações complexas de dados, tais como HTML e XML, permitem uma separação clara entre os dados e formatação, mas este não é o caso de representações tabulares comuns de dados, como uma planilha. No entanto, as pessoas ainda tentam. Um problema comum com os dados fornecidos em planilhas é que as primeiras linhas de dados vão ser realmente descrições ou notas sobre os dados, em vez de títulos de colunas ou dados em si. Uma chave ou um glossário de dados também podem ser colocados no meio da planilha. Linhas de cabeçalho podem estar repetidas. Ou a planilha pode incluir várias tabelas (as quais podem ter diferentes posições de colunas) uma depois da outra, em vez de separadas em diferentes páginas.

Em todos estes casos, a solução principal é simplesmente identificar o problema. Obviamente, tentar executar qualquer análise em uma planilha que tem esses tipos de problemas irá falhar, às vezes por razões não óbvias. Ao olhar para novos dados pela primeira vez, é sempre uma boa ideia garantir que não existam linhas de cabeçalho extras ou outros caracteres de formatação inseridos entre os dados.

Agregados foram calculados com valores que faltam

Imagine um conjunto de dados com 100 linhas e uma coluna chamada custo. Em 50 das linhas a coluna custo está em branco. O que é a média da referida coluna? É soma_de_custo / 50 ousoma_de_custo / 100? Não há uma resposta definitiva. Em geral, se você estiver indo para calcular agregados em colunas que estão faltando dados, você pode seguramente fazer isso filtrando as linhas ausentes em primeiro lugar, mas tenha cuidado para não comparar agregados de duas colunas diferentes em diferentes linhas que estiverem faltando valores! Em alguns casos, os valores em falta podem também ser legitimamente interpretados como 0. Se você não tiver certeza, pergunte a um especialista ou simplesmente não faça essas operações com os valores.

Este é um erro que você pode fazer em sua análise, mas também é um erro que os outros podem fazer e passar para você, então esteja atento para isso se os dados chegarem até você com agregados já calculados.

Ver também:

Amostra não é aleatória

Um erro de amostragem não-aleatória ocorre quando uma pesquisa ou outro conjunto de dados amostrais, intencionalmente ou acidentalmente, deixam de cobrir toda a população. Isso pode acontecer por uma variedade de razões que vão desde a hora do dia à língua nativa do entrevistado e é uma fonte comum de erro na pesquisa sociológica. Também pode acontecer por razões menos óbvias, tais como quando um pesquisador acha que tem um conjunto de dados completo e opta por trabalhar com apenas parte dele. Se o conjunto de dados original estiver incompleto por qualquer motivo, então quaisquer conclusões extraídas de sua amostra serão incorretas. A única coisa que você pode fazer para corrigir uma amostra não-aleatória é evitar o uso desses dados.

Ver também:

Margem de erro é muito grande

Não conheço nenhuma outra questão que cause mais erros do que o uso irrefletido de números com grandes margens de erro. A margem de erro (MOE) é geralmente associada com dados de pesquisa. O local mais provável de um repórter encontrá-la é ao usar dados de pesquisas ou dados do US Census Bureau [American Community Survey] (https://www.census.gov/programs-surveys/acs/). A MOE é uma medida da gama de possíveis valores verdadeiros. Pode ser expresso como um número (400 +/- 80) ou como uma percentagem do total (400 +/- 20%). Quanto menor for a população relevante, maior será a MOE. Por exemplo, de acordo com as estimativas de 2014 ACS 5 anos, o número de asiáticos que vivem em Nova York é 1.106.989 +/- 3,526 (0,3%). O número de filipinos é 71.969 +/- 3,088 (4,3%). O número de samoanos é 203 +/- 144. (71%)

Os dois primeiros números são seguros para reportar. O terceiro número nunca deve ser usado em reportagens. Não há uma regra sobre quando um número não é preciso o suficiente para ser utilizado, mas como regra geral, você deve ser cauteloso sobre o uso de qualquer número com um MOE maior que 10%.

Ver também:

Margem de erro é desconhecida

Às vezes, o problema não é que a margem de erro é muito grande, é que ninguém nunca se preocupou em descobrir qual era a margem em primeiro lugar. Este é um problema com as pesquisas não-científicas. Sem computar a margem-de-erro, é impossível saber quão precisos são os resultados. Como regra geral, sempre que você tiver dados que são de uma pesquisa, você deve perguntar qual é a margem-de-erro. Se a fonte não puder te dizer, provavelmente não vale a pena usar esses dados para qualquer análise séria.

Ver também:

Amostra é enviesada

Como uma amostra que não é aleatória, uma amostra tendenciosa resulta de uma falta de cuidado com a forma como a amostragem é executada. Ou, a partir da deturpação voluntária dessa amostragem. Uma amostra pode ser tendenciosa por ter sido conduzida na internet e as pessoas mais pobres não usam a internet tão frequentemente quanto os ricos. As pesquisas devem ser cuidadosamente ponderadas para assegurar que cobrem segmentos proporcionais de qualquer população que poderiam distorcer os resultados. É quase impossível fazer isso perfeitamente, por isso muitas vezes é feito de forma errada.

Ver também:

Dados foram editados manualmente

A edição manual é quase o mesmo problema dos dados que foram inseridos por seres humanos, exceto que acontece após o fato. Na verdade, os dados são frequentemente editados manualmente na tentativa de corrigir os dados que foram originalmente introduzidos por seres humanos. Os problemas começam a aparecer quando a pessoa que faz a edição não tem conhecimento completo dos dados originais. Uma vez, vi alguém espontaneamente “corrigir” um nome em um conjunto de dados do Smit paraSmith. O nome dessa pessoa era realmente Smith? Não sei, mas sei que o valor é agora um problema. Sem um registro dessa mudança, é impossível verificar o que deveria ser.

Problemas com edição manual são parte da razão pela qual você sempre quer garantir que seus dados têm proveniência bem documentada. A falta de proveniência pode ser uma boa indicação de que alguém pode ter mexido com os dados. Acadêmicos e analistas de política muitas vezes obtêm dados do governo, mexem neles e, em seguida, os redistribuem aos jornalistas. Sem qualquer registro de suas mudanças, é impossível saber se as mudanças que eles fizeram eram justificadas. Sempre que possível, tente obter a fonte primária ou, pelo menos, a versão mais antiga que você puder e, em seguida, faça a sua própria análise a partir disso.

Ver também:

Inflação distorce os dados

Inflação da moeda significa que ao longo do tempo o dinheiro muda de valor. Não há nenhuma maneira de saber se os números foram “corrigidos monetariamente” só de olhar para eles. Se você receber dados e não tiver certeza de que eles foram ajustados, então verifique com sua fonte. Se eles não foram, é provável que você deseje realizar o ajuste. Este ajustador de inflação é um bom lugar para começar.

Ver também:

Variação natural/sazonal distorce os dados

Muitos tipos de dados flutuam naturalmente devido a alguns fatores subjacentes. O exemplo mais conhecido disto é o emprego que varia com as estações. Economistas desenvolveram uma variedade de métodos de compensar esta variação. Os detalhes desses métodos não são particularmente importantes, mas é importante que você saiba se os dados que você está usando têm sofrido “ajustes sazonais”. Se eles não tiverem e você quiser comparar o emprego de mês para mês, você provavelmente vai querer obter dados ajustados de sua fonte. (Ajustá-los sozinho é muito mais difícil do que com a inflação.)

Ver também:

Escala de tempo foi manipulada

Uma fonte pode acidentalmente ou intencionalmente deturpar o mundo ao fornecer dados que param ou começam numa janela de tempo específica. Para um exemplo marcante, veja o amplamente divulgado relatório da “onda de criminalidade nacional”, de 2015. Não havia nenhuma onda de crimes. O que houve foi uma série de picos em cidades específicas em comparação com os últimos anos. Se os jornalistas tivessem analisado um período de tempo mais abrangente, teriam visto que os crimes violentos tiveram índices mais altos em praticamente todos os EUA dez anos antes. E vinte anos antes era quase o dobro.

Se você tiver dados que abrangem um período de tempo limitado, tente evitar a começar seus cálculos com o primeiro período de tempo para o qual você tem dados. Se você começar com alguns anos (ou meses ou dias) para os dados, pode ter a confiança de que não está fazendo uma comparação que seria invalidada ao ter um único ponto de dados adicional.

Ver também:

Quadro de referências foi manipulado

Estatísticas criminais são muitas vezes manipuladas para fins políticos por comparação a um ano no qual a taxa de crimes era muito alta. Isso pode ser expresso como uma mudança (caiu 60% desde 2004) ou via um índice (40, onde em 2004 = 100). Em qualquer destes casos, 2004 pode ou não ser um ano adequado para comparação. Poderia ter sido um ano no qual a taxa de crimes estava excepcionalmente alta.

Isso também acontece quando se comparam os lugares. Se eu quiser fazer um país ficar mal, eu simplesmente expresso os dados sobre ele em relação a qualquer país que esteja indo melhor.

Este problema tende a surgir em assuntos pelos quais as pessoas nutrem um forte viés de confirmação. (“Assim como eu pensei, o crime aumentou!”) Sempre que possível, tente comparar taxas a partir de vários pontos de partida diferentes para ver como os números mudam. E o que quer que você faça, não use esta técnica para provar um ponto que você acha que é importante. Isso é indesculpável.

Ver também:

Problemas que um terceiro que seja especialista deve te ajudar a resolver

Autor não é confiável

Às vezes, os únicos dados que temos são de uma fonte que você preferiria não confiar. Em algumas situações, isso é ok. As únicas pessoas que sabem quantas armas são feitas são fabricantes de armas. No entanto, se você tiver dados de uma fonte questionável, é sempre bom verificá-los com outro especialista. Melhor ainda, verificá-los com dois ou três. Não publique dados de uma fonte tendenciosa a menos que você tenha provas substanciais que os corroborem.

Processo de coleta é opaco

É muito fácil que suposições falsas, erros ou falsidades definitivas sejam introduzidos nestes processos de coleta de dados. Por esta razão, é importante que os métodos utilizados sejam transparentes. É raro que você vá saber exatamente como um conjunto de dados foi coletado, mas indicações de um problema podem incluir números que afirmam precisão irrealista e dados que são muito bons para ser verdade.

Às vezes, a história de origem pode ser apenas suspeita: se tal e tal acadêmico realmente entrevistou 50 membros de gangues ativas do lado sul de Chicago. Se a forma como os dados foram recolhidos parece questionável e sua fonte não pode lhe oferecer proveniência dos dados, então você deve sempre verificar com um outro perito a possibilidade de os dados terem sido recolhidos do jeito descrito.

Ver também:

Dados reivindicam uma precisão irreal

Fora das ciências exatas, algumas coisas são medidas rotineiramente com mais de duas casas decimais de precisão. Se um conjunto de dados cai na sua mesa pretendendo mostrar as emissões de uma fábrica e esses números contêm algarismos até a 7º casa decimal, essa é uma deixa de que esses números foram estimados a partir de outros valores. Isso por si só pode não ser um problema, mas é importante ser transparente a respeito de estimativas. Elas, muitas vezes, estão erradas.

Existem valores atípicos inexplicáveis

Recentemente, criei um conjunto de dados de quanto tempo leva para mensagens alcançarem diferentes destinos por meio da internet. Todos os tempos estavam na gama de 0.05 a 0.8 segundos, exceto para três. Os outros três estavam todos com mais de 5,000 segundos. Isso mostra claramente que algo deu errado na produção dos dados. Neste caso específico, um erro no código que eu escrevi causou algumas falhas para continuar a contagem, enquanto todas as outras mensagens estavam sendo enviadas e recebidas.

Valores discrepantes como esses podem estragar suas estatísticas, especialmente se você estiver usando médias. (Você provavelmente deveria estar usando medianas.) Sempre que você tiver um novo conjunto de dados, é uma boa ideia dar uma olhada em valores maiores e menores e garantir que eles estejam em uma faixa razoável. Se os dados justificarem uma preocupação extra, você também pode querer fazer uma análise mais rigorosa estatisticamente usando desvio padrão ou desvios médios.

Como uma vantagem de se fazer este trabalho, valores discrepantes são muitas vezes uma ótima maneira de encontrar furos de reportagens. Se houvesse realmente um país onde demorasse 5.000 vezes mais tempo para enviar uma mensagem por meio da internet, essa seria uma grande história.

Um índice mascara variações subjacentes

Os analistas que querem seguir a tendência de um problema muitas vezes criam índices de vários valores para acompanhar o progresso. Não há nada de intrinsecamente errado com o uso de um índice. Eles podem ter grande poder explicativo. No entanto, é importante ser cauteloso sobre índices que combinam medidas díspares.

Por exemplo, o Índice de Desigualdade de Gênero da ONU combina várias medidas relacionadas com o progresso das mulheres em direção à igualdade. Uma das medidas utilizadas no IDG é “a representação de mulheres no parlamento”. Dois países no mundo têm leis que obrigam a representação de gênero nos seus parlamentos: a China e o Paquistão. Como resultado, estes dois países têm um desempenho muito melhor no índice do que os países que são semelhantes em todas as outras formas. Isso é justo? Realmente não importa, porque é confuso para qualquer um que não saiba sobre este fator. Os índices IDG e similares devem ser sempre usados com uma análise cuidadosa para garantir que suas variáveis subjacentes não desequilibrem o índice de formas inesperadas.

Resultados foram p-hackeados

“P-hacking” é o nome que se dá à técnica de alterar intencionalmente os dados, alterando a análise estatística, ou relatando seletivamente resultados para ter achados estatisticamente significativos. Exemplos disso incluem: parar a coleta de dados depois de ter um resultado significativo, retirar observações para obter um resultado significativo, ou realizar muitas análises, e apenas relatar as poucas que são significativas. Tem havido alguma boa comunicação sobre este problema.

Se você for publicar os resultados de um estudo, você precisa entender o que é o valor-p (p-value), o que isso significa e, em seguida, tomar uma decisão informada sobre se os resultados são dignos de uso. Muitos e muitos resultados de estudos inválidos aparecem em publicações importantes porque os jornalistas não entendem os valores-p.

Ver também:

A Lei de Benford falha

Lei de Benford é uma teoria que afirma que pequenas dígitos (1, 2, 3) aparecem no início de números com muito mais frequência do que dígitos grandes (7 , 8, 9). Em teoria, a Lei de Benford pode ser usada para detectar anomalias nas práticas contábeis ou em resultados eleitorais, embora, na prática, possa ser facilmente mal aplicada. Se suspeitar de um conjunto de dados foi criado ou modificado para enganar, a Lei de Benford é um excelente primeiro teste, mas você deve sempre verificar os resultados com um especialista antes de concluir que seus dados foram manipulados.

Muito bom para ser verdade

Não há conjunto de dados globais da opinião pública. Ninguém sabe o número exato de pessoas que vivem na Sibéria. Estatísticas criminais não são comparáveis através de fronteiras. O governo dos EUA não vai te dizer a quantidade de material fóssil que mantém.

Cuidado com todos os dados que pretendem representar algo que você não poderia saber. Não são dados. São estimativas de alguém e provavelmente estão erradas. Mas também… Poderia ser uma história, então peça a um especialista para verificá-la.

Problemas que um programador deve te ajudar a resolver

Dados são agregados para as categorias ou geografias erradas

Às vezes, seus dados estão mais ou menos no nível certo de detalhamento (nem muito brutos, nem muito granulares, mas eles foram agregados em grupos diferentes do que o que você quer. Um exemplo clássico disso são dados que são agregados por CEPs que você preferiria ter por bairros da cidade. Em muitos casos, isso é um problema impossível de resolver sem a obtenção de dados mais granulares de sua fonte, mas às vezes os dados podem ser proporcionalmente mapeados de um grupo para outro. Isso deve ser feito apenas com uma compreensão cuidadosa da margem de erro que pode ser introduzida no processo. Se você tem dados agregados aos grupos errados, pergunte a um programador se é possível reagregá-los.

Ver também:

Dados estão em documentos escaneados

Graças às leis de acesso à informação, frequentemente é o caso de os governos serem obrigados a fornecer dados, muito embora eles realmente não queiram. Uma tática muito comum nesses casos é fornecer páginas escaneadas ou fotografias das páginas. Estas podem ser arquivos de imagens ou, mais provavelmente, elas serão reunidas num PDF.

É possível extrair texto de imagens e transformá-lo de volta nos dados. Isto é feito através de um processo chamado de reconhecimento ótico de caracteres (OCR). Ferramentas modernas de OCR podem muitas vezes ser quase 100% precisas, mas depende muito da natureza do documento. Sempre que você usar OCR para extrair dados, você vai querer ter um processo para validar que os resultados estão correspondendo ao que está documentado no arquivo original.

Existem muitos sites nos quais você pode carregar um documento para fazer reconhecimento ótico de caracteres, mas também existem ferramentas gratuitas que um programador é capaz de elaborar para seus documentos específicos. Pergunte a um deles qual é a melhor estratégia para os documentos específicos que você tem.

Ver também:

Deixe um comentário