All for Joomla All for Webmasters

Análise com estatística descritiva para leigos

A estatística descritiva é um dos fundamentos mais básicos da análise de dados. Neste tutorial, vamos ver algumas das operações mais utilizadas para trabalhar com dados quantitativos. Aqui, vamos entender um pouco mais sobre o contexto básico de aplicação de cada uma de cada um dos seguintes tópicos:

  • Mínima e máxima
  • Outliers
  • Medidas de tendência central: média, mediana e moda
  • Medidas de dispersão: desvio padrão e variação interquartil

Vamos nos referir às colunas das tabelas como variáveis e às linhas como observações.

Mínima e máxima

Uma das etapas mais simples da análise de dados envolve a ordenação de valores numéricos. Simplesmente arrumar os números em ordem crescente já pode nos fornecer informações preciosas, como a mínima e a máxima (ou a mediana, que veremos a seguir).

A mínima e a máxima são os valores nos “extremos” de um conjunto de dados ordenados: ou seja, o menor e o maior valor. Ambos são utilizados cotidianamente e facilmente compreensíveis para quase toda população, pense – por exemplo – em seu uso diário na previsão do tempo.

Então, reflita: por que faz mais sentido informar a menor e a maior temperatura do dia – e não a média? Qual das duas informações seria mais útil na hora de decidir o que vestir, por exemplo?

Outliers

São valores atípicos entre os dados analisados. Isto é avaliado a partir do quanto um determinado valor difere dos demais em um conjunto de dados. Eles podem trazer tanto uma má notícia, como erros na coleta ou limpeza dos dados, como também boas novas, como os casos que fogem da regra e podem ganhar destaque na sua análise.

Por um lado, os outliers podem revelar um erro a ser corrigido ou pelo menos considerado, antes de avançarmos com a análise. Por isso, é importante começar as análises identificando-os, pois eles podem ser indícios de erros de medição ou falhas na limpeza de dados.

Para identificá-los e tratá-los adequadamente, é importante você não só comparar os números entre si matematicamente, mas também entender os dados que possuem em mãos: o que eles representam? quais são as unidades utilizadas? Como foram coletados ou produzidos?

Imagine, por exemplo, os seguintes dados de pacientes de um hospital:

Nome Idade
Paulo 3
Julia 10
Ricardo 209
Samuel 234
Samara 25

Os valores de Ricardo e Samuel ( ‘209’ e ‘234’ ) chamam atenção, certo? Apenas olhando os dígitos das 4 idades e comparando os números entre si, é possível perceber que o valor destas linhas/observações estão acima dos demais.

No nosso exemplo acima, os valores “209” e “234” certamente são erros se o campo “idade” for expresso em anos.

Porém, imagine que este hospital é uma maternidade e os pacientes são recém-nascidos. A variável/coluna poderia estar expressa em “dias” e, então, os outliers ganham outro sentido. Por alguma razão a ser investigada, Ricardo e Samuel realmente podem ser os mais velhos do hospital.

Ou seja, os outliers nem sempre são erros. Quando os valores são reais, eles podem ser justamente a novidade ou o diferencial que você buscava. Assim, um valor diferente dos demais pode ser simplesmente resultado de uma grande variação (ou dispersão) dos dados. Atrás deles, podem estar as melhores histórias ou descobertas que você irá encontrar durante a análise.

Por fim, independente se serão positivos ou negativos para sua análise, a presença de outliers deve sempre ser considerada ao realizar uma análise de um conjunto de valores numéricos. No final do tutorial, vamos ver uma das abordagens matemáticas para se identificar e definir um valor outlier.

Medidas de tendência central

Com estas medidas, buscamos justamente valores representativos ou recorrentes de um certo conjunto de dados. A média – uma das operações estatísticas mais famosas – opera desta forma, mas há também sua irmã menos conhecida, a mediana.

Enquanto a média leva em consideração todos os valores e é afetada pelos outliers, a mediana ordena os valores de forma crescente e busca por aquele que está no meio.

Resumindo, a média consiste na soma dos valores dividido pelo número de observações. Já a moda representa o valor mais recorrente naquele conjunto de observações, e a mediana, o valor que está no meio deste conjunto de dados ordenados.

Ao analisar os dados, sempre é interessante conferir todos, mas como e quando utilizá-los?

Média

Imagine a tabela salarial de uma empresa fictícia chamada Xtreme. Ela tem 7 pessoas identificadas (‘ID’, primeira coluna) por números distintos, cada uma ocupando um cargo diferente (‘Cargo’, segunda coluna) e com uma remuneração (‘Salário mensal’, terceira coluna).

Empresa Xtreme

ID Cargo Salário mensal
1 Presidente 200.000
2 Gerente de vendas 5.000
3 Gerente de produção 5.000
4 Administrador 4.000
5 Vendedor 3.000
6 Secretário 2.000
7 Faxineiro 1.000

Somando todos os salários, chegamos ao valor total de R$ 220 mil por mês. Com a operação mais comum, a média, se dividirmos o valor total pelo número de pessoas (7), teríamos um salário médio de R$ 31 mil por mês, em valores arredondados.

A média está correta, mas no caso representa não bem os dados, já que ninguém ganha nada próximo disso. Isto se dá por conta do valor outlier do salário do presidente, que “puxa” a média pra cima.

A média também é afetada pelo número de indivíduos/observações: por exemplo, se a empresa Xtreme atuar com limpeza e contratasse não 1, mas centenas de faxineiros, então, toda média iria cair, mesmo com uma grande diferença entre o maior e menor salário.

Tenha sempre em mente estas questões ao utilizar a média. Para adotá-la ou descartá-la como representativa dos dados analisados, considere sempre a presença dos outliers e como os dados estão distribuídos.

Uma estratégia para analisar dados com valores muito discrepantes pode ser isolar os outliers e analisá-los à parte. No caso acima, poderíamos separar o presidente, que ganha muito acima dos demais funcionários, e fazer a média do restante.

Assim, poderíamos dizer: “enquanto o presidente ganha R$ 200 mil, os demais funcionários recebem em média R$ 3,3 mil”. Se também existissem outros executivos recebendo tanto quanto o presidente, poderíamos mencionar a média deles entre si, por um lado, e a dos demais trabalhadores, por outro.

Mediana

Poderíamos também usar a mediana, que funciona melhor que a média para contornar os outliers. Para encontrar a mediana, basta verificar o valor que se encontra no meio, após os dados terem sido ordenados. O valor do meio é o que separa a metade superior da metade inferior em um conjunto de dados ordenados.

No exemplo acima, que já está ordenado, o valor da mediana seria de “4.000”, que é o salário do administrador, pois abaixo dele temos 3 linhas/observações (vendedor, secretário e faxineiro) e acima, outras 3 (gerente de produção, de vendas e o presidente). Neste caso, como nossa série tem 7 posições, basta buscarmos a quarta delas.

Mas se nossa série tivesse um número par de observações? Neste caso, escolheríamos os dois números que ocupam a posição central da lista ordenada e faríamos a média deles.

Vamos imaginar uma outra empresa, mas esta se chama Ygual e tem 8 funcionários. Agora, não temos uma única linha/observação que separa nosso conjunto de dados ordenados na meta, com duas partes de igual tamanho de cada lado. Portanto, vamos somar os 2 valores intermediários (em cinza) e fazer a média deles.

Empresa Ygual

ID Cargo Salário mensal
1 Presidente 200.000
2 Gerente de vendas 5.000
3 Gerente de produção 5.000
4 Gerente de mídia 5.000
5 Administrador 4.000
6 Vendedor 3.000
7 Secretário 2.000
8 Faxineiro 1.000

Ou seja, a empresa Ygual teria uma mediana de R$ 4.500. Como a mediana não é uma operação tão famosa como a média, podemos formular construções que a representem de forma mais próxima do leitor, como por exemplo: “na empresa Ygual, metade dos funcionários da empresa ganha menos que R$ 4.500”.

Moda

Por fim, a moda serve para revelar o valor que mais se repete em um conjunto de dados. Nos nossos exemplos acima, para as duas empresas, a resposta seria “5.000”, que o valor de salário mais recorrente, pois em ambas há mais de um gerente ganhando este mesmo valor, enquanto os demais valores não se repetem entre os outros cargos.

Medidas de dispersão

Se quisermos descrever a diferença salarial da empresa Xtreme, poderíamos também destacar o menor salário e o maior para demonstrar a discrepância salarial, citando a mínima e a máxima – ou mesmo a diferença entre elas, de R$ 199 mil.

Com isso, mostramos o quão os dados (no caso, salários) estão dispersos. Na estatística, a diferença entre a mínima e a máxima de uma série de dados ordenados se chama amplitude, que é uma das abordagens para se analisar a variação de um conjunto de dados.

Ao contrário das operações anteriores, que buscam apreender algo em comum entre os dados observados, as medidas de dispersão permitem quantificar o quanto eles diferem entre si. Um exemplo simples é a amplitude, que já explicamos, ou seja, a diferença simples entre a máxima e a mínima. Mas há outra abordagens, que fazem uso da média ou da mediana para quantificar a dispersão de um conjunto de dados: respectivamente, o desvio padrão e a variação interquartil.

Desvio padrão

Matematicamente, existem formas diferentes de se calcular o desvio padrão, a depender se os dados representam toda uma população ou apenas uma amostra. No caso da empresas fictícias, por exemplo, supondo que elas só tivessem o número de funcionários listados, então, estaríamos com dados que representam toda população em questão. Já se a tabela não representasse todo conjunto de trabalhadores da firma, então, seria uma amostra.

Provavelmente, você irá usar um computador para calcular a variância e o desvio padrão para você, mas tenha em mente que, ao contrário da primeira, o desvio padrão é expresso na mesma unidade utilizada na média, por isso é mais fácil de ser utilizado para fins comparativos. Ainda que este conceito não seja claro para a maioria das pessoas e você não o utilize no seu conteúdo final, saber o básico sobre a interpretação dos valores de desvio padrão pode te ajudar a ter bons insights e analisar seus dados de forma mais eficiente.

Imagine agora a empresa Zoutra, onde todos 7 funcionários ganhem R$ 31 mil. Ao contrário da Xtreme, aqui, os dados não possuem dispersão nenhuma, pois agora todos os funcionários ganham o mesmo valor.

A Zoutra teria a mesma média da Xtreme, mas agora os dados são todos homogêneos, ou seja não, há dispersão. Portanto, sua variância e – por consequência seu desvio padrão – seria zero. Se a medida de dispersão de um conjunto de dados é zero isto significa que eles são todos iguais.

Podemos voltar a falar sobre desvio padrão em outra oportunidade, mas neste tutorial vamos ver como usar outra medida de dispersão para identificar outliers.

Variação interquartil (Q3-Q1)

Tanto o desvio padrão quanto a variância dependem da média, portanto, são afetados por valores extremos. Mas há uma medida de dispersão baseada na mediana, que consegue contornar a presença destes outliers: a variação interquartil, abreviada para IQR em inglês.

Para descobrir a variação interquartil, primeiramente, dividimos os dados em duas metades, como na mediana, para em seguida refazer esta operação com cada uma das duas metades. Obtemos então quatro partes iguais – ou quartis.

Agora, você subtrai a mediana da metade superior (terceiro quartil ou Q3) com a mediana da metade inferior (primeiro quartil ou Q1). A vantagem deste método é que ele, por definição, já isola os outliers, seja inferiores ou superiores.

Cargo – Empresa Xtreme Salário mensal
Presidente 200.000
Gerente de vendas 5.000
Gerente de produção 5.000
Administrador 4.000
Vendedor 3.000
Secretário 2.000
Faxineiro 1.000

No caso da empresa Xtreme, destacamos o valor/linha da mediana em vermelho.

Já a primeira e terceira variação interquartil estão em amarelo.

Portanto, deveríamos subtrair o valor 5.000 por 2.000, tendo R$ 3.000 como variação interquartil desta firma.

Identificando outliers

A variação interquartil (IQR) pode ser usada para identificar matematicamente os outliers de um conjunto de dados. Estas fórmulas não são uma regra do universo, mas de certo modo sintetizam algum nível de consenso mínimo entre estatísticos para responder à pergunta: mas afinal matematicamente o que é um outlier?

Em geral, para encontrar o valor base para os outliers de baixo, você multiplica o IQR por 1,5, diminuindo o resultado do valor do primeiro quartil (Q1).

Já para os outliers de cima, ao invés de diminuir o resultado pelo Q1, você deve somar o produto daquela multiplicação com o terceiro quartil (Q3).

No nosso exemplo anterior, esta conta daria um número negativo no primeiro caso, ou seja, não temos outliers com baixos salários.

No segundo caso, somando 4.500 (resultado de IQR*1,5) com 5.000 (valor do terceiro quartil) chegaríamos ao valor de R$ 9.500 – ou seja, poderíamos considerar qualquer salário acima disto como um valor outlier em nossos dados.

Visualizando resultados

Uma forma fácil de visualizar quase todas estas informações de uma só vez é usando o diagrama de caixa (box plot).

Visualizando suas variáveis com este diagrama, você consegue visualizar algumas informações preciosas, tais como:

  1. a mediana, representada pela linha central dentro da caixa (em amarelo, na figura acima);
  2. o primeiro e o terceiro quartil, assim como o IQR (representado pela caixa em rosa);
  3. os valores limites para identificação de outliers, representado pelas hastes da caixa, em ambos os lados;
  4. os outliers, que no caso da figura acima são os pontos verdes;

Por conta disto, este tipo de gráfico é muito utilizado quando desejamos fazer uma análise exploratória.de variáveis numéricas contínuas.

Revisão e aprofundamentos

Este tutorial é o primeiro desdobramento deste post introdutório que fizemos, com uma introdução geral à análise de dados.

Para revisar e aprofundar os conceitos e técnicas que abordamos aqui, você pode explorar a seção ‘Como resumir dados quantitativos’ da Khan Academy, que tem bons materiais em vídeo, texto e exercícios a respeito dos conceitos abordados aqui.

Comentários (5)

Exercício, prática é fundamental.

Paulo de Almeida Ourives

Na explicação sobre a MÉDIA o total dos salários dos funcionários da empresa XTreme é R$ 220 mil e não R$ 230 como foi postado.

Obrigado por avisar, Paulo! Já corrigimos.

good this statistics

Grato pela dica da Khan Academy

Deixe um comentário

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.