A análise de dados é a arte de transformar dados em conhecimentos e insights relevantes. Ou seja, comparar ou agregar as informações brutas para entender o que os dados nos dizem. Existem diversas formas de se fazer isso, mas neste tutorial nós vamos focar especificamente em alguns tipos de análise de dados tabulares – análise de dados geográficos ou de redes sociais, por exemplo, requerem outro repertório de conceito, técnicas e ferramentas.
A análise quase sempre envolve a busca por padrões e seus desvios, a fim de conhecer melhor relacionamentos, comportamentos ou conexões sobre o tema pesquisado. Ela costuma ser um dos momentos mais interessantes para quem faz investigações com dados.
Há uma divisão comum que separa análise de dados tabulares em 4 tipos: daquelas menos complexas e com menor valor agregado àquelas mais trabalhosas e com maior valor. Nesta divisão, cada nível é construído a partir do anterior.
Tenha em mente que isto é mais uma divisão esquemática para fins didáticos do que a representação de categorias rígidas.
- Análise descritiva: a mais básica. Em suma, consiste na descrição das principais características de um conjunto de dados, listando e resumindo valores, certas vezes de apenas uma variável. Aqui, você vai aplicar operações como a média, mediana, moda, mínima, máxima, percentagem e frequência. Se, por exemplo, a variável é uma nota de 0 a 5, então, a análise descritiva poderia mostrar o total e percentagem de cada nota, a média geral ou o desvio padrão, por exemplo.
- Análise exploratória: agora, além de toda etapa descritiva, a análise abarca também a correlação entre variáveis, usando técnicas como regressões e análise de variância. Um bom exemplo deste tipo de análise é esta reportagem do Estadão, que descobriu uma associação direta entre mortalidade infantil e analfabetismo dos pais. Trata-se de uma abordagem mais focada na descoberta de novas relações ou fatos que previamente eram desconhecidos e, muitas vezes, faz uso de gráficos e ferramentas de visualização de dados para esta exploração.
- Análise preditiva: nesta etapa, usamos do acúmulo anterior e de uma série histórica dos dados para tentar fazer previsões sobre eventos futuros. Imagine um banco de dados com os locais frequentados por uma determinada pessoa. Se ela, tem uma rotina mais ou menos regular (como sair todo dia pela manhã para trabalhar em um escritório), então, seria possível utilizar estes dados para formular predições bastante críveis sobre onde ela estará na próxima segunda-feira às 9 horas, por exemplo.
- Análise prescritiva: neste nível, a partir do acúmulo das análises anteriores, o objetivo é gerar a tomada de ações ou sugestões, de forma automática ou semiautomática. É o caso, por exemplo, de sistemas que liberam crédito para os usuários sob medida, de acordo com seu histórico de pagamentos.
Neste tutorial, vamos apresentar alguns conceitos fundamentais do primeiro nível, a análise descritiva. Alguns dos conceitos que veremos abaixo são usados cotidianamente pelas pessoas, outros nem tanto. Mas todos são importantes para você começar a analisar dados.
O ideal é que todo processo de análise de dados seja iterativo, ou seja, você estará constantemente fazendo perguntas e obtendo respostas que te ajudarão a fazer perguntas melhores, em um processo cíclico.
É possível fazer análise de dados em editores de planilha. Porém, se você quer dar um passo além, pretende lidar com dados massivos ou simplesmente quer documentar a análise que fará sobre os dados, de modo a tornar os resultados reproduzíveis por outras pessoas e melhorar a transparência de sua investigação, então, vale a pena conferir algumas bibliotecas em R (como o Tidyverse) ou Python (como o Pandas), por exemplo.
Sempre que você for baixar um conjunto de dados para análise, a primeira coisa que se deve fazer é criar uma cópia do mesmo. Todas as modificações devem ser feitas na cópia de seus dados – os dados originais devem permanecer do jeito que são! Dessa forma, você sempre poderá voltar e comparar com o conjunto original. Além disso, é importante manter um registro de onde você pegou seus dados, quando e quais modificações você fez neles.
Durante a análise, é interessante gerar visualizações, a fim de entender melhor seus dados. Isto porque é mais fácil perceber algumas variações e padrões de forma visual do que analisando diversos números, especialmente se você tiver uma grande quantidade deles. Isto pode ser feito usando editores de planilha, R ou Python (o que, novamente, facilita a customização e o trabalho em escala com os gráficos) ou mesmo utilizando ferramentas como Tableau ou Metabase.
É comum o uso do histograma para analisar visualmente a distribuição de variáveis numéricas contínuas. Neste gráfico, o eixo horizontal representa os valores, enquanto o eixo vertical contém o número de observações em cada valor. Para isto, são criados intervalos regulares (“bins”) para dividir os valores contínuos em colunas.
Já para variáveis categóricas ou discretas, é mais usual o gráfico de barras. Se isso parece confuso para você, então, vale conferir nosso tutorial introdutório ‘O que são dados?’.
A diferença entre o histograma é o gráfico de barras é que o primeiro utiliza apenas uma variável e sua respectiva distribuição, enquanto o segundo em geral mostra a relação entre duas variáveis. No gráfico de barras, ao contrário do histograma, temos um espaço separando as barras, o que já indicado para nosso leitor que se trata de uma variável discreta.
Porém, independente do software ou da forma de visualização utilizada para analisar seus dados, alguns conceitos devem ser compreendidos. Para dar os primeiros passos, confira nosso post que introduz algumas operações comuns de estatística para análise descritiva, dando dicas de quando utilizar cada uma delas.
A constatação óbvia é de que precisamos dominar algumas ferramentas que, historicamente, a maioria dos jornalistas nunca se interessou, como Excel e suas conexões. Minha dúvida é se há diferenças fundamentais entre essas ferramentas, por exemplo, entre o Excel e o Planilha Calc da Libreoffice?
Oi Aldo, diferenças fundamentais só em termos de algumas funcionalidades especiais e principalmente interface. De resto, a lógica por trás dos editores de planilha é bem parecida – dominada os fundamentos, você se acha em qualquer software!
Exemplos muito claros. Didática muito boa
Esses textos contribuem muito para torar nossas dúvidas.
Texto riquíssimo sobretudo com o exemplo da matéria sobre a relação da analfabetismo com a mortalidade infantil.
Isso é um pouco complicado, mas vamos lá!
Prezados, interessante. Simples e objetivo. Obrigada.
Muito bom… tem conceitos de Estatisticas.
Informações ótimas. Preciso focar ainda mais.
Parabéns pelo artigo. Tudo explicado de forma clara e didática
Grato pelo que você pode fazer com as tabelas dinâmicas. Espero, no futuro, usar suas amplas possibilidades. Obrigado pela boa explicação que é o módulo.
simples e direto. conteúdo muito bom.
Excelente! Conteúdo. Bem explicado e explorado.
Obrigada, Fernando!
Muito bom o conteúdo!
Foi muito bom entender!
Obrigada.
Ótimo
Interessante
Excelente conteúdo