Texto por Anicely Santos
Segundo a instrutora Bianca Muniz, dependendo do volume de dados que você tenha, um editor de planilhas pode ser uma ótima ferramenta para analisar dados. Com uma curva de aprendizado mais rápida, esses programas têm uma interface visual mais intuitiva e não requerem conhecimentos de programação. Embora algumas limitações dos editores sejam voltadas à quantidade de dados e documentação de etapas, ainda assim, vale a pena investir tempo nesse aprendizado.
Antes de entrar na análise de dados, é importante entender minimamente como funciona um editor de planilhas. As planilhas, no geral, possuem células, linhas e colunas. Nas células, as informações são incluídas. A união de uma célula + linha + coluna fornece tanto a localização de um dado, quanto uma informação que pode estar sendo buscada.
A primeira etapa de análise de dados é organizar o fluxo de trabalho com dados. Começando com a coleta, é necessário saber onde estes dados estão e coletá-los, via raspagem, pesquisas, Lei de Acesso à Informação, dados abertos ou questionários.
Em posse desses dados, a próxima etapa é a preparação, onde será necessário importá-los para dentro da ferramenta que fará as análises, e então limpá-los para facilitar o processo de análise. A etapa de limpeza geralmente é a mais demorada, principalmente quando os dados estão despadronizados.
Por último, a etapa de análise é onde acontece a “entrevista” dos dados. Nessa etapa, é possível explorar ao máximo nos dados para entender o que eles podem revelar.
Para iniciar a parte prática, Bianca disponibilizou um material base de planilhas para ser utilizado, com dados do Ibama e do DataSUS. Com dados do DataSUS sobre internações, ela mostrou como funcionam formulas básicas, como soma, subtração e média.
As fórmulas são operações que podem ser feitas no processo de limpeza e análise. Elas podem ser usadas sozinhas ou combinadas. Sempre que precisar utilizá-las, é importante colocar no início o sinal de igual (=). A base de uma formula é: = [nome da fórmula] (). Dentro dos parênteses, os parâmetros necessários para efetuar a operação devem ser inseridos.
Nesta mesma base de dados, utilizando os códigos de municípios padrão do IBGE e o nome dos municípios, Bianca mostrou como fazer extração de partes de textos, utilizando a fórmula left (ou esquerda), que nesse caso foi utilizada para separar os código dos nomes dos municípios.
Numa etapa mais intermediária, ela explicou a importância de cruzar dados para enriquecer a sua base. Ela também mostrou como utilizar o recurso PROCV, uma das fórmulas consideradas mais complicadas no nível intermediário, por exigir muitos parâmetros que precisam ser passados do jeito certo para poder trazer resultados válidos.
Ainda na mesma base de dados, ela utilizou a fórmula para encontrar a UF de cada município. Ela alertou que em buscas que partam de uma para muitas células, é bem importante utilizar o cifrão ($) para “travar” a célula, para que a fórmula entenda a restrição de busca e não retorne erro.
Outro recurso mostrado foi a tabela dinâmica, funcionalidade que serve para mostrar as informações de maneira mais agrupada, sumarizar e ordenada, facilitando a leitura dos dados. É chamada dinâmica porque é possível construir uma tabela personalizada a partir dos dados da sua planilha principal.
Após isso, ela explicou também como “entrevistar” dados e enfatizou a cautela necessária para não confundir os conceitos de correlação e casualidade. Para complementar a oficina e ajudar as pessoas participantes a irem além, Bianca disponibilizou em seus slides sugestões de fórmulas, dicas atalhos para os programas e e exemplos de grandes reportagens que a Agência Pública fez a partir de planilhas.