Na primeira parte do nosso tutorial, vimos como importar nossos dados e realizar perguntas simples, usando filtros e ordenando valores. Agora, iremos ver como fazer perguntas mais complexas utilizando tabelas dinâmicas e como enriquecer nossa análise com cruzamento de informações.

Nesta segunda parte, iremos utilizar outro conjunto de dados. Imagine que queiramos investigar as relações entre empresas e políticos em Brasília. A máxima jornalística “siga o dinheiro” (follow the money) é sempre um caminho promissor para descobrir coisas interessantes.

Quais conjuntos de dados podem nos dar pistas sobre as relações financeiras entre empresas e políticos neste caso?

Definindo sua pergunta

Por exemplo, sabemos que durante campanhas eleitorais as candidaturas contratam empresas como fornecedoras de produtos e serviços. Também sabemos que há contratações de empresas pelo governo. Uma pergunta possível para o nosso caso em Brasília seria: existem empresas que receberam recursos em campanhas eleitorias de 2018 que estão na folha de pagamento do governo em 2019?

Para responder, eu preciso…

  • Do total de recursos recebidos em campanha por empresa no ano passado;
  • Do total de recursos recebidos do Governo do Distrito Federal este ano, por empresa;

Por fim, preciso saber as empresas que estão nas duas listas e seus respectivos valores.

Buscando a resposta

Para conseguir responder a esta pergunta, vamos usar duas funcionalidades dos editores de planilha: a tabela dinâmica e a procura vertical (PROCV/VLOOKUP). No nosso caso, como no tutorial anterior, veremos o passo a passo com o Google Spreadsheets, mas desta vez já importamos e configuramos os dados necessários para respondermos nossa pergunta.

Os dados utilizados foram encontrados na seção de Credores do site da Transparência do Distrito Federal e da prestação de contas eleitorais de 2018 entregue ao Tribunal Superior Eleitoral (TSE), que traz as despesas contratadas por cada candidato nesta unidade federativa. Após a importação, também removemos algumas colunas que não serão utilizadas, para deixar o processamento dos dados mais ágil.

Se você tem dúvidas sobre como importar e configurar dados, confira a primeira parte deste tutorial.

FAÇA-VOCÊ-MESMO

Para seguir os passos abaixo, você precisa apenas fazer uma cópia do arquivo que criamos. Para isso, basta clicar aqui para acessar a planilha-modelo e depois selecionar a opção ‘Arquivo > Fazer uma cópia’.

Repare que temos duas abas: a primeira (“CAMPANHA”) traz as informações de despesas de campanha do Distrito Federal. Neste caso, cada linha é uma despesa.

Já a segunda (“TRANSFERENCIAS”) traz informações do Governo do Distrito Federal, com os valores empenhados, liquidados e pagos por pessoa (física ou jurídica) Neste caso, cada linha representa um CPF ou CNPJ diferente.

Na etapa seguinte, iremos usar a tabela dinâmica para obter o valor total de despesas de campanha por empresa.

A tabela dinâmica

Se você está começando a trabalhar com dados ou precisa fazer operações simples com tabelas não muito grandes, então, a tabela dinâmica pode ser a sua melhor amiga na hora de entrevistar dados. Com apenas alguns cliques, você consegue fazer agrupamentos e operações matemáticas que muitas vezes já são suficientes para você encontrar o que precisa.

Basicamente, com a tabela dinâmica, você consegue modelar uma nova planilha de acordo com seus critérios, que irá usar seus dados como fonte para agrupamentos e operações como média, mediana ou percentagens. Para criar uma tabela dinâmica, basta selecionar o intervalo de dados desejado e selecionar a opção “Dados” > “Tabela dinâmica” e então clicar em “Criar”.

Feito isso, será criada uma nova aba e você verá o ‘Editor’ de Tabela dinâmica. Para fins didáticos, vamos dividí-lo em três segmentos e ver o que cada um significa.

1) Intervalo da fonte dos dados: Aqui, entra a referência do intervalo de dados que será usado como fonte. Na etapa anterior já selecionamos isso, então, não é necessário alterar nada aqui. No nosso caso, “CAMPANHA!A:K” significa que estamos usando as colunas entre A e K na aba ‘CAMPANHA’.

2) Sugestões: Aqui, temos algumas sugestões de agrupamentos ou visualizações que podemos fazer sobre os dados. Também podemos ignorar, já que faremos isso manualmente.

3) Linhas, colunas, valores e filtros: Por fim, temos os campos que nos importam. Aqui, podemos selecionar nossas variáveis e incluir como linhas ou colunas. Por exemplo, se eu adicionar o campo sobre o cargo (DS_CARGO) na linha, terei como resultado uma tabela com uma linha para cada valor único que aparece nesse campo: deputado distrital, federal, governador e senador. Já se adiciono na área de “colunas” teria uma coluna para cada cargo. Do mesmo modo, se quero que exibir os valores que serão exibidos e filtros a serem aplicados podem ser definidos nos respectivos campos.

Para responder nossa pergunta inicial, precisamos que cada linha seja correspondente a um CNPJ, tendo como valor a soma das despesas contratadas para cada entidade.

Vamos ver como fazer isso…

Repare que ao adicionar uma variável como linha você tem a opção de selecionar como você deseja orderná-las. Ao escolher valores, você também tem a opção de aplicar diferentes operações matemática. A padrão é a soma, justo a que queremos.

Depois de fazer a seleção acima, teremos então uma tabela com todos os CNPJs e valores recebidos em campanha. Para facilitar, vamos renomar esta aba da tabela dinâmica para chamá-la de “TOTAIS_CAMPANHA”.

Procura Vertical

Por fim, usaremos a função de procura vertical na aba TRANSFERENCIAS. Esta fórmula tem quatro parâmetros:

1) Primeiro, definimos o valor ou célula que queremos buscar. No nosso caso, o CNPJ listado na coluna A de nossa aba.

2) Depois, definimos a tabela onde queremos buscar este valor, tomando o cuidado para que o identificador que permitirá o cruzamento seja a primeira coluna selecionada. No exemplo, queremos buscar o referido CNPJ na tabela dinâmica recém-criada.

3) Depois, considerando o intervalo definido acima, dizemos qual é a coluna que queremos retornar.

4) Por fim, o último parâmetro diz a respeito a critérios de classificação. Em geral, vamos usar sempre “falso”.

Na prática vai ficar mais claro como isso funciona.

Vamos entender aqui a fórmula que escrevemos e os quatro parâmetros utilizados. Preste atenção que, a depender das configurações do seu editor de planilhas, o separador entre cada parâmetro pode ser a vírgula, ao invés do ponto e vírgula.

=PROCV(A2;TOTAL_CAMPANHA!A:B;2;FALSO)

Iniciamos com o “=” (igual) para indicar que iremos inserir uma fórmula (PROCV ou VLOOKUP, a depender da configuração). Entre parênteses, incluímos os parâmetros da fórmula.

Como vimos, o primeiro parâmetro é o que queremos buscar: no caso, o CNPJ (coluna A) da entidade que está na linha 2 de nossa planilha, então, indicamos a célula A2.

Depois, dizemos que queremos buscar este valor em um intervalo na aba TOTAL_CAMPANHA. A coluna de CNPJ (A) já é a primeira, mas selecionamos também o valor que queremos retornar, ou seja, a coluna B de nossa tabela dinâmica.

No parâmetro, dizemos que queremos retornar a segunda coluna do intervalo definido acima. Por isso, colocamos “2”.

Quando o CNPJ não é encontrada na outra tabela, o Google Spreadsheet exibirá o valor “#N/D”. Quando encontrar, ele irá retornar o valor atribuído àquele CNPJ na nossa tabela dinâmica.

Depois de inserir a fórmula em uma linha, basta aplicarmos nas demais. Para isso, você pode arrastar o quadrado azul para baixo, como fizemos no exemplo acima.

Mas se você tem muitas linhas e quer aplicar a todas elas de uma só vez, então, a melhor forma é dar dois cliques no quadrado azul no canto inferior direito da célula que tem a fórmula. Isso fará que a mesma fórmula seja aplicada aos demais registros de sua tabela.

FINALIZANDO

Já estamos quase lá. Agora, basta filtrarmos os valores “#N/D” para termos somente os credores do Governo do Distrito Federal que também prestaram serviços para alguma campanha de algum cargo em Brasília em 2018.

E voilà.. descobrimos a resposta desejada!

3 thoughts on “Entrevistando dados: uma introdução prática – parte II”

  1. Gustavo Pérez disse:

    É claro que “Siga o dinheiro” revela fatos interessantes. Obrigada

  2. Tive um pouco de dificuldade em aplicar a fórmula corretamente mas depois de umas duas tentativas, consegui. Muito bom o tutorial.

  3. Antonia disse:

    Tive um pouco de dificuldade nessa etapa. mas o conteúdo é muito bom.

Deixe um comentário

O seu endereço de e-mail não será publicado.