All for Joomla All for Webmasters

O que são dados?

Introdução

Bem-vindo ao curso para iniciantes da Escola de Dados. Vamos tratar aqui dos aspectos básicos para a exploração e a visualização de dados e vamos descobrir e contar histórias com um conjunto de dados. Neste módulo, a gente vai aprender por onde começar a busca por dados. Iniciamos com termos chaves sobre dados, termos como qualitativo, quantitativo, legível por computadores, dados discretos e contínuos, expressões que aparecem sempre no trabalho com dados.

Quase tudo começa com uma pergunta

A maioria das pessoas não explora dados somente por diversão. Elas tem uma história para contar ou um problema para resolver. Geralmente você começa com uma pergunta na cabeça. Pode ser uma pergunta como “quantos dias de sol a minha cidade costuma ter?” ou “como o meu governo gasta os seus recursos, de onde eles vêm?”. Uma questão é um bom ponto de partida para uma exploração de dados. Ela fornece um foco e ajuda a detectar tendências interessantes nos dados. Identificar para quem a sua pergunta é importante também te ajuda a definir o seu público e a dar forma a sua história. E dá para começar sem uma pergunta? Somente explorando? Se você achar algo que pareça interessante no seu conjunto de dados, você pode iniciar uma exploração como se isso fosse a sua pergunta-guia. Às vezes, tendências que aparecem nos dados podem ser explicadas com a busca pelas causas desses padrões. Essas são histórias que quase sempre valem a pena ser contadas. Se você vai começar com uma pergunta ou não, você deve estar sempre de olhos abertos para padrões inesperados, resultados incomuns, qualquer coisa que te surpreenda. As histórias mais interessantes tendem a ser aquelas que não estamos procurando. Neste curso, vamos começar com uma pergunta e então explorar um conjunto de dados com esse questionamento na cabeça. Vamos também vasculhar e explorar se há algo interessante escondido nos dados. A pergunta na qual vamos focar para o Curso Fundamentos sobre Dados será: Como os gastos com saúde influenciam na expectativa de vida?

Tarefa: Pense numa pergunta que você gostaria de responder usando dados.

O que são dados?

Estamos rodeados de dados. Mas o que exatamente são dados? Dado é um valor atribuído a alguma coisa. Veja por exemplo a foto abaixo:

Golf balls
Bolas de golfe num mercado. Foto de Kaptain Kobold/Flickr (CC).

O que você pode dizer sobre essas bolas? Elas são bolas de golfe, correto? Logo, um dos primeiros dados que temos é que elas são usadas para o golfe, um tipo de esporte. Isso já nos ajuda a classificá-las numa taxonomia. Mas há mais coisas. Sabemos a cor delas: branca. A condição delas: usada. Todas têm um tamanho, há um número determinado delas, provavelmente elas têm uma valor monetário, e por aí vai. Mesmo os objetos mais comuns levam com eles um monte de dados. Você, também. Você tem um nome (muitas pessoas tem um nome e um sobrenome), uma data de nascimento, peso, altura, nacionalidade e etc. Tudo isso são dados. Pelo exemplo das bolas, já é possível ver que há diferentes tipos de dados. As duas principais categorias são dados qualitativos e dados quantitativos.

Dados qualitativos: tudo o que se refere à qualidade de algo. Uma descrição de cores, textura, uma descrição de experiências, uma entrevista. Tudo isso é dado qualitativo.

Dados quantitativos: dados que se referem a números. O número de bolas de golfe, o tamanho, o preço, a nota em uma prova e etc.

Há outras categorias com as quais você provavelmente vai se deparar:

Dados categóricos: são os que categorizam o item que você está descrevendo. A condição de “usadas” das bolas de golfe, por exemplo. Outros exemplos poderiam ser bolas novas, bolas quebradas e etc.

Dados discretos: são dados numéricos com brechas na sequência entre eles. Por exemplo, a contagem das bolas de golfe. Só pode haver um número inteiro de bolas de golfes (0,3 bolas seria impossível). Notas de prova e tamanhos de calçados são outros exemplos.

Dados contínuos: são dados em que todos os valores são possíveis. Não há brechas entre eles. O tamanho das bolas de golfes pode ser qualquer valor, 10,53 mm, 10,54 mm ou 10,536 mm. O tamanho do pé é outro exemplo, ao contrário do tamanho do calçado, que é um dado discreto.

Tarefa: Retome o exemplo das bolas de golfe e veja se você pode encontrar dados das diferentes categorias.

De dados para informação e conhecimento

Dados, quando coletados e estruturados, se tornam de repente bem mais úteis. Vamos ver isso na tabela abaixo:

Cor Branco
Categoria Esporte – Golfe
Condição Usado
Diâmetro 43mm
Preço (por bola) R$1,00

Cada um dos valores não diz muito sozinho. Para ter informação dos dados, precisamos interpretá-los. Vamos pegar o tamanho. Um diâmetro de 43 mm não nos fala muita coisa. Ele somente ganha significado quando o comparamos com outras coisas. Nos esportes há regras para equipamentos. O tamanho mínimo de uma bola para uma competição de golfe é 42,67 mm. OK. Podemos usar essa bola de golfe num campeonato. Isso é informação. Mas ainda não é conhecimento. Conhecimento é criado quando a informação é aprendida, aplicada e entendida.

Dados não estruturados x Dados estruturados

Dados para humanos

Uma frase simples como “temos cinco bolas de golfe brancas e usadas com um diâmetro de 43 mm a R$ 1 cada uma” pode ser fácil de ser entendida por um humano, mas para um computador não é. A frase é o que chamamos de dados não estruturados. Esses dados não têm uma estrutura fixa básica. Não fica claro na frase que palavra se refere a quê. Da mesma forma, PDFs e imagens escaneadas podem conter informações bem arrumadas para o olho humano, mas elas não são legíveis por computadores.

Dados para computadores

Computadores são bem diferentes de humanos. Pode ser extremamente difícil fazer computadores extraírem informações de determinadas fontes. Algumas tarefas fáceis para humanos ainda são difíceis de serem automatizadas com computadores. A interpretação de um texto apresentado como uma imagem é por exemplo um desafio para um computador. Se você quiser que o seu computador processe e analise os seus dados, ele tem que ser capaz de lê-los. Isso significa que os seus dados têm que estar estruturados, passíveis de serem lidos por computadores. Um dos formatos mais usados para a troca de dados é o CSV, sigla em inglês para valores separados por vírgula. A frase sobre bolas de golfe citada acima poderia ficar assim em CSV:

“quantidade”, “cor”, “condicao”, “item”, “categoria”, “diametro (mm)”, “preco”
5,”branco”,”usada”,”bola”,”golfe”,43,0.5

Essa maneira é mais simples para o seu computador entender e pode ser lida diretamente por um programa de planilhas. Notem que as palavras estão entre aspas. Isso as diferencia como texto (valores “string” na linguagem dos computadores). Os números não têm aspas. Vale mencionar que há vários outros formatos que são estruturados e passíveis de serem lidos por computadores.

Tarefa: Pense no último livro que você leu. Que dados se relacionam com ele e como você os tornaria dados estruturados?

Resumo

Nesta seção exploramos alguns dos conceitos essenciais que aparecem nas discussões sobre dados. Vimos o que são dados e como eles são estruturados. A seguir, será a vez de falarmos sobre fontes de dados e como pegar os dados.

Mais leituras

  1. Quando você pega um novo conjunto de dados, você deve mergulhar nele/ deve ter uma hipótese pronta? Caelainn Barr, jornalista premiada, explica o seu método de lidar com fontes de dados: http://datajournalismhandbook.org/1.0/en/understanding_data_4.html
  2. Apresentação sobre formatos de arquivos no “Open Data Handbook”.