Em resumo, dados são valores atribuídos a algo. Estes valores não precisam ser necessariamente números. Eles também podem ser, por exemplo, conceitos ou posições em um mapa. Dados podem ser medidos ou mensurados por meio de instrumentos, mas também podem ser atribuídos de forma arbitrária.
Exemplos? Existem vários. O registro do clima, as notas de uma turma na escola, métricas de vendas, a quantidade e duração das ligações feitas por um celular, a trajetória de um avião, as relações de amizade de uma pessoa nas redes sociais, etc. A lista é interminável e, cada vez mais, diversos aspectos de nosso cotidiano são transformados em dados.
Vale também lembrar que dados são construções humanas. Usamos dados para lidar com uma realidade que é complexa. Ou seja, eles não são representações objetivas ou infalíveis desta realidade. Pelo contrário, os dados podem estar sujeitos a diversos tipos de erros ou vieses, desde a coleta, passando pelo seu tratamento, análise e até a visualização dos dados em gráficos ou mapas. Em todas estas etapas, é possível que erros afetem a forma como uma realidade complexa é representada por meio de dados.
A maioria das pessoas não exploram dados somente por diversão. Elas têm uma história para contar ou um problema para resolver, geralmente começando com uma pergunta. Pode ser uma pergunta como “quantos dias de sol a minha cidade costuma ter?” ou “como o governo gasta o nosso dinheiro?”.
Uma questão é sempre um bom ponto de partida para uma exploração de dados, por fornecer um foco e ajudar a detectar tendências interessantes nos dados. Identificar para quem a sua pergunta é importante também te ajuda a definir o seu público e a dar forma a sua história.
Dá para começar sem uma pergunta? Somente explorando? É um pouco mais complicado, porém se você achar algo interessante no seu conjunto de dados, você pode iniciar uma exploração como se isso fosse a sua pergunta-guia.
De todo modo, se você vai começar com uma pergunta ou não, uma coisa é certa: você deve estar sempre de olhos abertos para padrões inesperados, resultados incomuns ou qualquer coisa que te surpreenda. E, para isso, é útil entender os diferentes tipos e formatos de dados.
TIPOS DE DADOS
Como você pode perceber, estamos rodeados por dados. Vamos ver um outro exemplo:
O que você pode dizer sobre essas bolas? Elas são bolas de golfe, correto? Logo, um dos primeiros dados que temos é que elas são usadas para o golfe, um tipo de esporte. Isso já nos ajuda a classificá-las em um grupo, mas há mais coisas. Vejamos:
- A cor delas: branca;
- A condição delas: usada;
- Todas têm um tamanho;
- Há um número determinado delas;
- Provavelmente, elas têm um valor monetário.
Mesmo os objetos ou situações mais comuns carregam consigo um monte de dados em potencial. Um outro exemplo é você mesmo: você tem um nome, um sobrenome, uma data de nascimento, peso, altura, nacionalidade e etc. Tudo isso são dados.
No geral, os dados podem ser divididos em dois tipos principais: qualitativos e quantitativos.
Dados qualitativos: tudo o que se refere à qualidade de algo. Em geral, são representados com palavras ou conceitos. Por exemplo: cores, nacionalidades, nomes, gênero, etc.
Dados quantitativos: dados que são mensuráveis ou se referem a números. Por exemplo: o número de bolas de golfe, o tamanho, o preço, a nota em uma prova, sua idade e etc.
Há também outras categorias com as quais você pode se deparar:
Dados categóricos: são os que categorizam o item que você está descrevendo. A condição das bolas de golfe, por exemplo. Elas são novas, quebradas ou consertadas?
Dados discretos: são dados numéricos, representados por números inteiros não negativos. Por exemplo, a contagem das bolas de golfe. Só pode haver um número inteiro de bolas de golfes (0,3 bolas seria impossível). Número de pessoas ou quantidade de músicas em um álbum são outros exemplos.
Dados contínuos: são dados onde também é possível termos “número quebrados”, ou seja, todos os valores são possíveis. O tamanho das bolas de golfes pode ser qualquer valor, 10,53 mm, 10,54 mm ou 10,536 mm. O tamanho do pé é outro exemplo, ao contrário do tamanho do calçado, que é um dado discreto.
FORMATO DE DADOS
Computadores são bem diferentes de humanos. Pode ser extremamente difícil fazer computadores extraírem informações de determinadas fontes. Algumas tarefas fáceis para humanos ainda são difíceis de serem automatizadas com computadores. Dentre muitas maneiras que o computador pode interpretar dados, as mais comuns que você encontrará serão:
- Sequências ordenada: São listas, ou seja, valores em ordem que estão em uma única dimensão. Em linguagem de programação pode se chamar lista, array ou vetor.
Ex: esportes = [‘golfe’, ‘futebol’,’corrida’,’ciclismo’]
- Tabelas: Um dos formatos mais frequentes quando pensamos em dados, podendo ser entendida por uma sequência empilhada, com duas dimensões, as linhas e colunas. Em linguagem de programação pode ser chamado de arrays bidimensionais e matrizes. Uma tabela pode conter dados mais resumidos sobre um determinado objeto ou mais detalhados (microdados).
- Redes e grafos: Esse tipo de apresentação mais voltada para relações, composta de nós e arestas, onde cada nó é um ente, pessoa ou organização que você está analisando e as arestas são as linhas que fazem as conexões.Exemplo: Parlamentares conectados pelos textos em conjunto na PL das armas.
- Dados geográficos: São dados que possuem características que servem para serem plotados em um mapa, como coordenadas geográficas ou projeções cartográficas. Exemplo: Painel do Índice de Transparência da Covid-19 nos estados.
- Textos: Podem ser compreendidos como formatos de dados e podem ser analisados através de métodos como processamento de linguagem natural.Exemplo: Matéria sobre discurso da CPI feita pelo Portal Correio.
- Imagens: Também podem ser analisadas para extrair dados usando software que podem identificar objetos, pessoas etc.Exemplo: Detecção de pessoas e objetos em uma imagem.
DADOS ABERTOS
Não é porque uma informação pode ser encontrada na Internet que ela é considerada um dado aberto. De acordo com a definição da rede da Open Knowledge, dados abertos são dados que podem ser livremente usados, reutilizados e redistribuídos por qualquer pessoa – sujeitos, no máximo, à exigência de atribuição da fonte e compartilhamento pelas mesmas regras e precisam ser legíveis por máquinas. Um dado em .pdf ou .xls, por exemplo, não está em formato aberto enquanto que um dado em .csv (comma-separated-values ou valores separados por vírgulas) é um padrão reconhecido mundialmente e pode ser lido e manipulado por quaisquer software.
Os dados abertos seriam como a ponta do iceberg do espectro com diferentes graus de compartilhamento, desenhado pelo The Open Data Institute – ODI. No diagrama abaixo, os dados vão desde acesso interno, no nível fechado, até liberado para qualquer pessoa no nível aberto.
Já o criador da World Wide Web, Tim Berners-Lee, propôs uma avaliação de níveis de abertura dos dados dividido em 5 estrelas:
Estrelas | Definição | Exemplos |
⭐ | Acessível na web, em qualquer formato, com licença aberta | |
⭐⭐ | Estruturados e legíveis por máquina, mas ainda precisa de um software proprietário para fazer a leitura. | XLSX |
⭐⭐⭐ | Tal qual o de duas estrelas, o que difere é que pode ser lido por software não proprietário. Já é considerado dado aberto | CSV(comma-separated-values) |
⭐⭐⭐⭐ | Possui todas características anteriores e inclui o uso de padrões do W3C para identificação dos dados | RDF e SPARQL |
⭐⭐⭐⭐⭐ | Todas as anteriores, mas com conexão com outros dados que proporcionem contexto | LOD |
Ficou com vontade de aprender mais? Inscreva-se em nosso canal no YouTube, leia nossos tutoriais, assine nossa newsletter gratuita ou junte-se ao nosso programa de membresia para seguir aprendendo conosco.
Texto atualizado em fevereiro de 2022.