Nem sempre é fácil conseguir um conjunto de dados que esteja totalmente pronto para análise. Geralmente, é necessário realizar uma etapa prévia – a limpeza dos dados – para corrigir problemas como erros de digitação, excesso de espaço, tipo de dados, etc. É super importante que essa etapa aconteça para que você não tenha problemas durante sua análise. Neste tutorial, vamos aprender a utilizar o Open Refine para fazer essa faxina.
O Open Refine é uma ferramenta gratuita e de código aberto. Ele é especialmente útil para facilitar o processo de limpeza de dados por meio de uma interface gráfica. Além disso, o Open Refine consegue abrir dados que um editor de planilhas não conseguiria, como arquivos em formato HTML, JSON ou XML, por exemplo.
Instalando e iniciando o Open Refine
Primeiro, acesse a página do Open Refine e escolha uma versão do programa de acordo com seu sistema operacional. Observe que junto à opção do sistema operacional, há também instruções de como inicializar a aplicação:
- Windows: há uma opção que requer que o Java esteja instalado em seu computador. Para executar o programa, baixe o arquivo indicado, descompacte-o e clique duas vezes em openrefine.exe ou refine.bat, se a primeiro opção não funcionar.
- Windows com Java incorporado: esta segunda opção já inclui o OpenJDK Java. O processe é o mesmo da opção anterior.
- Mac: baixe, abra, arraste o ícone para a pasta Aplicativos e clique duas vezes nele. Você não precisa instalar o Java separadamente.
- Linux: baixe o arquivo e descompacte-o em uma pasta. Abra esta pasta no terminal e digite ./refine para iniciar o programa. Essa opção requer que o Java esteja instalado em seu computador. Se tiver problemas, certifique-se que o arquivo refine é executável (rodando o comando ‘chmod +x refine’ ou clicando do lado direito no arquivo e marcar a checkbox em ‘Propriedades > Permissões’)
O Open Refine funciona a partir do seu navegador. Ao executá-lo, você verá um terminal iniciando um servidor local que irá garantir o funcionamento do programa. Fechar a janela do terminal faz o servidor parar, consequentemente o Open Refine suspender suas funções, ainda que permaneça aberto no navegador. Caso a janela do seu navegador não abra automaticamente, procure por um endereço parecido com este ‘127.0.0.1:3333′ entre as mensagens do terminal e digite-o em seu navegador.
Se tudo correu bem, a tela da aplicação aberta no navegador deve ser semelhante a essa.
Pronto! O Open Refine está pronto para começar a ser utilizado no processo de limpeza dos seus dados.
Começando a Faxina
As bases de dados que utilizaremos no restante todo tutorial em vídeo está no nosso Github: https://github.com/escola-de-dados/tutorial-open-refine.
Confira o vídeo abaixo para conhecer mais sobre a interface e algumas funções importantes do OpenRefine.
O vídeo começa mostrando uma visão geral da primeira tela e possibilidades de configuração de idioma. O Open Refine. Em seguida, veremos que projetos criados anteriormente ficam disponíveis para novos ajustes. Utilizando a base de dados de ocorrências na Bahia, vamos aprender a importar dados tabulares e criar um novo projeto.
No processo de importação, aprenderemos como configurar o arquivo para que ele apresente os dados corretamente, configurando codificação, colunas e tipos de dados.
Com os dados importados corretamente em um novo projeto, veremos como funciona a interface de trabalho da aplicação e os mecanismos de paginação para visualizar diferentes amostras dos dados. Em seguida, mostramos uma função essencial do Open Refine: a realização de transformações utilizando facetas.
Ainda utilizando o mesmo conjunto de dados, aprenderemos como fazer filtros de texto e como controlar filtros. Também indicaremos como executar transformações alterando o tipo de dado de uma coluna, fazendo o preenchimento de células em branco e outras transformações mais comuns.
Utilizando o conjunto de dados de notas veremos como remover linhas em branco e clustering de textos, uma das funcionalidades mais especiais do Open Refine para padronização de dados.
Já no final, veremos como exportar o arquivo pronto para análises. E terminaremos com um bônus, mostrando como fazer a importação de dados não tabulados, utilizando a API da Câmara de Deputados.
Todas essas etapas em negrito estão descritas no vídeo acima, realizado por Adriano Belisario, coordenador da Escola de Dados. A aplicação possui muito mais opções além das que veremos, então, sugerimos que você explore por conta própria também e, caso precise de ajuda, pode compartilhar sua dúvida em nosso fórum de jornalismo de dados.