Por Theo Ruprecht, reporter da revista SAÚDE
Logo após o final da terceira aula do curso Introdução ao Jornalismo de Dados nesta quarta (08/04), eu saí do prédio da ECA-USP e virei à direita para buscar o carro. Com a cabeça cheia de números, fiquei pensando na importância dos conceitos que aprendi sobre limpeza e organização de tabelas (o que, como me foi mostrado, torna-se muito mais fácil com um programa chamado Open Refine). É mais ou menos assim: antes de buscar uma agulha no palheiro, você precisa saber se, de fato, há uma agulha ali. Ou até se é uma agulha o que você pretende buscar. E o Open Refine te ajuda justamente com isso. Há facets, clusters e outros incontáveis comandos nesse sentido. Aliás, comandos que foram introduzidos à classe de forma bastante objetiva e clara.
Quando voltei a ficar de olho nos meus passos, vi que os estava dando no sentido errado – o certo era ter virado para a esquerda. Um erro de desatenção que acredito ser resultado das inúmeras possibilidades que se abriram depois da aula do Rodrigo Burgarelli. São tantos caminhos para se tomar em uma planilha de Excel (ou de quaisquer programas similares) que, ao pensar neles, imagino que esqueci de me concentrar no que separava a porta do prédio da ECA do meu carro. Mas, como o Rodrigo provou para mim, não há justificativa ou Ctrl Z que apague um erro no começo de uma jornada, especialmente se essa jornada for por um enorme banco de dados importado para o Excel.
No meu caso, troquei uma vírgula por um espaço no início da empreitada e, diversas operações depois, vi que o resultado final não fazia sentido nenhum. Só começando de novo mesmo para entender o quão genial pode ser uma tabela dinâmica. Essa ferramenta foi capaz de, a partir de uma base com mais de 3 mil candidatos à eleição de São Paulo, me mostrar em poucos segundos a média de idade dos eleitos e a dos não-eleitos. Se eu não errei em alguma parte do processo, a turma de políticos que agora representa o estado de São Paulo em diversas instâncias é, em média, mais velha do que a que acabou ficando só na vontade. “Mas será que isso tem algo a ver com a quantidade de bens de cada candidato?” – afinal, os mais experientes tiveram mais anos para acumular dinheiro, e dinheiro pode atrair votos de um jeito ou de outro. Pergunta que fica para a próxima aula – e para quando eu dominar melhor a operação “vlookup”.
Ponho a chave na ignição, ligo o carro e vou pra casa. Quero ver criarem um programa capaz de organizar dados e mais dados e mais dados sobre o trânsito para nos ajudarem a fugir do trânsito. Ou será que o Waze…
Nesta quarta-feira, 8 de abril, a terceira aula do curso Introdução ao Jornalismo de Dados, oferecido pela Escola de Dados na Universidade de São Paulo, teve como tema “Limpeza e análise de dados” e foi ministrada por Marco Túlio Pires (Coordenador da Escola de Dados) e Rodrigo Burgarelli (Repórter do Estadão Dados). Até o final da semana, publicaremos diariamente fotos e depoimentos com as impressões de participantes do curso.
O treinamento é gratuito e faz parte do programa Partnership for Open Data (POD), uma parceria entre o Banco Mundial, o Open Data Institute e a Open Knowledge Foundation para acelerar a abertura de dados em países em desenvolvimento. Edições anteriores foram realizadas em Salvador e no Rio de Janeiro. Para ver posts anteriores sobre o curso, clique aqui.