Quando a planilha trava: trabalhando com bases de dados massivas
No workshop “Quando a planilha trava: trabalhando com bases de dados massivas”, o engenheiro de dados e membro da PyData Manaus, Jailson Pereira, apresentou o uso do SQL como uma das alternativas para quem trabalha com grandes bases de dados. Trata-se de uma linguagem de consulta em que é possível criar e manipular bancos de dados (databases) relacionais. A principal vantagem sobre a linguagem Python se dá justamente porque o SQL consegue trabalhar com várias tabelas ao mesmo tempo, mesclando informações.
Segundo Jailson, “vivemos em um mundo com um boom de dados sob o qual grandes empresas baseiam seus modelos de negócios, como por exemplo, as redes de varejo que monitoram o comportamento do usuário na rede para vender mais”. O programador apontou também a importância do SQL, no contexto de gestão de banco de dados no cenário empresarial.
Algumas das principais funções do SQL são:
- SELECT: Determina quais colunas incluir no conjunto de resultados da consulta;
- FROM: Identifica as tabelas das quais recuperar dados e como as tabelas devem ser unidas;
- WHERE: Filtra dados;
- GROUP BY: Usado para agrupar linhas por valores de coluna comuns;
- HAVING: Filtra grupos indesejados;
- ORDER BY: Ordena as linhas do resultado final definido por uma ou mais colunas.
No workshop, os dados utilizados para demonstração foram adquiridos da pesquisa “Indicadores de Mobilidade e Transporte” realizada em 2010, pela Base dos Dados. Jailson demonstrou como usar a linguagem SQL, por meio da biblioteca SQlite, executada dentro do Google Colab, online.