Automatizando fluxos de dados sem linhas de código (ou quase!) utilizando Apache NiFi
SOBRE O WORKSHOP
Quer automatizar processos com dados sem depender fortemente do desenvolvimento de códigos? Conheça o Apache NiFi: um programa que automatiza o fluxo de dados usando uma interface gráfica, acessível direto de seu navegador.
Neste workshop, você conhecerá suas principais ferramentas e colocará em prática conceitos relacionados às etapas de ETL (extração, transformação e carregamento), a partir das bases de dados do TSE sobre as candidaturas eleitorais de 2020.
Primeiro, o instrutor Leandro Bispo fala sobre o sistema de fluxo de dados NiFi e sua terminologia: você aprenderá o que são conceitos como DataFlow Manager (gerenciador de fluxo de dados), FlowFile (arquivo de fluxo), processadores, Controller Service (serviço de controlador), Funnel (funil), Process Group (grupo de processo), Bulletin (boletim), Template (modelo), entre outros. Em seguida, ele apresenta os benefícios do programa, desde a interface do usuário baseada na Web, passando por seu caráter altamente configurável, data provenance (proveniência dos dados), segurança, até sua projeção para extensão.
Nesta parte introdutória, você aprenderá ainda a instalar o programa e realizar a autenticação de usuário. Conhecerá a interface de usuário e como adicionar, configurar e validar um processador, além de conectar os componentes na interface.
Chegada a hora de colocar a mão na massa, Leandro mostra como criar um grupo de processo do zero no NiFi e dar início ao seu fluxo de dados. Você poderá acompanhar passo a passo a captura dos dados do Repositório de Dados Eleitorais do TSE, como salvar o arquivo em sua máquina e descompactá-lo.
Na parte de tratamento de dados, você aprenderá a ler o arquivo no NiFi e aplicar filtros no arquivo descompactado. Em seguida, você poderá criar um novo banco de dados a partir do arquivo filtrado e nele realizar consultas e criar atributos utilizando a linguagem SQL.
NÍVEL
Básico
DURAÇÃO
1:30h
ferramentas e referências
Apresentação de slides do workshop
Template utilizado no workshop
Conhecimento básico do processo de carga e transformação de dados (ETL) e ter o Apache NiFi, versão 1.12.1 instalado.
- Baixe a versão BIN, de acordo com seu sistema operacional e siga o passo a passo da instalação;
- Também será necessário instalar o Java e em alguns casos se faz necessária a criação da variável de ambiente JAVA_HOME. Verifique aqui como fazer isto.
Bases de dados:
- Base de candidatos do repositório de dados eleitorais de 2016;
- Base de candidatos do repositório de dados eleitorais de 2020
Tutoriais:
Leandro Bispo
Arquiteto de soluções de big data e analytics na Globo, com anos de experiência em projetos de dados, em especial dados de domínio público (esferas federal, estadual e municipal), sendo responsável por todo o ciclo de vida dos dados: Arquitetura, Engenharia e Ciência de Dados. Seus projetos de domínio público de maior relevância foram: Anda SP e Fora do Ponto – Projetos de mobilidade urbana nas cidades do RJ e SP; Eleições 2018 – Apoio na geração de pautas a partir de dados históricos das últimas eleições e apuração ao vivo dos dados.
REALIZAÇÃO
DESENVOLVIDO COM
APOIO
APOIO DE MÍDIA