Automatizando fluxos de dados sem linhas de código (ou quase!) utilizando Apache NiFi

SOBRE O WORKSHOP

Quer automatizar processos com dados sem depender fortemente do desenvolvimento de códigos? Conheça o Apache NiFi: um programa que automatiza o fluxo de dados usando uma interface gráfica, acessível direto de seu navegador. 

Neste workshop, você conhecerá suas principais ferramentas e colocará em prática conceitos relacionados às etapas de ETL (extração, transformação e carregamento), a partir das bases de dados do TSE sobre as candidaturas eleitorais de 2020.

Primeiro, o instrutor Leandro Bispo fala sobre o sistema de fluxo de dados NiFi e sua terminologia: você aprenderá o que são conceitos como DataFlow Manager (gerenciador de fluxo de dados), FlowFile (arquivo de fluxo), processadores, Controller Service (serviço de controlador), Funnel (funil), Process Group (grupo de processo), Bulletin (boletim), Template (modelo), entre outros. Em seguida, ele apresenta os benefícios do programa, desde a interface do usuário baseada na Web, passando por seu caráter altamente configurável, data provenance (proveniência dos dados), segurança, até sua projeção para extensão.

Nesta parte introdutória, você aprenderá ainda a instalar o programa e realizar a autenticação de usuário. Conhecerá a interface de usuário e como adicionar, configurar e validar um processador, além de conectar os componentes na interface.

Chegada a hora de colocar a mão na massa, Leandro mostra como criar um grupo de processo do zero no NiFi e dar início ao seu fluxo de dados. Você poderá acompanhar passo a passo a captura dos dados do Repositório de Dados Eleitorais do TSE, como salvar o arquivo em sua máquina e descompactá-lo.

Na parte de tratamento de dados, você aprenderá a ler o arquivo no NiFi e aplicar filtros no arquivo descompactado. Em seguida, você poderá criar um novo banco de dados a partir do arquivo filtrado e nele realizar consultas e criar atributos utilizando a linguagem SQL.

NÍVEL

Básico

DURAÇÃO

1:30h

ferramentas e referências

Apresentação de slides do workshop

Template utilizado no workshop

Conhecimento básico do processo de carga e transformação de dados (ETL) e ter o Apache NiFi, versão 1.12.1 instalado.

Bases de dados:

Tutoriais:

Leandro Bispo

Leandro Bispo

Arquiteto de soluções de big data e analytics na Globo, com anos de experiência em projetos de dados, em especial dados de domínio público (esferas federal, estadual e municipal), sendo responsável por todo o ciclo de vida dos dados: Arquitetura, Engenharia e Ciência de Dados. Seus projetos de domínio público de maior relevância foram: Anda SP e Fora do Ponto – Projetos de mobilidade urbana nas cidades do RJ e SP; Eleições 2018 – Apoio na geração de pautas a partir de dados históricos das últimas eleições e apuração ao vivo dos dados.

REALIZAÇÃO

DESENVOLVIDO COM

APOIO

R Consortium

Hivos

Reino dos Países Baixos

U.S Embassy and Consulate

APOIO DE MÍDIA