Entrevistando seus dados com ferramentas de IA
SOBRE O WORKSHOP
Texto por Ludemilla Diniz
Revisado pela Escola de Dados
Neste workshop, o engenheiro da Nubank, fundador da ASK-AR e hacker Diego Rabatone Oliveira apresenta diversos serviços e modelos de Inteligência Artificial (IA), além de um caso real que ilustra o uso da tecnologia, abordando aspectos como desenvolvimento de ferramentas, segurança, privacidade e engenharia de prompt. Ao longo da atividade ele também oferece dicas para que as pessoas participantes desenvolvam o raciocínio lógico necessário para a operação de prompts, destacando a importância de fazer as perguntas certas para o bom uso das IAs. Para facilitar a assimilação, Diego conduz um exercício prático de construção analítica de um código, utilizando uma lista de deputados federais eleitos em 2023.
A apresentação se inicia com o palestrante citando IAs generativas como ChatGPT, Google Gemini, GitHub Copilot e o Devin, abordando os limites e as potencialidades de cada uma. Em seguida, são apontados dois tipos gerais de modelos de IA: serviço e produto. Diego faz uma comparação dos quesitos privacidade, segurança, realidade, eficiência, complexidade e custo, e comenta sobre o caso do vazamento de dados da Samsung, ocorrido em três ocasiões diferentes ao longo de 20 dias. O incidente aconteceu quando alguns funcionários testaram códigos da empresa no prompt do ChatGPT, resultando no armazenamento de informações sensíveis no banco de dados da ferramenta. Essas informações foram tornadas públicas e integradas à memória da IA. Após o ocorrido, a OpenIA (empresa de pesquisa de inteligência artificial) passou a oferecer às pessoas usuárias um formulário para que pudessem solicitar a remoção dos seus dados e chat do conjunto de treino – sinalizando, assim, um marco de adaptação do uso de IAs priorizando os direitos à segurança e privacidade.
O palestrante também aborda os LLMs (modelos de linguagem de grande escala), explicando que estes modelos são compostos por uma rede neural com muitos parâmetros intitulados tokens. Os modelos são treinados com grandes quantidades de textos não rotulados, conhecido como aprendizado de máquina não-supervisionado, e geralmente são escolhidos como base para a criação das IAs. Os bancos de dados que alimentam essa linguagem são utilizados para estipular respostas.
Diego avança para explicar sobre engenharia de prompt, que seria a área que aprimora os recursos de análise de dados de um modelo. Por exemplo, em cenários de tomada de decisão, você pode solicitar que um modelo liste todas as opções possíveis, avalie cada opção e recomende a melhor solução, sendo de responsabilidade do(a) profissional analisar a viabilidade, além de poder complementar de acordo com o contexto apropriado.
O palestrante destaca seis componentes essenciais para construir uma estrutura eficaz de um prompt de comando. Esses parâmetros aumentam a precisão e delimitam melhor a situação. São eles:
- tarefa (definição do objetivo);
- contexto ( atribuição de camadas para a situação);
- exemplos (criação de uma referência);
- personagem (definição do estilo de comunicação);
- formato (modelo do resultado final);
- tom (definição da linguagem utilizada).
Ele conclui a parte teórica do workshop com algumas dicas para o uso e desenvolvimento de IAs, como a codificação (definição de frameworks ou bibliotecas), a definição de personagens fictícios conhecidos (pois a IA não reconhece qualquer indivíduo), a especificação dos tons de comunicação, a realização contínua de testes/interações, o uso de memória por chat e a não inserção de informações sensíveis e privadas, além da verificação constante das respostas e dos resultados.
Na parte prática da atividade, os participantes utilizaram o serviço de inteligência artificial do Google, a Gemini, integrada ao Google Colab. Este é um serviço de nuvem gratuito hospedado pelo próprio Google, que permite alternar entre escrita e execução de códigos, e inclusão de textos como em um caderno. Ele funciona também como um ambiente colaborativo direto no navegador, os chamados notebooks.
Diego começa indicando a geração de gráficos de análise dos gastos dos deputados federais eleitos em 2023, instruindo as pessoas participantes a exportar estes dados públicos da plataforma Base dos Dados e, posteriormente, a executar as análises a partir do prompt de comando da Gemini. Para essa atividade ele indicou que os resultados fossem feitos utilizando a linguagem de programação Python. Em seguida, Diego sugeriu o cruzamento das categorias de despesas desses deputados federais com os seus nomes, tentando visualizar qual indivíduo teria gastado mais.
No final, foi possível conferir também um gráfico de fornecedores mais solicitados e verificar que tipo de serviço por político gera mais gastos. Dessa forma, de comando em comando, pode-se extrair o máximo de informações que estavam dentro das possibilidades da IA apresentando mais um caminho de muitas possibilidades.
LOCAL
Laboratório 104
NÍVEL
Básico.
REFERÊNCIAS
Diego Rabatone
Pai e amante do mundo dos dados. Busca sempre desenvolver projetos de impacto social positvo usando dados e tecnologia, e procura sempre ter uma visão sistêmica e crítica da tecnologia. Engenheiro formado pela Escola Politécnica da USP, começou no mundo dos dados atuando na comunidade Transparência Hacker, pela qual colaborou com a formulação da Lei de Acesso à Informação, e na fundação do projeto Radar Parlamentar. Atuou como desenvolvedor no Estadão Dados – projeto pioneiro de jornalismo de dados no Brasil; como consultor PNUD junto ao Ministério da Justiça em projetos de democratização da participação social (Participa BR). Fundou a ASK-AR, consultoria especializada em projetos de dados e tecnologia, pela qual atuou com clientes como Greenpeace, Instituto AzMina e Conectas Direitos Humanos. E também atuou e atua como Engenheiro de Dados e Infraestrutura para empresas como EasyTaxi, Cabify e Nubank.
Visite o site da edição anterior. Confira o site do Coda.Br 2023.
Nosso conteúdo está disponível sob a licença Creative Commons Atribuição 4.0 Internacional, e pode ser compartilhado e reutilizado para trabalhos derivados, desde que citada a fonte.