Introdução a NLP – a base dos LLM

SOBRE O WORKSHOP

Texto por João Paulo
Revisado pela Escola de Dados

 

Neste workshop, o cientista de dados sênior Ian Muliterno explica o que é a “mineração de texto” (text mining), que envolve a extração de informações úteis de uma grande quantidade de textos, utilizando técnicas de processamento de linguagem natural (PLN). Nesse contexto, o PLN é usado para identificar relações entre palavras em uma determinada fonte de dados. A mineração de texto fundamenta os Modelos de Linguagem de Grande Escala (LLM), empregados por Inteligências Artificiais (IA) como o ChatGPT. Para a atividade, foi necessário um conhecimento básico em linguagem de programação R.

A mineração de texto pode ser aplicada em diversas áreas, como análise de conteúdo, análise citacional, sumarização de textos, extração de informações, classificação de tópicos e mineração de palavras e códigos. Durante a atividade, Ian apresentou exemplos do uso dessa ferramenta para pesquisa e análise de dados, demonstrando que é um mecanismo de busca eficiente capaz de fornecer respostas precisas e relevantes em grandes volumes de textos, como livros, artigos científicos, reportagens, entre outros. Além disso, ela pode ser utilizada em dados coletados de redes sociais como LinkedIn, Facebook, YouTube e X.

Na primeira parte do workshop, para introduzir o tema principal, o palestrante perguntou ao ChatGPT como ele utiliza a mineração de texto em seu funcionamento. Em seguida, foram apresentados os principais recursos do pacote stringr, uma biblioteca amplamente utilizada para manipulação e análise de strings na mineração de texto, e do tidyverse, essenciais para a utilização de expressões regulares (regex) na detecção de padrões de texto.

Na parte prática do workshop, foram realizadas análises exploratórias dos diálogos da série Harry Potter, extraindo informações básicas, como os personagens mais citados, os cumprimentos mais utilizados, o diálogo mais curto e o mais longo, e qual personagem menciona o protagonista com maior frequência. Esses exemplos demonstram como a mineração de texto pode ser utilizada em análises de textos e sua importância para obter insights.

Por fim, as pessoas participantes puderam perceber a praticidade de extrair insights de grandes volumes de dados textuais através do conhecimento das ferramentas apresentadas em conjunto com o ChatGPT.

LOCAL

Laboratório 104

NÍVEL

Intermediário.

REFERÊNCIAS

ian-muliterno

Ian Muliterno

Formado em estatística pela UFPE e trabalha como cientista de dados sênior no Greenpeace Brasil. Durante seus 8 anos de experiência, passou por startups, banco e multinacional de bens de consumo. Também é co-organizador da comunidade R-Ladies São Paulo. Dedicado a autodesenvolvimento, publicou um livro na Amazon chamado “Diversidade – apenas mais uma virtude”, dedicado especialmente às minorias.

Nosso conteúdo está disponível sob a licença Creative Commons Atribuição 4.0 Internacional, e pode ser compartilhado e reutilizado para trabalhos derivados, desde que citada a fonte.