Raspando dados de notícias usando Python e XML

Descubra como utilizar bibliotecas em Python para raspar dados de notícias e aprenda mais sobre a estrutura de arquivos XML.

Nem sempre os dados que queremos estão disponíveis em um arquivo CSV ou em uma tabela já pronta. Digamos que você queira criar uma lista de notícias sobre um determinado tema ou organizar um clipping sobre uma instituição. Neste caso, as informações estão dispersas na web e precisam ser reunidas e estruturadas com técnicas de raspagem de dados.

É isso que veremos neste tutorial, que foi produzido após ter sido o tema mais votado pelos participantes do nosso programa de membresia.

Confira o notebook com o tutorial no Google Colab

Iremos extrair uma lista de notícias do Google News. usando duas abordagens diferentes, ambas com Python. A primeira é mais “manual” e trabalhosa, mas servirá para nos familiarizar com o formato XML. Na segunda, usaremos pacotes específicos para trabalhar com o Google News, que facilitam em muito todo processo. Também mostraremos como organizar os resultados em tabelas e em formato de texto corrido, visitando conceitos como funções e loops.

O tutorial cobre as seguintes etapas:

  • Acessando dados em XML
  • Baixando os dados
  • Extraindo dados de XML
  • Construindo uma função
  • Organizando os resultados em tabela
  • Usando o pacote GoogleNews no Python

Este conteúdo é baseado no workshop “Entre crawlers e APIs: Como sobreviver quando a informação não está em um .csv” realizado por Lorena Pereira no Coda.Br 2019, com cobertura colaborativa de Patrícia do Nascimento e Mariana Assis. O tutorial foi atualizado e expandido por Anicely Santos e Adriano Belisário em março de 2021, para publicação no site da Escola de Dados.

Comentários (2)

GUILHERME RODRIGUES BRUNO

Ué, não entendi. Onde estaria o tutorial?

Adriano Belisario

No link indicado no texto “CONFIRA O NOTEBOOK COM O TUTORIAL NO GOOGLE COLAB”

Deixe um comentário

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.