Nem sempre os dados que queremos estão disponíveis em um arquivo CSV ou em uma tabela já pronta. Digamos que você queira criar uma lista de notícias sobre um determinado tema ou organizar um clipping sobre uma instituição. Neste caso, as informações estão dispersas na web e precisam ser reunidas e estruturadas com técnicas de raspagem de dados.

É isso que veremos neste tutorial, que foi produzido após ter sido o tema mais votado pelos participantes do nosso programa de membresia.

Confira o notebook com o tutorial no Google Colab

Iremos extrair uma lista de notícias do Google News. usando duas abordagens diferentes, ambas com Python. A primeira é mais “manual” e trabalhosa, mas servirá para nos familiarizar com o formato XML. Na segunda, usaremos pacotes específicos para trabalhar com o Google News, que facilitam em muito todo processo. Também mostraremos como organizar os resultados em tabelas e em formato de texto corrido, visitando conceitos como funções e loops.

O tutorial cobre as seguintes etapas:

  • Acessando dados em XML
  • Baixando os dados
  • Extraindo dados de XML
  • Construindo uma função
  • Organizando os resultados em tabela
  • Usando o pacote GoogleNews no Python

Este conteúdo é baseado no workshop “Entre crawlers e APIs: Como sobreviver quando a informação não está em um .csv” realizado por Lorena Pereira no Coda.Br 2019, com cobertura colaborativa de Patrícia do Nascimento e Mariana Assis. O tutorial foi atualizado e expandido por Anicely Santos e Adriano Belisário em março de 2021, para publicação no site da Escola de Dados.

2 thoughts on “Raspando dados de notícias usando Python e XML”

  1. GUILHERME RODRIGUES BRUNO disse:

    Ué, não entendi. Onde estaria o tutorial?

Deixe um comentário

O seu endereço de e-mail não será publicado.