Come estrarre title / meta description in Python da un sito (GUIDA)

Estrazione dei Titoli e Descrizioni Meta da Sitemap XML: Un Tool Python

Lo script Python che presentiamo oggi è libero e gratuito, ed è stato progettato per esplorare una sitemap XML che potrebbe contenere sitemaps annidate e URL di pagine HTML. Il suo scopo è quello di estrarre automaticamente i titoli e le descrizioni meta delle pagine HTML elencate nella sitemap, facilitando l’analisi e l’organizzazione delle informazioni. Utilizzando librerie come requests, BeautifulSoup, e pandas, l’obiettivo è quello di fornire un’implementazione efficiente e scalabile per l’elaborazione di sitemaps complesse, offrendo al contempo un feedback dettagliato sul progresso dell’operazione.

Annuncio:

Cerchi un hosting economico per il tuo sito o blog? Tophost ti aspetta (clicca qui) - Puoi anche usare il coupon sconto esclusivo 7NSS5HAGD5UC2 per spendere di meno ;-)

File: Questo codice Python estrae automaticamente title e meta description da una qualsiasi sitemap xml.

Questo script Python è progettato per esplorare una sitemap XML che potrebbe contenere altre sitemaps annidate e URL di pagine HTML. Il suo obiettivo principale è quello di estrarre i titoli e le descrizioni meta delle pagine HTML elencate nella sitemap e quindi salvare questi dati in un file Excel.

Dettagli sullo Script:

Librerie Utilizzate:

  • requests: Utilizzata per fare richieste HTTP alle URL specificate.
  • BeautifulSoup (bs4): Utilizzata per analizzare il contenuto HTML e XML delle pagine.
  • pandas: Utilizzata per la creazione e la gestione di DataFrame, che nel nostro caso serve per organizzare i dati estratti prima di salvarli in un file Excel.
  • openpyxl: Utilizzata da pandas per salvare il DataFrame in formato Excel.

Funzioni Definite:

  1. extract_title_meta(url):
    • Questa funzione prende in input un URL di una pagina HTML.
    • Utilizza la libreria requests per ottenere il contenuto della pagina.
    • Utilizza BeautifulSoup per analizzare il contenuto HTML della pagina e cerca il tag <title> per estrarre il titolo della pagina.
    • Cerca anche il tag <meta name="description"> per estrarre la descrizione meta della pagina.
    • Restituisce il titolo e la descrizione meta della pagina.
  2. extract_urls_from_sitemap(sitemap_url):
    • Questa funzione prende in input l’URL di una sitemap XML.
    • Utilizza requests per ottenere il contenuto della sitemap.
    • Utilizza BeautifulSoup con il parser XML per analizzare la sitemap e trova tutti i tag <sitemap> e <url>.
    • Per ogni <sitemap>, chiama ricorsivamente se stessa per estrarre gli URL dalle sitemaps annidate.
    • Per ogni <url>, estrae l’URL della pagina HTML.
    • Restituisce una lista di tutti gli URL delle pagine HTML trovate nella sitemap, inclusi quelli delle sitemaps annidate.
  3. print_progress(processed, total, url):
    • Questa funzione stampa il progresso dell’elaborazione in percentuale.
    • Prende in input il numero di URL già elaborati (processed), il totale degli URL da elaborare (total) e l’URL specifico su cui lo script sta lavorando (url).

Processo Principale:

  1. Definizione dell’URL della Sitemap Principale:
    • L’URL della sitemap principale è definito nella variabile sitemap_url.
  2. Estrazione degli URL dalla Sitemap:
    • Utilizzando la funzione extract_urls_from_sitemap, lo script ottiene tutti gli URL delle pagine HTML dalla sitemap principale.
    • Durante questo processo, la funzione print_progress viene chiamata per mostrare il progresso dell’elaborazione e l’URL specifico su cui lo script sta operando.
  3. Estrazione dei Titoli e delle Descrizioni Meta:
    • Per ogni URL estratto dalla sitemap, utilizza la funzione extract_title_meta per ottenere il titolo e la descrizione meta della pagina HTML corrispondente.
    • I risultati vengono aggiunti a una lista di dizionari data, dove ogni dizionario rappresenta i dati estratti da una pagina HTML.
  4. Creazione del DataFrame e Salvataggio dei Dati:
    • Utilizza la libreria pandas per creare un DataFrame (df) basato sui dati estratti.
    • Salva il DataFrame in un file Excel chiamato sitemap_data.xlsx utilizzando il metodo to_excel.
  5. Stampa del Messaggio di Conferma:
    • Alla fine, lo script stampa un messaggio indicando che i dati sono stati estratti e salvati correttamente nel file Excel.

Esecuzione dello Script:

Per eseguire lo script:

  • Assicurati di avere Python installato sul tuo computer.
  • Installa le librerie necessarie eseguendo pip install requests beautifulsoup4 pandas openpyxl.
  • Salva il codice in un file Python, ad esempio extract_sitemap_data.py.
  • Esegui lo script da terminale eseguendo python extract_sitemap_data.py.

Questo script è utile quando hai una sitemap XML complessa che contiene sitemaps annidate e pagine HTML, e hai bisogno di estrarre rapidamente i titoli e le descrizioni meta di tutte le pagine HTML elencate.

👇 Da non perdere 👇



Questo sito web esiste da 4548 giorni (12 anni), e contiene ad oggi 4099 articoli (circa 3.279.200 parole in tutto) e 18 servizi online gratuiti. – Leggi un altro articolo a caso
4/5 (1)

Ti sembra utile o interessante? Vota e fammelo sapere.

Privacy e termini di servizio / Cookie - Il nostro network è composto da Lipercubo , Pagare.online e Trovalost
Seguici su Telegram, ne vale la pena ❤️ ➡ @trovalost
Questo sito contribuisce alla audience di sè stesso.