Parliamo di……Scraping. Come estrarre dati dal Web.

Cerca nel sito

Altri risultati..

Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors
estrazione dati


Scraping LO SCRAPING. Tecniche di estrazione dati dal Web.

Il web scraping (detto anche web harvesting o web data extraction) è una tecnica informatica di estrazione di dati da un sito web per mezzo di programmi software.

Lo stesso Google attraverso i suoi parser utilizza metodi di scraping per analizzare i siti web ed estrarne i contenuti che utilizzerà poi per la propria catalogazione.


Il metodo di estrazione dei dati tramite sistemi di scraping si basa sull’analisi del codice di un sito per riconoscerne  strutture logiche simili ed essere quindi in grado di selezionare solo i dati di proprio interesse.

Il web scraping si concentra sulla trasformazione di dati non strutturati presenti in Rete, di solito in formato HTML, in metadati che possono essere memorizzati e analizzati in locale in un database. Il web harvesting è altresì affine alla web automation, che consiste nella simulazione della navigazione umana in Rete attraverso l’uso di software per computer.

Grazie,dunque, allo scraping possiamo identificare informazioni di nostro interesse ed estrarle in maniera automatizzata. L’identificazione di queste informazioni può avvenire tramite diverse modalità che sfruttano la selezione di dati html o css (es: selettori jquery, nodi xml, selettori css, etc…).

Esistono metodi utilizzati da alcuni siti web per prevenire il web scraping , come ad esempio rilevare e impedire ai bot la visualizzazione delle loro pagine. Per aggirare il problema esistono sistemi di web scraping che si affidano a tecniche come DOM parsing, Computer Vision e natural language processing per simulare la navigazione web umana. Grazie a queste tecniche è possibile raccogliere i contenuti delle pagine web per l’analisi offline.

Il web scraping si può usare per confrontare prezzi online, monitorare dati meteorologici, rilevare modifiche in un sito internet, nella ricerca scientifica, per il web mashup e il web data integration.

Ti potrebbe interessare anche:  Intelligenza Artificiale per tutti?

Come già detto, il web scraping è il processo tramite cui si estraggono o si collezionano dati nel World Wide Web e, una volta ottenuti questi dati, possono essere utilizzati per diversi scopi. Le tecniche che possiamo utilizzare dipenderanno dai mezzi e dalle risorse a nostra disposizione. Si parte da soluzioni dette “ad-hoc”, che richiedono l’intervento dell’uomo per selezionare le informazioni utili, fino ad arrivare a sistemi completamente automatizzati, che attraverso il Machine learning sgravano l’utente da alcuni compiti.

ALCUNI STRUMENTI FREE CHE POSSONO ESSERE UTILIZZATI PER FARE SCRAPING

Octoparse
Sito web: https://www.octoparse.com/

Octoparse è uno strumento  potente ed efficace che permette di estrarre diverse tipologie di dati da sorgenti online. Grazie ad un’interfaccia semplice e visuale è possibile configurarlo facilmente ed impostare i criteri di estrazione senza dover scrivere una singola riga di codice.

Data-Miner
Sito web: https://data-miner.io/

Data Miner è un’estensione di  Google Chrome ed è composto da due componenti, l’esecutore (Data Miner) ed un creatore di “ricette” o criteri di estrazione (Data Miner Beta).

Tramite l’estensione si possono creare delle ricette di scraping selezionando in maniera visuale i dati da estrarre nella singola pagina. Una volta creata la ricetta si visita il sito e si lancia lo strumento che procede all’estrazione e poi al download delle risorse.

Lo strumento ci fornisce una tabella con i dati scaricati esportabile in csv.

 

Parse Hub
Sito web: https://www.parsehub.com/

Parsehub è caratterizzato da funzioni molto avanzate tra cui la possibilità di sfruttare diversi IP (per evitare blocchi da parte del server), l’integrazione con sistemi di archiviazione (come dropbox) e la scansione di siti realizzati con tecnologie come Javascript e Ajax (difficili da scansionare da altri strumenti).

Ti potrebbe interessare anche:  Modelli iperbolici. Problemi "acquatici"

Google Spreadsheets
Sito web: https://spreadsheets.google.com/

Google Spreadsheets è il tool di Google dedicato ai fogli di calcolo (la versione Googliana di Excel); lo strumento non nasce come sistema di scraping ma grazie alla funzione IMPORTXML permette l’importazione di vari tipi di dati strutturati, tra cui XML, HTML, CSV, TSV .

Nel file spreadsheet va inserito l’url della pagina che si vuole analizzare e le query xpath che vanno ad identificare gli elementi da scansionare.

Una volta eseguita la funzione importa nel file Google i dati della pagina che stiamo scansionando.

Webscraper
Sito web: http://webscraper.io/

Web Scraper è un’estensione di Google Chrome che si integra con la Console per Sviluppatori. Una volta lanciata, l’estensione permette di creare una sitemap del sito che si vuole “scrapare” selezionando i vari elementi e fornendo un’anteprima del risultato.

Al termine della creazione della sitemap basta lanciare l’estrazione e lo strumento ci fornisce una tabella con i dati scaricati esportabile in csv.

Web scraping con Python 

 

 

(773)