Semalt dijeli jednostavan način vađenja informacija s web stranica

Web Scraping je popularna metoda dobivanja sadržaja s web stranica. Posebno programirani algoritam dolazi na glavnu stranicu web mjesta i počinje pratiti sve interne veze sastavljajući interijere div-ova koje ste naveli. Kao rezultat toga - spremna CSV datoteka koja sadrži sve potrebne podatke u strogom redu. Rezultirajući CSV može se koristiti u budućnosti stvarajući gotovo jedinstveni sadržaj. I općenito, kao tablica, takvi podaci imaju veliku vrijednost. Zamislite da je cijeli popis proizvoda građevinskih radnji predstavljen u tablici. Štoviše, za svaki proizvod, za svaku vrstu i marku proizvoda, popunjavaju se sva polja i karakteristike. Svaka kopirnica koja radi za internetsku trgovinu rado bi imala takvu CSV datoteku.

Postoji puno alata za vađenje podataka s web stranica ili mrežnog struganja i ne brinite ako niste upoznati s bilo kojim programskim jezikom, u ovom ću članku pokazati jedan od najjednostavnijih načina - koristeći Scrapinghub.

Prije svega, idite na scrapinghub.com, registrirajte se i prijavite se.

Sljedeći korak o vašoj organizaciji može se jednostavno preskočiti.

Tada dođete do svog profila. Morate stvoriti projekt.

Ovdje trebate odabrati algoritam (koristit ćemo algoritam „Portia“) i dati ime projektu. Nazovimo to nekako neobično. Na primjer, "111".

Sada smo ušli u radni prostor algoritma u koji trebate upisati URL web stranice s koje želite izdvojiti podatke. Zatim kliknite na "New Spider".

Idemo na stranicu koja će nam poslužiti kao primjer. Adresa se ažurira u zaglavlju. Kliknite "Obavijestite ovu stranicu".

Pomičite pokazivač miša udesno što će izbornik prikazati. Ovdje nas zanima kartica "Izdvojeni predmet", gdje trebate kliknuti "Uredi stavke".

Ipak je prikazan prazan popis naših polja. Kliknite "+ polje".

Ovdje je sve jednostavno: trebate stvoriti popis polja. Za svaku stavku trebate unijeti ime (u ovom slučaju naslov i sadržaj), odredite je li ovo polje obvezno ("Obavezno") i može li se mijenjati ("Varirati"). Ako odredite da je stavka „obavezna“, algoritam će jednostavno preskočiti stranice na kojima neće biti u mogućnosti popuniti ovo polje. Ako se ne označi, postupak može trajati zauvijek.

Sada jednostavno kliknite na polje koje nam treba i označite što je to:

Učinio? Zatim u zaglavlju web stranice kliknite "Spremi uzorak". Nakon toga možete se vratiti u radni prostor. Sada algoritam zna kako nešto dobiti, moramo mu postaviti zadatak. Da biste to učinili, kliknite "Objavi promjene".

Idite na ploču sa zadacima, kliknite "Pokreni pauka". Odaberite web mjesto, prioritet i kliknite "Pokreni".

Pa, struganje je sada u tijeku. Njegova brzina je prikazana pokazivačem pokazivača na broj poslanih zahtjeva:

Brzina pripreme žice u CSV-u - upućivanjem na drugi broj.

Da biste vidjeli popis već napravljenih predmeta, samo kliknite ovaj broj. Vidjet ćete nešto slično:

Po završetku rezultat se može spremiti klikom na ovaj gumb:

To je to! Sada možete izvlačiti informacije s web stranica bez iskustva u programiranju.

mass gmail