Vodič za Chrome Web Scraper od Semalt Expert

Ako koristite Google Chrome, za vaš preglednik postoji proširenje koje vam može pomoći u struganju web stranica. Poznat je pod nazivom "Scrapper" i može se bez problema koristiti. Scrapper će vam pomoći u struganju sadržaja web mjesta i prijenosu rezultata u Google dokumente.

Kako izbaciti web mjesto pomoću proširenja Scraper?

1. U pregledniku Chrome odaberite Chrome web-trgovinu;

2. U proširenjima izvršite potragu za "Scrapper";

3. Prvi rezultat pretraživanja je proširenje poznato kao "Scrapper";

4. Odaberite gumb naveden kao "" Dodaj u Chrome ";

5. Vratite se na popis britanskih zastupnika;

6. Kliknite sljedeću vezu ;

7. Sada potražite jednog zastupnika i provjerite je li unos označen;

8. Desnom tipkom miša odaberite opciju "Scrape similar ...";

9. Konzola za strugač pojavit će se u drugom prozoru;

10. Pogledajte isklesani sadržaj na konzoli strugača;

11. Kako biste osigurali da se sadržaj spremi kao Google proračunska tablica, odaberite "Spremi u Google dokumente ..."

Produženo struganje

Prije nego se pridržavate ovog recepta, korisno je razumjeti osnove HTML-a. Na primjer, preko ove veze možete pročitati kratki uvod u HTML

Zamislimo da nas zanimaju svi filmovi u kojima je glumila Asia Argento, poznata talijanska glumica.

1. U IMDB-u postoji vrlo detaljna arhiva aktera. Web lokacija Asia Argento je: http://www.imdb.com/name/nm0000782/;

2. Ovdje možete vidjeti sve uloge koje glumica igra. Počnimo s brisanjem informacija koje nas zanimaju;

3. Pokušajte ga strugati onako kako je gore opisano;

4. Vidjet ćete da je popis malo iskrivljen. To je zbog činjenice da se ovdje popis može različito strukturirati;

5. Krenite do konzole strugača. Gore lijevo, vidjet ćete malu kutiju na kojoj piše XPath;

6. Xpath je vrsta upita za jezik koji radi za XML i HTML;

7. XPath vam može pomoći pronaći dijelove stranice koje vas zanimaju. Sljedeća stvar je pronaći odgovarajući element i napisati XPath za to;

8. Sad dogovorimo naš stol;

9. Vidjet ćete da je naš postojeći XPath, koji ima sve potrebne podatke, "// div [3] / div [3] / div [2] / div";

10. XPath obavještava sustav da pregleda HTML dokument i odabere treći element, zatim drugi element i zatim sve njih;

11. No, željeli bismo da se naši podaci razdvoje;

12. Upotrijebite odjeljak stupaca u konzoli za strugač za ovo;

13. Nađimo najprije naš naslov RІR‚вњњњњњ Inspe Inspe Inspe Inspe Inspe Inspe Inspe Inspe Inspe Inspe Inspe Inspe Inspe Inspe Pogledajte element pregledati;

14. Provjerite naslov unutar oznake. Dodajte oznaku u XPath;

15. Čini se da izraz djeluje na odgovarajući način, tako da to čini naš prvi stupac;

16. U odjeljku "Stupci" zamijenite ime prvog stupca u "naslov";

17. Dodajte mu XPath;

18. XPaths su u odjeljku stupca relativni i to znači da će "./b" odabrati element <b>

19. U XPath za naslovni stupac dodajte "./b" i odaberite "scrape";

20. Sada neka nastavi godinu dana. Godine se mogu naći unutar jednog raspona;

21. Stvorite novi stupac odabirom malog plusa pored stupca za vaš naslov;

22. Pomoću XPath "./span" stvorite stupac za "godinu";

23. Kliknite struganje i pogledajte kako je dodana godina;

24. Gotovo!

mass gmail