Vodič za Chrome Web Scraper od Semalt Expert

Ako koristite Google Chrome, za vaš preglednik postoji proširenje koje vam može pomoći u struganju web stranica. Poznat je pod nazivom "Scrapper" i može se bez problema koristiti. Scrapper će vam pomoći u struganju sadržaja web mjesta i prijenosu rezultata u Google dokumente.
Kako izbaciti web mjesto pomoću proširenja Scraper?
1. U pregledniku Chrome odaberite Chrome web-trgovinu;
2. U proširenjima izvršite potragu za "Scrapper";
3. Prvi rezultat pretraživanja je proširenje poznato kao "Scrapper";
4. Odaberite gumb naveden kao "" Dodaj u Chrome ";
5. Vratite se na popis britanskih zastupnika;
6. Kliknite sljedeću vezu ;
7. Sada potražite jednog zastupnika i provjerite je li unos označen;

8. Desnom tipkom miša odaberite opciju "Scrape similar ...";

9. Konzola za strugač pojavit će se u drugom prozoru;
10. Pogledajte isklesani sadržaj na konzoli strugača;
11. Kako biste osigurali da se sadržaj spremi kao Google proračunska tablica, odaberite "Spremi u Google dokumente ..."
Produženo struganje
Prije nego se pridržavate ovog recepta, korisno je razumjeti osnove HTML-a. Na primjer, preko ove veze možete pročitati kratki uvod u HTML
Zamislimo da nas zanimaju svi filmovi u kojima je glumila Asia Argento, poznata talijanska glumica.
1. U IMDB-u postoji vrlo detaljna arhiva aktera. Web lokacija Asia Argento je: http://www.imdb.com/name/nm0000782/;
2. Ovdje možete vidjeti sve uloge koje glumica igra. Počnimo s brisanjem informacija koje nas zanimaju;
3. Pokušajte ga strugati onako kako je gore opisano;
4. Vidjet ćete da je popis malo iskrivljen. To je zbog činjenice da se ovdje popis može različito strukturirati;
5. Krenite do konzole strugača. Gore lijevo, vidjet ćete malu kutiju na kojoj piše XPath;
6. Xpath je vrsta upita za jezik koji radi za XML i HTML;
7. XPath vam može pomoći pronaći dijelove stranice koje vas zanimaju. Sljedeća stvar je pronaći odgovarajući element i napisati XPath za to;
8. Sad dogovorimo naš stol;
9. Vidjet ćete da je naš postojeći XPath, koji ima sve potrebne podatke, "// div [3] / div [3] / div [2] / div";
10. XPath obavještava sustav da pregleda HTML dokument i odabere treći element, zatim drugi element i zatim sve njih;
11. No, željeli bismo da se naši podaci razdvoje;
12. Upotrijebite odjeljak stupaca u konzoli za strugač za ovo;
13. Nađimo najprije naš naslov RІR‚вњњњњњ Inspe Inspe Inspe Inspe Inspe Inspe Inspe Inspe Inspe Inspe Inspe Inspe Inspe Inspe Pogledajte element pregledati;
14. Provjerite naslov unutar oznake. Dodajte oznaku u XPath;

15. Čini se da izraz djeluje na odgovarajući način, tako da to čini naš prvi stupac;
16. U odjeljku "Stupci" zamijenite ime prvog stupca u "naslov";
17. Dodajte mu XPath;
18. XPaths su u odjeljku stupca relativni i to znači da će "./b" odabrati element <b>
19. U XPath za naslovni stupac dodajte "./b" i odaberite "scrape";

20. Sada neka nastavi godinu dana. Godine se mogu naći unutar jednog raspona;
21. Stvorite novi stupac odabirom malog plusa pored stupca za vaš naslov;
22. Pomoću XPath "./span" stvorite stupac za "godinu";
23. Kliknite struganje i pogledajte kako je dodana godina;
24. Gotovo!