Earthfinder Geplaatst: 18 juni 2013 Geplaatst: 18 juni 2013 Hallo, Ik ben bezig met een website om die een andere website crawled. De website die wordt gecrawled bestaat (meestal) uit meerdere pagina's en dit wordt dan ook in de url weergegeven wanneer bijvoorbeeld naar pagina 2 wordt geklikt. Als ik echter de url van pagina 2 copy-past in de adresbalk, dan kom ik altijd op pagina 1. Het gaat om deze website (ik weet niet of dit helemaal conform de regels is, om de link hier te plaatsen...): http://www.thuswonen.nl/pageid=35/huuraanbod.html#load Als ik dan op pagina "2" of "volgende" klik, verschijnt de volgende url: http://www.thuswonen.nl/pageid=35/huuraanbod.html#search=woning&orderby=&page=2&gemeente=Geen%20voorkeur&plaats=Geen%20voorkeur&prijsvan=0&prijstot=Geen%20maximum&woningtype= Als ik deze url copy-paste in de adresbalk, wordt toch de url van pagina 1 geladen: http://www.thuswonen.nl/pageid=35/huuraanbod.html#load Weet iemand hoe ik dit kan oplossen /omzeilen? HTPC-Software: LibreELEC 9HTPC-Hardware: Raspberry Pi 2 + Raspberry Pi 3
Kowalski Geplaatst: 19 juni 2013 Geplaatst: 19 juni 2013 De # voor search bij de 2e URL vervangen door & Vu+ DUO 4K (OpenPLi), Visiosat 13.0/19.2/23.5/28.2°E
Big fellow Geplaatst: 20 juni 2013 Geplaatst: 20 juni 2013 Een # gaat naar een "anchor" op de pagina (dus in dit geval naar anchor "load") maar wordt ook regelmatig mis/ge-bruikt door javascripts om acties op uit te voeren. Een & geeft parameters door (terug) aan de server, die dynamische paginas kunnen gebruiken. Dus een "#" vervangen door een "&" maakt het een heel ander iets... Mijn advies is om het javascript wat op die pagina's gebruikt wordt eens goed door te spitten, om te zien wat er gebeurt... Er wordt ook aan "SEO" gedaan, zo te zien, dus het zal allemaal iets lastiger worden dan je denkt. (De SEO maakt het lastig(er) om te zien welke pagina's er worden aangeroepen etc) “Success is not final, failure is not fatal: it is the courage to continue that counts.” ~ Winston Churchill
Earthfinder Geplaatst: 21 juni 2013 Auteur Geplaatst: 21 juni 2013 Ik heb een oplossing gevonden voor onderstaande url: http://www.thuswonen.nl/pageid=35/huuraanbod.html#search=woning&orderby=&page=2&gemeente=Geen%20voorkeur&plaats=Geen%20voorkeur&prijsvan=0&prijstot=Geen%20maximum&woningtype= Door ondestaande url te gebruiken wordt netjes pagina voor pagina door de scraper geleid: http://www.thuswonen.nl/pageid=35/page=#/huuraanbod.html Hierbij is # uiteraard een getal. Het is misschien niet de meest nette oplossing, maar het werkt prima, voor mij. HTPC-Software: LibreELEC 9HTPC-Hardware: Raspberry Pi 2 + Raspberry Pi 3
Aanbevolen berichten
Maak een account aan of log in om te reageren
Je moet een lid zijn om een reactie te kunnen achterlaten
Account aanmaken
Registreer voor een nieuwe account in onze community. Het is erg gemakkelijk!
Registreer een nieuwe accountInloggen
Heb je reeds een account? Log hier in.
Nu inloggen