Eksperti Semalt shpjegon se si të copëtoni një faqe në internet AJAX duke përdorur Python

Skrapimi i uebit është një metodë që përdor përdorimin e softuerit për të nxjerrë të dhëna nga një faqe në internet. Ka shumë mjete që mund të përdoren për scraping në internet me python, disa prej tyre janë; Sky, Scrapy, Kërkesa dhe Supë e Bukur. Sidoqoftë, shumica e këtyre mjeteve janë të kufizuara nga fakti se ata marrin vetëm HTML statik që vjen nga serveri dhe jo pjesën dinamike të dhënë nga JavaScript.

Sidoqoftë, ekzistojnë disa teknika në të cilat mund të tejkalohet ky problem:

1. Shfletuesit e automatizuar

Ju mund të përdorni shfletues të automatizuar si Selenium ose Splash të cilat janë shfletues të plotë që funksionojnë pa kokë. Sidoqoftë, vendosja e tyre mund të jetë mjaft komplekse, dhe kështu do të përqendrohemi në opsionin e dytë më poshtë.

2. Përfshini thirrjet AJAX

Kjo përfshin përpjekjen për të përgjuar thirrjet AJAX nga faqja dhe duke u përpjekur t'i rishikoni ose riprodhoni ato.

Në këtë artikull, ne do të përqendrohemi se si të kapim thirrjet AJAX dhe t'i rimodelojmë ato duke përdorur Bibliotekën e Kërkesave dhe shfletuesin Google Chrome. Megjithëse kornizat si Scrapy mund t'ju japin një zgjidhje më efikase kur bëhet fjalë për scraping, nuk kërkohet për të gjitha rastet. Thirrjet AJAX kryhen më së shumti kundër një API që do të kthejë një objekt JSON të cilin me lehtësi mund ta trajtojë biblioteka e Kërkesave.

Gjëja e parë që duhet të dini është se përpjekja për të përsëritur një telefonatë AJAX është si të përdorni një API pa dokumente. Prandaj, duhet të shikoni në të gjitha telefonatat që bëjnë faqet. Mund të shkoni në sit, të luani me të një kohë dhe të shihni se si jepen disa informata. Pasi të keni mbaruar duke luajtur, kthehuni dhe filloni të bëni scraping.

Para se të futemi në detaje, le të kuptojmë së pari si funksionon faqja. Nëse vizitoni një faqe dyqanesh nga shteti, zgjidhni çdo shtet dhe faqja do të japë informacione mbi dyqanin. Sa herë që zgjidhni një shtet, faqja në internet jep dyqane të reja për të zëvendësuar ato të vjetrat. Kjo arrihet duke përdorur, dhe thirrjen AJAX te një server që kërkon informacionin. Synimi ynë tani është ta kapim atë thirrje dhe ta rimodelojmë atë.

Për ta bërë këtë, gjithçka që ju duhet të bëni është të hapni shfletuesin Chrome DevTools të ngushëlluar dhe të shkoni në nënseksionin XHR. XHR është një ndërfaqe që kryen kërkesa HTTP dhe HTTPS. Kështu që kërkesat AJAX do të tregohen këtu. Kur klikoni dy herë në thirrjen AJAX, do të gjeni shumë informacion mbi dyqanet. Ju gjithashtu mund të shikoni kërkesat.

Do të vini re se shumë të dhëna janë dërguar në server. Sidoqoftë, mos u shqetësoni pasi nuk kërkohet gjithçka. Për të parë se çfarë të dhënash ju nevojiten, mund të hapni një tastierë dhe të kryeni kërkesa të ndryshme për postim në faqen e internetit. Tani që e dini se si funksionon faqja dhe keni deshifruar thirrjen AJAX, ju mund të shkruani scraper tuaj.

Ju mund të kërkoni, 'pse të mos përdorni një shfletues të automatizuar?' Zgjidhja është e thjeshtë; gjithnjë përpiquni të riprodhoni thirrjet AJAX para se të filloni diçka shumë më të rëndë dhe të komplikuar siç është një shfletues i automatizuar. Shtë më e thjeshtë dhe e lehtë.

png

mass gmail