Semalt URLitor Üzerinde Ayrıntılı - Çok İyi Web Kazıma ve Veri Çıkarma Aracı

URLitor yeni ama etkili bir web kazıma ve veri çıkarma aracıdır. URLitor'u kullanmak için, sağlanan şablonda içeriğini çevrimiçi olarak kazımak istediğiniz tüm URL'lerin bir listesini eklemeniz yeterlidir. Ardından, web sayfalarından ayıklamak istediğiniz HTML öğesini belirtmeniz ve gönder düğmesini tıklamanız gerekir. Bu kadar kolay. Bu araçla, artık tarayıcıdan kopyalamanız veya yapıştırmanız gerekmez.

xPath, XML dosyalarında bilgi aramak için kullanılan bir dildir. XML dosyalarındaki düğüm kümelerini veya düğümleri seçmek için belirli ifadeler kullanır. XPath'in anladığı ifadeler, normal bilgisayar dosyaları veya belgelerle kullanılan ifadelere oldukça benzer.

XPath çeşitli programlama dillerinde kullanılmasına rağmen, bu araç programlama bilgisi olmayan kullanıcılar için geliştirilmiştir. Yani, onu kullanmak için bir programcı olmanıza gerek yok. Bu araçla, birkaç HTML ve XML sayfasından veri ayıklayabilirsiniz.

Kullanım kolaylığı için, sık kullanılan birkaç XPath ifadesi bir açılır menüye önceden tanımlanmıştır, böylece kullanıcılar amaçlarına bağlı olarak bunlardan herhangi birini seçmeleri gerekir. Ancak, çok deneyimli XPath kullanıcıları istedikleri zaman özel ifadelerini kullanma özgürlüğüne sahiptir.

Araç, tek bir kazıma oturumunda 100 URL kapasitesi ile tasarlanmıştır ve bir kerede en fazla 10 ifade alır. Başka bir deyişle, bir kerede en fazla 100 URL'den veri çizebilir.

Değiştirilebilen veya eklenebilen bazı önemli XPath özel ifadeleri aşağıda özetlenmiştir:

1. // div [2] - Bu ifade hiyerarşik olarak ikinci div'yi seçer;

2. // link [@ rel = 'canonical'] / @ href - Bu ifade rel niteliğini kanonik değere ayarlamak için kullanılan etiketin konumunu (ref) seçer;

3. / html / head / meta [@ name = 'description'] / @ content - Bu ifade içerik seçmek için kullanılır;

4. // * [@ class = 'class-name'] - Bu ifadeyi CSS sınıfı olarak 'class-name' olan tüm öğeleri seçmek için kullanabilirsiniz;

5. // h2 | // title - Bu ifade hem ilk H2'yi hem de sayfa başlığını seçmek için kullanılabilir;

6. // * [ad () = 'h1' veya ad () = 'başlık'] - Bu ifade aynen yukarıdaki gibi çalışır. Bununla birlikte, yukarıda sunulan ifade daha kısa olduğu için daha iyidir;

7. // * [içerir (@class, 'thumb')] - Bu ifade, CSS sınıfına sahip her öğeyi seçer ve ayıklama için 'thumb' içerir;

8. // parent :: * [text () = 'Hoş Geldiniz'] - Bu ifade, 'Hoş Geldiniz' metnine sahip herhangi bir öğenin üst öğesini seçer;

Bu araç bir Beta sürümüdür ve yine de bazı hatalarla çalışabilir. Bununla birlikte, sık kullanılan tüm ifadeler daha önce belirtildiği gibi bir menüye önceden tanımlandığından, programlama bilgisi az olan veya hiç olmayan kullanıcılar için harika bir araçtır.