Beberapa hari yang lalu saya belajar tentang web Crawler ,memang hal ini bukan hal asing lagi namun untuk lebih tahu tentang hal itu tentu membuat saya penasaran secara teori kita harus tahu dong?Nah yuk kita sinak apa sih web crawler itu dan apa saja sih jenisnya?
WEB CRAWLER
Web crawler adalah suatu program atau script otomat
yang relatif simple, yang dengan metode tertentu melakukan scan atau “crawl” ke
semua halaman-halaman Internet untuk membuat index dari data yang dicarinya.
Nama lain untuk web crawl adalah web spider, web robot, bot, crawl dan
automatic indexer.
Web crawl dapat digunakan untuk beragam tujuan. Penggunaan yang paling umum
adalah yang terkait dengan search engine. Search engine menggunakan web crawl
untuk mengumpulkan informasi mengenai apa yang ada di halaman-halaman web
publik. Tujuan utamanya adalah mengumpukan data sehingga ketika pengguna
Internet mengetikkan kata pencarian di komputernya, search engine dapat dengan
segera menampilkan web site yang relevan.
CONTOH WEB CRAWLER
Beberapa contoh web crawler:
1. Teleport Pro
Salah satu software web crawler untuk keperluan offline
browsing. Software ini sudah cukup lama popular, terutama pada saat koneksi
internet tidak semudah dan secepat sekarang. Software ini berbayar dan
beralamatkan di http://www.tenmax.com.
2. HTTrack
Ditulis dengan menggunakan C, seperti juga Teleport
Pro, HTTrack merupakan software yang dapat mendownload konten website menjadi
sebuah mirror pada harddisk anda, agar dapat dilihat secara
offline. Yang menarik software ini free dan dapat di download pada website
resminya di http://www.httrack.com
3. Googlebot
Merupakan web crawler untuk membangun index pencarian yang digunakan oleh search
engine Google. Kalau website anda ditemukan orang melalui Google,
bisa jadi itu merupakan jasa dari Googlebot. Walau konsekuensinya,
sebagian bandwidth anda akan tersita karena proses crawling ini.
4. Yahoo!Slurp
Kalau Googlebot adalah web crawler andalan Google,
maka search engine Yahoo mengandalkan Yahoo!Slurp. Teknologinya dikembangkan
oleh Inktomi Corporation yang diakuisisi oleh Yahoo!.
5. YaCy
Sedikit berbeda dengan web crawler lainnya di atas, YaCy
dibangun atas prinsip jaringan P2P (peer-to-peer), di develop dengan
menggunakan java, dan didistribusikan pada beberapa ratus mesin
computer (disebut YaCy peers). Tiap-tiap peer di share dengan
prinsip P2P untuk berbagi index, sehingga tidak memerlukan
server central. Contoh search engine yang menggunakan YaCy adalah Sciencenet (http://sciencenet.fzk.de), untuk pencarian dokumen di bidang
sains.
CARA KERJA
WEB CRAWLER
1. Mesin pencari web bekerja dengan
cara menyimpan informasi tentang banyak halaman web, yang diambil langsung
dari WWW. Halaman-halaman ini diambil dengan web crawler — browser web
otomatis yang mengikuti setiap pranala yang dilihatnya. Isi setiap halaman lalu
dianalisis untuk menentukan cara mengindeksnya (misalnya, kata-kata diambil
dari judul, subjudul, atau field khusus yang disebut meta
tag). Data tentang halaman web disimpan dalam sebuah database indeks untuk
digunakan dalam pencarian selanjutnya.
2.
Mesin pencari juga menyimpan dan memberikan informasi hasil pencarian
berupa pranala yang merujuk pada file, seperti file audio, file
video, gambar, foto dan sebagainya.
3. Ketika
seorang pengguna mengunjungi mesin pencari dan memasukkan query,
biasanya dengan memasukkan kata kunci, mesin mencari indeks dan memberikan
daftar halaman web yang paling sesuai
dengan kriterianya.
Sumber :
http://blog.um.ac.id/corianna/2011/12/14/search-engine-web-crawler/
http://www.bum1.info/2012/03/daftar-web-crawler.html#ixzz2PsQXx5xr
terima kasih atas apresiasiny...
BalasHapus