Re: Jeden nadnárodní web, nebo 15 lokálních?

From: Marek Prokop <mprokop (zavinac)>
Date: Thu, 2 Aug 2007 21:02:21 +0200
On 8/2/07, Pavel Kodýtek wrote:

> Řekněme, že Seznambot má "povoleno"  prolézt
> právě 500 odkazů v řadě od toho, na kterém začne -
> prostě  půjde  jen  do  hloubku  500  odkazů,
> (...)
> Mě se tato teorie fakt líbí :-)

Pavle, Myslím, že Vy i Monika si robota vyhledavače příliš
personifikujete. Představujete si jednoho pidimužíka, který se chová
podobně jako uživatel -- přijde na stránku, uvidí odkaz, klikne. Tím
přijde na další stránku, zase uvidí odkaz a zase klikne. Jenže takhle
by mohl naprogramovat crawler vyhledavače jen absolvent půlročního
kursu programování na základní škole.

Normální crawler je naproti tomu tvořen tisícovkou pidimužíků a
šuplíkem. V tom šuplíku jsou URL. Pidimužík si ze šuplíku vytáhne
jedno URL a jde se na něj podívat. Načte stránku, vrátí se s ní domů,
cestou z ní vybere všechny odkazy a doma jejich URL hodí do šuplíku.
Zároveň si z něj vytáhne další a jde se na něj zase podívat.

Tohle dělá všech tisíc pidimužíků stále dokola a nic jiného je
nezajímá, protože jejich práci řídí správce šuplíku. Ten jim
přistrkuje pod nos ta URL, která se mají navštěvovat častěji a
schovává jim ta, která se mají navštěvovat méně často nebo ten den už
vůbec.

Správce šuplíku je dost chytrý na to, aby pidimužíkům dávkoval URL
podle domén. Aby je ale dávkoval podle toho, jak jsou domény navzájem
prolinkované, na to už mu jeho inteligence nestačí. Bylo by to ostatně
zbytečné, protože na celosvětovém webu je v podstatě všechno
prolinkované se vším.

Dušan Janovský nebo Michal Illich mne případně opraví.

Zdraví,

Marek Prokop
Received on 02. 08. 2007, 21:02 CEST

This archive was generated by hypermail 2.2.0 : 02. 08. 2007, 21:02 CEST