Kterak "Google zrychli" (mirne OT a dlouhe; pro premyslive poucne)

From: Michal Illich, adresa do konferenci (list@illich.cz)
Date: 21. 05. 2003, 23:30 CEST


Dobry den,

     nedavno vysla PR zprava o zajimave studii vyzkumniku ze Stanfordske 
univesity:

http://www.sciencedaily.com/releases/2003/05/030514080352.htm [1]

     V ni se popisuji tri postupy, ktere umozni pri vytvareni vyhledavaci 
databaze (indexovani) zrychlit tu cast, ktera pocita PageRanky. Tyto 
postupy, ackoliv snizuji presnost vypoctu PageRanku, umoznuji jej vypocitat 
  teoreticky az petkrat rychleji.
     To by bylo docela uzitecne, pokud by vyhledavac chtel pocitat tematicke 
pageranky nebo dokonce pageranky personalizovane pro kazdeho z uzivatelu. Ty 
tematicke pageranky a okolo souviseji algoritmy jsou dost zajimave z 
hlediska SEO, protoze se uz par let spekuluje o tom, nakolik ten ktery 
vyhledavac pouziva techniky jako theming, hilltop, atd.

     Ted ale zacina pohadka o ceske novinare. Prikladu nepochopeni se nasla 
cela rada - temer vsechny servery, ktere se pokusily zpravu interpretovat, 
zacaly uvadet, ze se zrychli vyhledavani googleu (coz ale neni pravda, 
rychlost vypoctu pageranku nijak neovlivni rychlost vyhledavani). Uvedu dal 
jen jednu jinou sekvenci, ktera mi prijde vicemene vtipna tim, jak zije svym 
vlastnim zivotem.

     Na ScienceWorld.cz (jinak pomerne rozumnem webu) vysel clanek:

http://www.scienceworld.cz/sw.nsf/ID/DCE702F6F7CDA3B4C1256D28003BB47E [2]

     Nebudu popisovat, jake jsou v nem priserne chyby (muzete si sami zahrat 
hru "najdi deset rozdilu", mysleno oproti vyse uvedene zprave o studii). Jen 
uvedu jednu vec, ktera je v hlavni linii nasi pohadky: autor si tam vylozil 
pojem "BlockRank" po svem. V puvodni studii slo o to, ze stranky na webu 
tvori prirozene shluky, a tak je mozne vypocet pageranku provadet prave po 
takovychto shlucich (blocich), cimz dojde ke zrychleni vypoctu pageranku. 
Ale autor clanku to interpretuje takhle: "Blockrank. Tato nadstavba má prý 
zvýšit rychlost Googlu na trojnásobek - a to tak, že bude umět během 
vyhledávání blokovat stránky, jež se ve výsledku již objevují." (priklad 
tzv. tvurciho psani)

     Pohadka pokracuje.
     O den pozdeji je clanek linkovan z Roota s timto pruvodnim textem:

"Google chce zrychlit své vyhledávací algoritmy za pomoci lingvistů ze 
Stanfordské univerzity. Během vyhledávání by např. měly být blokovány 
stránky, které se už ve výsledku objevily."
http://www.root.cz/narchiv.php4 (neexistuje trvaly link) [3]

     Nejen, ze ona nove vymyslena vlastnost "blokovani stranek" tam zustala 
a stala se hlavnim tematem, ale objevuji se dve nova temata:
     1. "ze Google chce" - pricemz ale Google s tou studii nema pranic 
spolecneho, je to prace soucasnych studentu ze Stanfordu
     2. "lingviste" - ti se tu take zjevili zcista jasna, ve [1] ani [2] 
jeste nebyli :)

     (tady jsem do pohadky vstoupil jako maly deus ex machina a zacal 
komunikovat s Pavlem Houserem z IDG, ktery se naprosto profesionalne a 
adekvatne jal napravovat, co jeste slo; takze v papirovem ComputerWorldu uz 
ten clanek bude aspon trochu ok; to je ale male odboceni).

     No, a ted pred hodinou jsem si te zpravicky vsiml i na Lupe (doslova 
totez, co bylo na rootu, tentokrat podepsane Mirkem Zemanem). Tedy je to 
vcetne (1) toho ze se zrychli "vyhledavaci algoritmy", (2) ze to chce 
Google, (3) ze jde o blokovani stranek, ktere se uz ve vysledcich objevily 
(4) ze je to za pomoci lingvistu. Pricemz kazde z techto 4 tvrzeni je 
nepravdive (a nic jineho ve zpravicce neni!)... tato pohadka je o tom, jak 
takovato tvrzeni vznikaji a jaka cesta vede od zdroji ke ctenarum. (pri tom 
ani jeden z tech, co se retezu ucastnili, urcite nemel jakekoliv postranni 
umysly). Je to docela pekne tema k zamysleni.

     Tak dobrou noc,

Michal Illich

PS: Vzpominate na hru "posli to dal?" - jak si skolaci posilaji vetu 
septanim do usi a pak se bavi tim, jaky nesmysl vysel? Tak tohle byla verze 
pro dospele a ty, koho zajimaji vyhledavace.



This archive was generated by hypermail 2.1.3 : 21. 05. 2003, 23:33 CEST