Re: Důsledky momentálních výkyvů Seznamu a kdo na tom profituje.

From: Dušan Janovský <janovsky (zavinac)>
Date: Mon, 11 Feb 2008 19:03:22 +0100
> Nekdo z Seznamu pri nejakem
> rozhovoru me rikal, ze nechteji indexovat kazdou blbost, ale to je z
> nouze cnost,

Je to tak. Není to z nouze cnost, je to prostě o penězích. Hardware
něco stojí, obzvlášť když musí ustát počet dotazů ve špičce. Když se
to vydělí počtem indexovaných dokumentů, tak vyjde nějaká mezní cena
za dokument v indexu, což je prostě náklad na jeden další přidaný
dokument do indexu.

Oproti tomu stojí mezní přínos pro uživatele, který se mnohem hůř
měří, ale kterej víceméně znamená pravděpodobnost, se kterou uživatel
bude potřebovat ten jeden přidaný dokument, děleno pravděpodobností,
že tu informaci najde v dosavadním indexu někde jinde.

A vyhledávač řeší jedinou věc, totiž porovnává mezní cenu hardwaru s
mezním přínosem pro uživatele. Pokud je cena hardwaru nižší než
přínos, nakupuje hardware a index zvětšuje tím způsobem, aby přínos
pro uživatele stále vzrůstal. Naopak pokud je mezní přínos dokumentu
menší než cena harware, index se promazává tak, aby mohl sbírat
dokumenty pro uživatele užitečnější. Tolik teorie, probereme si dva
modelové příklady.

Na jedné straně je Google. Má neuvěřitelně nízké mezní náklady pro
zaindexování dokumentu. Není mi úplně jasné, jak si může dovolit
zainexovat každou blbost, každopádně má hodně věcí ve fresh indexu a
supplemental indexu, i když už to ve výsledcích neoznačuje. Výhodou
Googlu je globální působení, což 1) relativně dobře rozkládá špičkovou
zátěž a 2) relativně zmenšuje indexy jednotlivých termů. Jinak řečeno
nemusí mít tolik redundance pro špičku a indexy termů se mu dobře
načítají z disků pro vyhledávání. Google má lacinější neznačkový
hardware. A protože má tak nízké mezní náklady pro zaindexování,
nemusí ho trápit ani nízký mezní přínos toho, co indexuje, pro
uživatele.

Na straně druhé tady je Seznam. Jeho mezní náklady jsou zvyšovány
specializací na jeden jazyk a geografickým rozložením uživatelů. Jeden
jazyk znamená relativně špičatý histogram velikostí indexů
jednotlivých slov (a lemmatizace tomu dost pomáhá) a lokalita znamená
výrazné denní špičky počtu hledání za sekundu. Oboje tlačí na to, že
musí být hodně hardwaru (úzké místo velikosti indexu je čtení z disku
a špička se dá řešit jenom redundancí). Hodně hardwaru znamená hodně
elektriky a hodně místa v serverovnách, což v Praze není zrovna laciná
sranda (zkoušeli jste loni sehnat volný rack?). Seznam navíc nemá
supplemental index v té podobě jako ho má Google, což dál zvyšuje
mezní cenu indexace dokumentu. Z toho vyplývá, že mezní dokument musí
mít vysoký přínos pro uživatele.

Základní politika Seznamu oproti Googlu tedy musí být v tom, že si
vybírá, co bude indexovat. Když jsem v únoru 2006 opět nastoupil jako
projekťák fulltextu, tak jsem na úvod nechal z databáze smazat asi
polovinu indexu. Je sice krásné mít velký index, ale když jsou to
blbosti, které se s daným hardwarem nestíhají prohledávat, tak není co
řešit. Současný index Seznamu není malý (aktuální čísla neznám, ale
jsou to stovky miliónů dokumentů), ale stejně se musí vybírat, co se
vezme a co ne. Důvody jsem vypsal výše.

Pokud se tedy ze 120400 stránek, jak Radek uvedl, vybralo zatím 10
stránek z množiny těch 400 správných a těch 120 tisíc redundantních s
jiným webem nezval, není to až tak špatně. Že si Google do fresh
indexu natahal 120 tisíc dokumentů a vzápětí jich většinu asi přesunul
do supplemental indexu, je velmi efektní, ale přínos je relativně
malý.

> google to dela a z tech blbosti upece mnohem lepsi
> babovku. Myslim ze smer Seznamu by mel byt ke komunitnim aplikacim,
> mapy.cz jsou vyborne, katalog skoro vyborny, zbozi vyborne... Fakt ten
> fulltext vzdejte, je to hruza.

Fulltext by se dal vzdát, kdyby byla alternativa. Tohle se v Seznamu
řešilo v roce 2003, tehdy ještě bez vlastního indexu, kdy výsledek
zněl, že alternativa není, takže se musí udělat vlastní fulltext. Od
té doby se v podstatě nic nezměnilo. Otázka zněla a zní, co udělat s
těmi milióny uživatelů, kteří vyhledávání na Seznamu používají. Nějaké
hledání by se jim dát mělo. Namířit formulář přímo na Google
alternativa fakt není (z obchodního hlediska je to nesmysl).

Co na první pohled vypadá jako alternativa, je Google. Jenomže Google
si za každé hledání účtuje poplatek, tuším že to bylo něco kolem 10
haléřů. Zhruba polovina téhle částky se dá nazpět vydělat na AdSense.
Teď mě neberte za slovo, čísla neznám přesně, ale je to prostě mírně
ztrátové a podle čísel z roku 2003 by to bylo velmi ztrátové.
Každopádně nyní by to navíc znamenalo úplně zrušit Sklik, protože
Google poskytne výsledky jedině společně s AdSense for Search. Pro
Seznam no way.

Jyxo alternativou nebylo už v roce 2003 a významně se neposunulo. Byly
to právě potíže s instalací Jyxa, které vedly k rozhodnutí mít vlastní
fulltext s kódem, do kterého vidíme. Nemyslím si, že by Jyxo hledalo
výrazně lépe (a dokázalo vzdorovat spamu) než současný Seznam a to
říkám s hlubokou úctou k Michalovi Illichovi i k celé firmě Jyxo,
protože vyhledávač Jyxo je i tak obdivuhodný.

Další dobrý vyhledávač je Morfeo, který ale také myslím spí na
vavřínech. Zatímco kolem roku 2003 jsem si s myšlenkou licencovat
Morfeo pohrával, dnes bych to Seznamu fakt nedoporučil, protože mi
přijde, že se ten projekt nevyvíjí. Relevance se v Morfeu počítá per
partes, což se dobře hodí na prohledávání katalogu, ale už hůř na web
a blbě se to čistí od spamu (kdyby měl někdo důvod Morfeo spamovat).
Protože Jyxo a Morfeo už několik let deklarují podobnou velikost
indexu, která v čase trochu kopíruje cenu hardwaru, tipnul bych si, že
ani Morfeo, ani Jyxo nemají vertikální škálování indexu a velikost
indexu řádově zvětšit nemohou. Takže tudy taky ne.

Hledání od Yahoo nebo Microsoftu jsem kdysi (v roce 2003) zkoušel
domluvit. V podstatě se se mnou odmítali bavit. To by problém nebyl,
spíš jde o to, že jejich podmínky pro přebírání výsledků jsou podobně
nepříznivé, jako je tomu u Googlu. Tak jako tak by licencované řešení
znamenalo, že Seznam bude technicky stagnovat.

Tolik reakce na "fakt ten fulltext vzdejte".

Yuhů
Received on 11. 02. 2008, 19:03 CET

This archive was generated by hypermail 2.2.0 : 11. 02. 2008, 19:03 CET