> Nekdo z Seznamu pri nejakem > rozhovoru me rikal, ze nechteji indexovat kazdou blbost, ale to je z > nouze cnost, Je to tak. Není to z nouze cnost, je to prostě o penězích. Hardware něco stojí, obzvlášť když musí ustát počet dotazů ve špičce. Když se to vydělí počtem indexovaných dokumentů, tak vyjde nějaká mezní cena za dokument v indexu, což je prostě náklad na jeden další přidaný dokument do indexu. Oproti tomu stojí mezní přínos pro uživatele, který se mnohem hůř měří, ale kterej víceméně znamená pravděpodobnost, se kterou uživatel bude potřebovat ten jeden přidaný dokument, děleno pravděpodobností, že tu informaci najde v dosavadním indexu někde jinde. A vyhledávač řeší jedinou věc, totiž porovnává mezní cenu hardwaru s mezním přínosem pro uživatele. Pokud je cena hardwaru nižší než přínos, nakupuje hardware a index zvětšuje tím způsobem, aby přínos pro uživatele stále vzrůstal. Naopak pokud je mezní přínos dokumentu menší než cena harware, index se promazává tak, aby mohl sbírat dokumenty pro uživatele užitečnější. Tolik teorie, probereme si dva modelové příklady. Na jedné straně je Google. Má neuvěřitelně nízké mezní náklady pro zaindexování dokumentu. Není mi úplně jasné, jak si může dovolit zainexovat každou blbost, každopádně má hodně věcí ve fresh indexu a supplemental indexu, i když už to ve výsledcích neoznačuje. Výhodou Googlu je globální působení, což 1) relativně dobře rozkládá špičkovou zátěž a 2) relativně zmenšuje indexy jednotlivých termů. Jinak řečeno nemusí mít tolik redundance pro špičku a indexy termů se mu dobře načítají z disků pro vyhledávání. Google má lacinější neznačkový hardware. A protože má tak nízké mezní náklady pro zaindexování, nemusí ho trápit ani nízký mezní přínos toho, co indexuje, pro uživatele. Na straně druhé tady je Seznam. Jeho mezní náklady jsou zvyšovány specializací na jeden jazyk a geografickým rozložením uživatelů. Jeden jazyk znamená relativně špičatý histogram velikostí indexů jednotlivých slov (a lemmatizace tomu dost pomáhá) a lokalita znamená výrazné denní špičky počtu hledání za sekundu. Oboje tlačí na to, že musí být hodně hardwaru (úzké místo velikosti indexu je čtení z disku a špička se dá řešit jenom redundancí). Hodně hardwaru znamená hodně elektriky a hodně místa v serverovnách, což v Praze není zrovna laciná sranda (zkoušeli jste loni sehnat volný rack?). Seznam navíc nemá supplemental index v té podobě jako ho má Google, což dál zvyšuje mezní cenu indexace dokumentu. Z toho vyplývá, že mezní dokument musí mít vysoký přínos pro uživatele. Základní politika Seznamu oproti Googlu tedy musí být v tom, že si vybírá, co bude indexovat. Když jsem v únoru 2006 opět nastoupil jako projekťák fulltextu, tak jsem na úvod nechal z databáze smazat asi polovinu indexu. Je sice krásné mít velký index, ale když jsou to blbosti, které se s daným hardwarem nestíhají prohledávat, tak není co řešit. Současný index Seznamu není malý (aktuální čísla neznám, ale jsou to stovky miliónů dokumentů), ale stejně se musí vybírat, co se vezme a co ne. Důvody jsem vypsal výše. Pokud se tedy ze 120400 stránek, jak Radek uvedl, vybralo zatím 10 stránek z množiny těch 400 správných a těch 120 tisíc redundantních s jiným webem nezval, není to až tak špatně. Že si Google do fresh indexu natahal 120 tisíc dokumentů a vzápětí jich většinu asi přesunul do supplemental indexu, je velmi efektní, ale přínos je relativně malý. > google to dela a z tech blbosti upece mnohem lepsi > babovku. Myslim ze smer Seznamu by mel byt ke komunitnim aplikacim, > mapy.cz jsou vyborne, katalog skoro vyborny, zbozi vyborne... Fakt ten > fulltext vzdejte, je to hruza. Fulltext by se dal vzdát, kdyby byla alternativa. Tohle se v Seznamu řešilo v roce 2003, tehdy ještě bez vlastního indexu, kdy výsledek zněl, že alternativa není, takže se musí udělat vlastní fulltext. Od té doby se v podstatě nic nezměnilo. Otázka zněla a zní, co udělat s těmi milióny uživatelů, kteří vyhledávání na Seznamu používají. Nějaké hledání by se jim dát mělo. Namířit formulář přímo na Google alternativa fakt není (z obchodního hlediska je to nesmysl). Co na první pohled vypadá jako alternativa, je Google. Jenomže Google si za každé hledání účtuje poplatek, tuším že to bylo něco kolem 10 haléřů. Zhruba polovina téhle částky se dá nazpět vydělat na AdSense. Teď mě neberte za slovo, čísla neznám přesně, ale je to prostě mírně ztrátové a podle čísel z roku 2003 by to bylo velmi ztrátové. Každopádně nyní by to navíc znamenalo úplně zrušit Sklik, protože Google poskytne výsledky jedině společně s AdSense for Search. Pro Seznam no way. Jyxo alternativou nebylo už v roce 2003 a významně se neposunulo. Byly to právě potíže s instalací Jyxa, které vedly k rozhodnutí mít vlastní fulltext s kódem, do kterého vidíme. Nemyslím si, že by Jyxo hledalo výrazně lépe (a dokázalo vzdorovat spamu) než současný Seznam a to říkám s hlubokou úctou k Michalovi Illichovi i k celé firmě Jyxo, protože vyhledávač Jyxo je i tak obdivuhodný. Další dobrý vyhledávač je Morfeo, který ale také myslím spí na vavřínech. Zatímco kolem roku 2003 jsem si s myšlenkou licencovat Morfeo pohrával, dnes bych to Seznamu fakt nedoporučil, protože mi přijde, že se ten projekt nevyvíjí. Relevance se v Morfeu počítá per partes, což se dobře hodí na prohledávání katalogu, ale už hůř na web a blbě se to čistí od spamu (kdyby měl někdo důvod Morfeo spamovat). Protože Jyxo a Morfeo už několik let deklarují podobnou velikost indexu, která v čase trochu kopíruje cenu hardwaru, tipnul bych si, že ani Morfeo, ani Jyxo nemají vertikální škálování indexu a velikost indexu řádově zvětšit nemohou. Takže tudy taky ne. Hledání od Yahoo nebo Microsoftu jsem kdysi (v roce 2003) zkoušel domluvit. V podstatě se se mnou odmítali bavit. To by problém nebyl, spíš jde o to, že jejich podmínky pro přebírání výsledků jsou podobně nepříznivé, jako je tomu u Googlu. Tak jako tak by licencované řešení znamenalo, že Seznam bude technicky stagnovat. Tolik reakce na "fakt ten fulltext vzdejte". YuhůReceived on 11. 02. 2008, 19:03 CET
This archive was generated by hypermail 2.2.0 : 11. 02. 2008, 19:03 CET