Re: Seznam - fulltext

From: Dušan Janovský <janovsky (zavinac)>
Date: 17. 08. 2006, 15:48 CEST
Dobrý den,

> Jak jiz zde bylo zmineno, v poslednich dnech nekteri zaznamevaji vypadky stranek
> z vysledku vyhledavani ve fulltextu.

už jsem v této konferenci zmiňoval, že o těchto chybách vývojový tým
fulltextu ví a že je řeší. Rád témata, na která narážíte, rozvedu.

> Mohu taktez potvrdit, ze i me weby zaznamenaly
> nemale vypadky - u jednoho webu zmizela napriklad polovina stranek a navstevnost
> znacne poklesla. Nemyslim si, ze bych udelal nejakou vyznamnou chybu ci pouzil
> nespravne prvky optimalizace. Kdyz problemy zacaly, sledoval jsem nekolik dni
> statistiky LOGu. Zde jsou vysledky za posledni tyden.
>
> Pocet indexovanych stranek (navstiveno "boty"):
>
>                            St         Ct        Pa        So        Ne        Po       Ut
>
> Seznam           10         15         8          9           5            3          2
> Google             983     1017   968    1054     1089    1159    1025

co se týká poměru návštěv Google a Seznamu, tak je divný, čekal bych
ho ne 1:90, ale přibližně 1:5 nebo 1:20, jak ho znám z logů různých
serverů. GoogleBot je prostě čiperka, o tom žádná.

Co se týká zpomalování crawlování Seznamu během minulého týdne, tak to
je schválně. Ve čtvrtek a v pátek odpoledne, když jsme zjistili přesný
stav té chyby, jsem nastavil mnohem pomalejší crawlování, aby se chyba
moc nešířila a hlavně aby potom šla rychleji opravit (už se opravuje).

>
> Pripoustim, ze je mozne, ze Seznam mel v posledni dobe problemy a pravdepodobne
> nestihal indexovat.

Seznam indexovat stíhá, tohle bylo řízené zpomalení. Podívejte se do logu zítra.

> Proto zde pokladam otazku:
>
> Neni na case vytvorit lepsi prostredky pro indexaci stranek ?
> (napriklad neco podobneho jako Google Sitemap)

nápadů je spousta, programátorského a analytického času málo. Jestli
nám s tím někdo chcete pomoci, pošlete životopis mně nebo na
personální. Programátorská práce je to zajímavá. Stěhujeme se na
Anděla, bude to blíž.

>
> Myslim si, ze je na case smerovat fulltext Seznam.cz nepatrne kupredu. Preci jen
> re-indexace stranek nyni trva i pres mesic (i dele...) ,

chápu, že se vám měsíc na reindexaci může zdát dlouho. Mě to přijde
jako řádově rozumný čas. Navíc spoustu stránek, který náš systém
vyhodnotil jako důležité, indexujeme třeba každé dva dny. Robot
samozřejmě má technická omezení a je evidentní, že v současnosti
nemůžeme přeindexovat celý český internet za dva dny.

> nemluve o aktualizacich screenshotu
> a mnoho dalsiho.

aktualizaci screenshotů stále zrychlujeme. Nemám moc chuť prozrazovat
do konference techické detaily a čísla, protože jsem zvyklý na
odpovědi, že je to všechno stejně blbě. Na screenshotátoru jsem
nepracoval, ale musím říct, že si té aplikace, která pravidelně sbírá,
shraňuje, aktualizuje a na požádání vydává několik desítek miliónů
obrázků, docela vážím.

Yuhů
Seznam.cz
Received on Thu, 17 Aug 2006 15:48:32 +0200

This archive was generated by hypermail 2.1.8 : 17. 08. 2006, 15:48 CEST