Re: česká diakritika v Googlu

From: Dušan Janovský <janovsky (zavinac)>
Date: 21. 06. 2005, 16:40 CEST
>         spis bych tipoval, ze to dela tak, ze pri indexaci odstrani diakritiku ze
> slov, ktera ji obsahuji (tedy indexuje je dvakrat: jednou s a podruhe bez).

tak proste neni. Udelej si par pokusu se slovy, ve kterych chybne
zadas nektere znaky s diakritikou a jine bez nich. Kdyby se proste
odstranovala diakritika, tak by to hledalo vsechno, ale nenajde se
skoro nic (jenom evidentni preklepy).

> A pri hledani zadne OR nepouziva

a jak jinak vysvetlis rozdil ve hledani
kocka -kocka
http://www.google.com/search?hl=cs&c2coff=1&q=kocka+-kocka&lr=lang_cs
a
kočka -kočka
http://www.google.com/search?hl=cs&q=ko%C4%8Dka+-ko%C4%8Dka&lr=lang_cs

Podle tveho vykladu by to nemelo pri kocka -kocka najit nic, protoze
se ze stemu kocka vylouci stem kocka. Naopak kočka -kočka by melo
hledat pouze stem kocka a vylucovat z vysledku term kočka, takze by
vysledku melo byt hodne.

Jenomze se to v Googlu chova presne opacne -- dotaz kočka -kočka
vylouci z termu kočka term kočka (a nic se tedy nenajde), kdezto pri
hledani kocka -kocka se ze stemu kocka vylouci term kocka.

(pouzivam zde vyraz stem dost nepresne, ale chybi mi kratky pojem pro
zakladni tvar slova)

> (nicmene zvyraznuje vsechny varianty).
>         ale to je jen technicky rozdil, uzivateli to muze byt jedno

opet -- podivej se na vysledky. Mozna to jako priklad nestaci, ale
proste zvyraznovani to neni:
http://www.google.com/search?hl=cs&c2coff=1&q=r%C3%A9thimno+site%3Arovnou.cz

> 
>         ----------
>         2.
>         Vypada to, ze Googlu nefunguje ta varianta, kdy na strance je to bez
> diakritiky a uzivatel to hleda s ni.
> 
> http://www.google.com/search?hl=cs&c2coff=1&q=kodovani+firefox+site%3Ausenet.jyxo.cz&btnG=Hledat&lr=lang_cs
> http://www.google.com/search?hl=cs&c2coff=1&q=k%C3%B3dov%C3%A1n%C3%AD+firefox+site%3Ausenet.jyxo.cz&btnG=Hledat&lr=lang_cs
> 
>         prvni odkaz najde tu prvni stranku (11 celkem), druhy ne (3 celkem)

to se da snadno vysvetlit tak, ze to s novym algoritmem nestihl
zaindexovat. Takze v invertovanem indexu slova s diakritikou jeste
nejsou nektere zaznamy pro ta URL, ktera obsahuji slovo jenom bez
diakritiky.

>         <vychloubani>
>         mimochodem, Jyxo na stejny dotaz najde 111 stranek

gratuluju

Yuhu
Received on Tue, 21 Jun 2005 16:40:38 +0200

This archive was generated by hypermail 2.1.8 : 21. 06. 2005, 16:40 CEST