Re: česká diakritika v Googlu

From: Dušan Janovský <janovsky (zavinac)>
Date: 21. 06. 2005, 15:36 CEST
> můžu se zeptat, jak to aktuálně vypadá s podporou (doplňování a odstraňoávní) české diakritiky při hledání v Googlu?

nahodou o tom zrovna ted pisu clanecek, takze se da zjednodusene
konstatovat, ze Google uz asi mesic diakritiku celkem spolehlive
doplnuje.

Pritom plati par pravidel:
* doplnuje i nesmyslna slova (napr. rucovicky nebo Yuhu), museji se
ale vyskytovat v dostatecnem poctu dokumentu (prave se snazim zjistit
pribliznou mez)
* nedoplnuje slova z dotazy, ktere maji castecnou diakritiku -- napr. kočicka
* doplnovani funguje tak, ze se do hledaneho dotazu, pokud je bez
diakritiky, zkusi pridat diakritika a pak se obe varianty hledaji jako
OR. Podobne se cesky web indexuje -- kdyz indexer narazi na slovo,
ktere ma variantu s diakritikou, tak zaindexuje oboje. Ze to funguje
takhle, se pozna z dvou hledani
kocka -kocka
kočka -kočka

Zasadni uskali ale spociva v tom, ze Google nedoplnuje diakritiku pri
vyskytu v URL. Tim padem mohou treba na dotaz kadernice a kadeřnice
vypadnout jine vysledky.

Prvne problesklo doplnovani diakritiky nekdy koncem dubna, pak to zase
stahli a nyni uz to zase bezi asi tri ctyri tydny.

Yuhu
Received on Tue, 21 Jun 2005 15:36:09 +0200

This archive was generated by hypermail 2.1.8 : 21. 06. 2005, 15:36 CEST