Re: Unicode Cyrillic

From: Dušan Janovský <janovsky (zavinac)>
Date: 21. 07. 2004, 00:15 CEST
> Stranky mam v iso-8859-2 a chcel by som 
> nejaky text v menu zobrazovat aj po
> rusky v unicode napr. &#1046;&#1048; a pod. 
> Ako s k tomu zachova google,
> zaregistruje ho v azbuke, bude si ho moct vyhladat nejaky Rus?

To záleží na tom, co od toho čekáte. Nechal bych to entitami.

Pokud půjde pouze o krátký text, pak stejně není pravděpodobné, že u
něj google pozná, že je to rusky.

Chcete-li aby byla cílové stránce přiznána výhoda textu zpětného
odkazu v azbuce, unicode zápis přes entity ještě letos v zimě
nefungoval (testováno přes allinanchor). Fungovalo to při kódování
UTF-8 a při kódováních iso a windows (ale přiznám se že konkrétně pro
ruštinu jsem to netestoval). Google si evidentně normální rozpoznané
kódování převádí na nějaké Unicode, pravděpodobně UTF-8.

U entit tomu asi bude jinak, protože s převáděním číselných unicode
entit na odpovídající písmena měl Google ještě letos v zimě trochu
problémy a přes allinanchor testované stránky nenašel. Každopádně u
entitami psaných dokumentů extrémně chyboval v rozpoznání jazyka
(ještě více než obvykle, vlastně to byly první dokumenty, u kterých
jsem předloni chyby našel).

Jaký je stav nyní, nevím. Naposledy jsem to sledoval v prosinci.

Pokud snad chcete zapsat nějaký delší text a jde vám o to, aby Google
rozpoznal v dokumentu *ruštinu*, doporučoval bych zápis v UTF. Pokud
vám o to rozpoznání jazyka nejde (jde třeba o málo konkurenčí slova),
tak vězte, že Google entitami zapsané texty indexuje a většinou najde
(jenom u nich špatně určuje jazyk). Kvůli krátkému textu nebo odkazům
v menu bych to ale opravdu neřešil a nechal bych tam ty entity.

Yuhů
Received on Wed, 21 Jul 2004 00:15:38 +0200

This archive was generated by hypermail 2.1.8 : 21. 07. 2004, 00:15 CEST