Re: česká diakritika v Googlu

From: Michal Illich, adresa do konferenci <list (zavinac)>
Date: 21. 06. 2005, 16:59 CEST
> tak proste neni. Udelej si par pokusu se slovy, ve kterych chybnezadas
> nektere znaky s diakritikou a jine bez nich. Kdyby se prosteodstranovala
> diakritika, tak by to hledalo vsechno, ale nenajde seskoro nic (jenom
> evidentni preklepy).

	ale ja nic nenamital proti tomu bodu, kde rikas, ze Google tohle cele 
nedela pro dotazy, kde nektera slova diakritiku obsahuji a jina ne. S tim 
bych souhlasil, Jyxo to ostatne dela stejne.
	tedy o chovani v techhle pripadech neni sporu.

	proc si myslim, ze diakritiku odstranuje pri indexaci:
	a) je to efektivnejsi reseni (kdyz nesklonuje) -> ma nizsi naklady - 
indexace se deje jednou, vyhledavani mockrat
	b) resi to lepe pripad "hrabe". Vysvetlim. Zadam si "hrabe" do google. 
Najde se "hrabe", "hrábě", "hrabě". Tvuj zpusob by musel ORovat tri slova (o 
cemz jsi ani nemluvil). V tom ktery predpokladam by hledal pouze jedno.
	
> a jak jinak vysvetlis rozdil ve hledani kocka -kocka

	ty vysledky jsou zjevne chybne (spravne by nemel zobrazit nic; a to at to 
beres jakkoliv). A podle me se z chybnych vysledku usuzovat moc neda.

> to se da snadno vysvetlit tak, ze to s novym algoritmem
> nestihlzaindexovat. Takze v invertovanem indexu slova s diakritikou
	
	Rikal jsi, ze je to tam naostro 3-4 tydny. Ta stranka, kterou uvadim jako 
priklad, vznikla 15. cervna (je tam i datum).

	Ahoj,

M.
Received on Tue, 21 Jun 2005 16:59:19 +0200

This archive was generated by hypermail 2.1.8 : 21. 06. 2005, 16:59 CEST