Re: Vyhledavani "Šumperk" v jyxu

From: Ludek Sorm <ludek (zavinac)>
Date: 03. 12. 2004, 19:27 CET
Vazeny pane Illichu,

pisete, ze se zrejme jedna o podvod. Pritom je to takrřka presne na den
mesic, kdy jsme spolu diskutovali, jakym zpusobem jsou stranky naseho
informacniho systemu Domenova koule zobrazovany v jyxu. Byl jsem to ja, kdo
poprve zminil www.sumperk.cz jako priklad zakaznika, kteremu by se jiste
Vami navrhovane reseni nelibilo.

Dovoluji si pripomenout nasi mailovou korespondenci:


----- Original Message ----- 
From: "Ondrej Prochazka" <ondra@jyxo.cz>
To: <ludek@sorm.cz>
Sent: Friday, October 29, 2004 9:40 AM
Subject: Duplicitni obsah


> Dobry den,
> na vasich domenach je k nalezeni duplicitni obsah.
> Jedna se dotaz typu:
> 'http://<domena>/encyklopedie/objekty1.phtml?id=<cislo>&lng=&menu=' .
> Duplicitni obsah je jedna z forem nevhodneho ovlivnovani vyhledavacu.
> Prosim zajistete sjednoceni obsahu do jedne domeny.
>
> Reseni je nekolik(zakazat adresar v robots.txt krom jedne domeny,
> presmerovat vsechny dotazy na jednu domenu).
>
> Provedene reseni mi prosim napiste do uterniho rana.
>
> Ondrej Prochazka, Jyxo s.r.o.


Dobry den,

nechapu, proc bych mel neco resit...

Podstatou naseho informacniho systemu Domenova koule je datove jadro, k
nemuz lze pristoupit z cele rady logickych adres. Napr. na domene
cyklotrasy.cz se clovek dostane nejprve k cyklotrasam, ale o neco hloubeji
take k informacim o mistech, kudy cyklotrasy prochazeji vcetne vstupenek na
akce v techto mistech konane. Na domene vstupenky.cz se objevi stejne
informace v jine strukture dulezitosti - prioritne se nabizeji vstupenky,
ale o neco nize lze ziskat i informace o cyklotrasach, vedoucich kolem mista
konani akci. Je samozrejme vyhodne, aby clovek zmenil (aktualizoval)
informaci na 1 miste v datovem jadre a aby se mu informace zmenila na vsech
do systemu zapojenych webech. Tech je jiz nekolik tisic nekolika stovek
majitelu. Proc bych je mel nejak omezovat?

S uctou
Ludek Sorm


----- Original Message ----- 
From: "Michal Illich" <michal@illich.cz>
To: <tomas.sobotik@email.cz>; <ludek@sorm.cz>
Cc: <ondra@jyxo.com>
Sent: Friday, October 29, 2004 3:08 PM
Subject: Re: [Fwd: Re: Duplicitni obsah]


> Dobry den,
>
>  > Ten dotaz, jestli tato duplicita neni podvodem, jsem vznesl ja.
Upozornil
>
> no vidite, to jsem si nevsiml (na puvodni dotaz odpovidal admin vasemu
> webmasterovi, nez se to dostalo ke mne)
>
> > (jyxo rad pouzivam), berte to technicky: My chceme mit dostupne
informace
>
> o dostupnost nejde, ten system je pekny a nic proti nemu nemam. Z hlediska
> uzivatelu take funguje dobre a relativne logicky.
> Jediny problem, ze jeden obsah (text) mate na stovce ruznych stranek
(url).
> Tedy typicka masova duplicita. Tim vyhledavacum (vsem) nabizite miliony
> umelych stranek. *Klidne je tak nabizejte uzivatelum*, o to nejde. Jen si
> prosim bud (a) dejte na ostatni domeny krome jedne zakaz v robots.txt (b)
> nebo totez napiste nam, abychom si to zmenili v nastaveni robota.
>
> Hezky den,
>
> Michal Illich
>


Dobry den, vazeny pane Illichu,


> Tedy typicka masova duplicita. Tim vyhledavacum (vsem) nabizite miliony
> umelych stranek.

S tim nesouhlasim - protoze nevim, zda se k vam dostal i dodatek meho
vyjadreni, pripojuji ho v kopii:

"cely system funguje na principu sdileni obsahu velkym poctem ruznych
subjektu, z nichz kazdy si udrzuje informace o sobe a dava je ostatnim k
dipozici a soucasne na sve domene vyuziva informace ostatnich ucastniku
systemu. Napr. mesto Sumperk vlastni domeny www.sumperk.cz a
www.musumperk.cz a je jednim z mnoha ucastniku naseho systemu. Aktivne se
stara o informace ze Sumperska dava je k dispozici ostatnim ucastnikum, mj.
i Informacnimu centru mesta Sumperku www.infosumperk.cz). Timto zpusobem lze
delat i filtry a sumare na urovni ulic, mest, okresu, kraju
(www.olomoucky.kraj.cz), turistickych oblasti (www.jeseniky.tourism.cz),
turistickych regionu atp. az na uroven www.czech.republic.cz nebo
www.oblasti.cz . Informace o Sumperku jsou i na teto celostatni urovni
garantovane mestem Sumperk a naopak na strankach mesta Sumperku lze najit i
mnoho zajimaveho z ostatnich koutu republiky. Pokud si kazdy pres svoje
stranky aktualizuje udaje, jez jsou v jeho kompetenci, mohou se i ostatni
partneri a navstevnici systemu spolehnout na jejich pravdivost a aktualnost.

Kazda informace ma samozrejme unikatni ID, ale lze se na ni podivat pres
obrovske mnozstvi internerovych adres (princip Domenove koule) a v mnoha
grafickych mutacich s ruznymi navigacnimi a vyhledavacimi nastroji (menu).

To neni "duplicitni obsah", ale informacni system se zcela jasnou filozofii
a uzivatelskou logikou. O "nevhodnem ovlivnovani vyhledavacu" nemuze byt
reci. Naopak - skutecnost, ze mnoho samostatnych subjektu (mest, obci,
komercnich i nekomercnich organizaci) se svymi vlastnimi domenami je ochotno
na svych oficialnich strankach zverejnovat take informace svych partneru v
systemu Domenova koule ukazuje spise na kvalitu spolecne budovaneho obsahu."

To nejsou "umele stranky". Tezko bych vysvetlil soucasnemu a stale se
rozsirujicimu mnozstvi cizich (!) subjektu, proc jsem zakazal roboty na
jejich domenach (strankach) - za to, ze mnohe informace sdileji s jinymi
partnery v systemu? A vysvetlovat napr. zminenemu mestu Sumperk, ze se
jejich informace v jyxu najdou pouze pod domenou Muzea Tatra v Koprivnici
(www.tatramuzeum.cz) ??? Nebo na strankach agentury Beskydy-Valassko
(www.beskydy-valassko.cz) ??? Nebo mam vybrat nejakeho ceskeho partnera???

Nebo mam snad dynamicky menit URL tak, aby na ruznych webech melo jinou
strukturu a ruzne hodnoty ID? To je sice resitelne, ale pripada mi to jako
zcela zbytecna a absurdni komplikace. Pokud by nekdo chtel timto zpusobem
zakryt "umelou duplicitu", tezko byste si toho vsimli....

Jsou snad
http://www.regionpoodri.cz/encyklopedie/objekty1.phtml?id=48465
a například
http://www.pernikova-chaloupka.cz/encyklopedie/objekty1.phtml?id=48465
totozne ci duplicitni stranky???

Maji nektere informace shodne, jine nikoliv, odlisnou grafiku, podobne URL.
Nezlobte se, ale pripada mi to jako "umely" problem.



Naopak se domnivam, ze pokud je totozna nebo podobna informace na domenach
vicera vlastniku(!) , pak to neni prosta duplicita, ale svedci to o necem
mnohem cennejsim.

S uctou
Ludek Sorm





----- Original Message ----- 
From: "Michal Illich" <michal@illich.cz>
To: "Ludek Sorm" <ludek@sorm.cz>; <tomas.sobotik@email.cz>
Cc: <ondra@jyxo.com>
Sent: Monday, November 01, 2004 12:05 PM
Subject: Re: [Fwd: Re: Duplicitni obsah]


> Dobry den,
>
> tak uz jen strucne:
>
> > To neni "duplicitni obsah",...
>
> > To nejsou "umele stranky"....
>
> > Jsou snad
> > http://www.regionpoodri.cz/encyklopedie/objekty1.phtml?id=48465
> > a například
> > http://www.pernikova-chaloupka.cz/encyklopedie/objekty1.phtml?id=48465
> > totozne ci duplicitni stranky???
>
> Ano, jsou. Jejich obsah je stejny, pouze design jiny.
> A vyhledavac nezajima design, ale textovy obsah.
>
> Nepochopte mne spatne - mame zajem indexovat vase stranky. ALE POUZE
> JEDNOU. Ne 4000krat jako to mate vy udelane. Proto zatim pozastavime
> indexovani stranek te encyklopedie na vsech domenach, krome jedine.
> Pokud realizujete jine reseni, napiste.
> Pro jasnost: za duplicitu povazujeme to, kdyz na ruznych url je totozny
> nebo velmi podobny textovy obsah.
>
> Hezky den,
>
> Michal Illich, Jyxo


========= KONEC CITATU ===========

Problem, ktery byl v konferenci zminen ma jednoduche vysvetleni:

1) nas Apache mel z dob testovani systemu (abychom poznali chybne URL)
nastaveno, aby v pripade neexistujici stranky presmeroval na www.safari.cz
(aby byla chyba na prvni pohled patrna). Toto nastaveni zustalo bohuzel
zapomenuto a jiz je zmeneno, aby v takovem pripade Apache presmeroval na
hlavni stranu prislusne domeny. Pokud Jyxo (nebo kdokoliv jiny) generoval
odkazy dle ID stranek, mohl mnohokrat nacitat a indexovat www.safari.cz

2) Protoze jyxobot drancoval nase databaze a prilis zatezoval server, nize
pripominana IP adresa 212.71.128.66 je v nasem access.conf jiz cca 14 dnu
docasne zakazana.


3) Prave pan Prochazka z Jyxo dle instrukci M.Illicha nas instruoval,
abychom vsechny dotazy robotu presmerovavali na jednu domenu (napr.
www.safari.cz), coz jsem s vyse citovanym vysvetlenim odmitnul.

Jakakoliv spekulace o podvodu je nesmyslna, a prave z pera pana Illicha je
obzvlast pikantni...


S pozdravem
Ludek Sorm





========== TEXT, NA KTERY REAGUJI ===========


----- Original Message ----- 
From: "Michal Illich, adresa do konferenci" <list@illich.cz>
To: <seo@nawebu.cz>
Sent: Friday, December 03, 2004 11:51 AM
Subject: Re: Vyhledavani "Šumperk" v jyxu


> Dobrý den,
>
> >> Nevite, proc se v jyxu na vyhledani vyrazu Šumperk nezobrazi stranky
> >> www.sumperk.cz Spis je to tedy dotaz na p. Illicha - je snad tato
> >> domena jyxem blokovana?
> >
> >     Ta stránka (a spousta dalších na stejném webhostingu) přesměrují na
> > www. safari .cz , když o ně Jyxobot požádá (prohlížečům to nedělá). Na
> > první pohled to vypadá jako nějaký podvod, ale ještě to prověřujeme
> > důkladně.
>
> tak už to máme ověřené.
>
> Server 193.85.233.66, kde jsou stránky hostované, vrací na jakékoliv
dotazy
> cz Jyxobota odpověď: 302 přesměrováno na http:// www. safari .cz
> (přesný záznam komunikace na konci mailu)
>
> Těch stránek je skutečně hodně:
>
> http://jyxo.cz/s?s=link%3Asafari.cz&d=cz&cnt=100
>
> pokud to dělá ten server bez vědomí a souhlasu majitelů těch stránek,
jedná
> se zřejmě o podvod, kterým daný server ty stránky poškozuje, a sám z toho
> získává nekalou výhodu v podobě uměle vytvořených zpětných odkazů.
> Být majitelem některé ze stránek na tom stroji hostovaných, tak bych
> zvážil, zda s tím serverem (pravděpodobně vlastněném Luďkem Šormem, Kam na
> Pardubicku, s.r.o.) dále spolupracovat, či zda nežádat náhradu škody.
>
> Hezký den,
>
> Michal Illich, Jyxo
>
> ---------------------------------- komunikace z IP 212.71.128.66 telnetem
>
> Server# telnet www.sumperk.cz 80
> Trying 193.85.233.66...
> Connected to db.oz.cz.
> Escape character is '^]'.
> GET / HTTP/1.0
> Host: www.sumperk.cz
>
> HTTP/1.1 302 Found
> Date: Fri, 03 Dec 2004 10:45:46 GMT
> Server: Apache/1.3.26 (Unix) Debian GNU/Linux PHP/4.1.2
> Location: http://www.safari.cz
> Connection: close
> Content-Type: text/html; charset=iso-8859-1
>
> <!DOCTYPE HTML PUBLIC "-//IETF//DTD HTML 2.0//EN">
> <HTML><HEAD>
> <TITLE>302 Found</TITLE>
> </HEAD><BODY>
> <H1>Found</H1>
> The document has moved here.<P>
> </BODY></HTML>
> Connection closed by foreign host.
>
>
> --------------------------------- komunikace z IP 212.71.128.66 přes HEAD
>
> Server# HEAD -S http://www.sumperk.cz/
> HEAD http://www.sumperk.cz/ --> 302 Found
> HEAD http://www.safari.cz --> 302 Found
> Connection: close
> Date: Fri, 03 Dec 2004 10:12:17 GMT
> Location: http://www.safari.cz
> Server: Apache/1.3.26 (Unix) Debian GNU/Linux PHP/4.1.2
> Content-Type: text/html; charset=iso-8859-1
> Client-Date: Fri, 03 Dec 2004 10:12:25 GMT
> Client-Response-Num: 1
> Client-Warning: Redirect loop detected
>
>
>
>
>
> ======================================================== reklama ===
> POSITION TRACKER
> Jednoduchy a ucinny nastroj pro prubezne sledovani umisteni vasich
> webu na zadana klicova slova ve svetovych i ceskych vyhledavacich.
> http://www.dobryweb.cz/position-tracker/
> =====================================================================
>
> Archiv konference, navod k odhlaseni/prihlaseni: http://seo.nawebu.cz/
> Pravidla konference: http://seo.nawebu.cz/pravidla.html
Received on Fri, 3 Dec 2004 19:27:50 +0100

This archive was generated by hypermail 2.1.8 : 03. 12. 2004, 19:25 CET