Većina portala/sajtova pored produkcijske verzije iz opravdanih razloga nema testno i razvojno okruženje, već sav razvoj se radi na „živo“. Ovakva organizacija usled male nepažnje ume da unese poprilično nezahvalnu komunikaciju sa Google spajderima koji sa nestrpljenjem čekaju da u realnom vremenu pokupe svaki novi bit i čim pre plasiraju najsvežiju informaciju sa tržišta.

Da bi optimalno koristili resurse (crawl budget) koji imamo kod čika Gugla kad je u pitanju indeksiranje/reindeksiranje dela ili celog sajta, evo nekoliko bitnih stvari koje možda znate, ali nije na odmet da se još jednom utvrde. Ponavljanje je majka znanja, a kroz komentare možemo da ih i dodatno prodiskutujemo ukoliko postoji kakva god dilema usled drugačije iskustvene činjenice.
1. robots.txt datoteka
Prvo ono što spajderi (pauci ili robotizovane skripte, botovi, sinonima ima na pretek) urade kad dođu na novi/stari sajt je poseta robots.txt datoteci. Ovde se informišu da li su dobrodošli i da li postoji neki folder koji ne bi trebalo da se indeksira. Na primer ako postoji neki tekući projekat koji je krenuo sa radom i još uvek nije gotov, onda eksplicitno u robots.txt datoteci treba zabraniti pristup istom pre samog početka projekta. Sve ovo važi i za testno i razvojno okruženje. Guglove skripte nikako ne bi trebalo da vršljaju ni po čemu drugom osim po produkcijskim informacijama.
Problem nastaje kada Google indeksira na primer testno ili razvojno okruženje, a programer tek naknadno postavi zabranu u robots.txt datoteci. Zabrana u robots.txt datoteci ne doprinosi deindeksiranju URL-ova koji su pobrojani u disallow strukturi, več samo zabranu daljeg ažuriranja istih.
Pre nego analiziram situaciju kako deindeksirati ono čemu nije mesto na SERP-u (tačka 3 u ovom članku), spomenuću koji je sledeći korak koji Bot preduzima u mirnodopskim aktivnostima.
2. XML mapa/mape sajta
Nakon što je Google pauk utvrdio svoja ovlašćenja iz robots datoteke, on i dalje ne pristupa vašem sajtu, nego učitava XML mapu/mape sajta i proverava šta se u njoj dešava novo. Za kreiranje XML mape postoje različiti alati, tj. postoji više standarda za XML mapu, a evo koji ja koristim https://www.seoexpert.rs/sitemap.xml i još jednu kompleksnu strukturu za blog.
Pored datuma poslednjeg ažuriranja ubacujem podatak o prioritetu tog URL-a na celom sajtu, kao i moju preporuku čika Guglu koliko često da ažurira taj URL. Podsećam vas da lokaciju XML mape povezujete sa Guglom kroz Webmaster Tools (WT). Prioritet posmatranog URL-a u XML mapi proizilazi iz vaše SEO strategije. Prioritet nekog URL-a definiše pozicija tog URL-a u celoj arhitekturi sajta, kao i količina internih, izlaznih i dolaznih linkova na i ka njemu + relevantnost iz ugla aktivnosti posetioca. Kad god nešto krupno radite na sajtu, refrešajte XML mape iz Webmaster Toolsa radi što bržeg reindeksiranja. Uvek sačekajte da pregledate i korigujte eventualne greške/sugestije tokom procesa obrade podataka iz mape.
Ukoliko ne postoje robots i XML fajlovi ili postoje a nisu tačni Google/Bing sami planiraju svoju agendu indeksiranja. Ako govorimo o SEO optimizaciji upravo je ideja da optimizujemo serversku snagu koju nam Google stavlja na raspolaganje i najefikasnije i najbrže usmerimo botove tamo gde im je mesto, tj. implementirajte ove funkcionalnosti ako već niste.
3. A šta da radim kad je indeksirano ono što ne želim da bude indeksirano
U praksi često se dešava da Google indeksira i plasira na rezultatima pretrage URL-ove koje prosto ne želimo da ih iko vidi. Na primer, stranica proizvoda koja odavno ne postoji u prodaji, grupa URL-ova koji su još uvek u izradi, nekompletna migracija sa jednog na drugi CMS, razne faze redizajna, razvoja i tako dalje. Kretivnost slučajeva ne manjka.
Osnovni principi najbolje prakse pobrojaću ispod, a vi se prilagodite situaciji koja najpribližnije oslikava vašu,
– URL-ovi koje treba deindeksirati imaju ka sebi SEO linkove od spolja. Ovo je obično slučaj sa ne više od dvadesetak URL-ova i onda se radi 301 redirekcija na novi korespodentni URL ili pak na naslovnu, pa nek se SEO prirodno preraspoređuje. Izuzetak može postojati ukoliko je takav URL penalizovan od strane Pingvin filtra usled agresivnog link buildinga, što potražuje mnogo širu analizu koju sada preskačem. Ukoliko želite privremeno preusmeravanje koristite 302 redirekciju.
– URL-ovi nemaju ka sebi dolazne linkove i ima ih više od 100. Teorija/praksa kaže da je najbolje da ih ostavimo u 404 statusu, i čim ih Google reindeksira on će ih deindeksirati iz svog search-a, tj. više ih ni ne razmatra. Google voli 404. Postoji i 410 status, to je trajno deindeksiranje i jedina razlika u odnosu na 404 je što 410 traži mnogo više vremena ako iz nekog razloga odlučite da opet oživite taj URL.
– Ako nepoželjnih URL-ova nema više od 100 može se koristiti po jedan meta tag u head-u HTML-a, <meta name=“robots“ content=“noindex, follow“> koji govori pretraživačima da ne listaju taj URL na SERP-u, ali da sa njega uključe u razmatranje linkove. Neki SEO’i recimo kategorije u okviru WordPress-a stavljanju u <meta name=“robots“ content=“noindex, follow“> što ja ne bih preporučio. Ako kategorije birate kao tematske celine, a još su polinkane anchor tekstovima u horizontalnom meniju, nema potrebe rasipati SEO. Na primer za kategoriju „Mistična mesta“ ili „Turska putopisi“, na TT Group portalu nalazim se na prvom, drugom mestu na Guglu.
Mislim da su defoltne postavke na SEO WP plaginovima podešene da kategorije bude (Noindex, follow) i to obavezno proverite. Sa ovim nemojte da se igrate ako u potpunosti niste sigurni šta radite. Zaključak je da 301/404 ne troši, a <meta name=“robots“ content=“noindex, follow“> itekako troši crawl budžet.
– Canonical meta tag. Ukoliko ne koristite responsive verziju, već posebnu verziju za mobilne uređaje onda je odavno trebalo da imate i ovaj tag u izvedenoj verziji. Tj, da URL sa istom informacijom na strani za desktop i URL sa istom informacijom za mobilni uređaj od strane Gugla ne bi bio doživljavan kao duplicirani sadržaj treba da se koristi canonical meta tag.
Ako imate responsive web sajt, dobra praksa je da svaki URL bude canonical na samog sebe, da ako se dese neki svičevi po URL-u ne bude nikakvih nerazumevanja za botove. Princip je da uvek nedvosmisleno kažešte Guglu šta smerate i da mu ne dajete prostora da on izražava svoju kreativnost 😉 Većina aktuelnih WordPress platformi je responsive i canonical meta tag je implementiran za sve svičeve koji se kaleme na defoltni URL.
Pogledajte ovaj video klip koji demistifikuje mitove o 301, 201 i canonical direktivama:
Ovde treba spomenuti samo sledeći izuzetak. Ukoliko imate neki custom CMS i landing stranu sa varijacijama, tipa „plava pamučna majca sa kragnom“, ne treba kreirati za svaku boju još po jednu nego sa canonical tagom iskonfigurisati ostale u odnosu na defoltnu. Drugim rečima i da postoje više različitih URL-ova koji se razlikuju samo po jednom pridevu, u Google indeksu treba da bude samo jedan URL. Sve ostalo bi na neki način vodilo ka kanibalizaciji koju u eri semantičke pretrage gledajte da je zaobiđete u što širem luku.
4. Paginacija i iskustva kako je implementirati
– Paginacija, na primer 1 | 2 | 3| 4 … za slučaj da u arhitekturi sajta imate paginaciju na kategorijama ili tagovima, tj. ako kategorija vesti posle dvadeset članaka prelazi na stranu 2, pa posle narednih dvadeset na stranu 3 i tako dalje. Jedno od fensi rešenja je beskonačni skrol i iz SEO ugla to je skroz ok rešenje. Ako imate beskonačni skrol stavite canonical tag na sam URL i ne morate da se brinete više ni oko čega. Title je uvek jedan, description je uvek jedan, sve je index, follow sa napomenom da Gugl vidi na kategoriji samo prvi kontigent članaka (u našem primeru 20 vesti koje su na vrhu).
Ali ako ste tradicionalista imate dve varijante:
a. Paginacija 1 | 2 | 3| 4 koja pored nav-previous (rel=“prev“) i nav-next (rel=“next“) mora da unosti dodatnu informaciju u Title i Desc tipa strana 2, strana 3 i tako redom. Sadržaji na svim stranama su unikatni (nema kanibalizacija) i mirni ste iz SEO ugla. Ovo ima smisla ako neko baš pretražuje sa Gugla vaše kategorije, pa da mu se nude više rezultata, ali obično to nije slučaj pa se pristupa sledećem sve zastupljenijem rešenju.
b. Paginacija ima i dalje nav-previous (rel=“prev“) i nav-next (rel=“next“). U head-u HTML-a definisan je naravno canonical meta tag svakog URL-a na samog sebe i ono što je novo je sledeće.
Svi URL-ovi osim strane 1 imaju <meta name=“robots“ content=“noindex,follow“/> ovo znači da će Gugl preračunati SEO sa svih paginacijama, ali prosto neće nuditi stranu 2, 3 i dalje na pretrazi, jer je pretpostavka da na sve diferenciranijem i konkurentnijem webu je teško da na SERP-u jedan sajt bude listan sa više URL-ova iz iste paginacije (pripadaju istoj kategoriji). Title i desc na svim stranama mogu biti isti jer noindex tag eliminiše dupliciranost.
Umesto zaključka
Da bi optimalno trošili crawl budžet da li su vam kristalno jasni pojmovi i funkcionalnosti: rotots.txt datoteke i disavow entiteta u njoj, XML mape sajta, 301, 302, 404 i 410 statusa, canonical i <meta name=“robots“ content=“noindex, follow“> meta tagova. Ako nešto nije jasno proguglajte malo dodatne literature i onda sa svim ovim funkcionalnostima kombinujte slučaj koji rešava vaš problem.
Odavno sam planirao da ovo ispričam na blogu, a ubrzao me Rand Fishkin (inače smo generacija ’79. godine) svojim poslednjim videom 17. 07. u kategoriji White Board Friday.
Preslušajte/pregledajte sada sve ovo i u njegovoj interpretaciji:
Edit (25. avgust):
Pogledajte još jedan video klip u kome Jon Miler, glavni analitičar u Guglu komentariše celokupnu problematiku o kojoj smo pričali. Idealno za početnike.
Odličan tekst !
Kao sto sam mogao da primetim ti koristis dva plugin-a za sitemap, google XML i SEO by Yoast Sitemap, da li si siguran da je dobro koristiti oba plugin-a za istu stvar?
Ne, za statički deo sajta koristim XML mapu koju manuelno updejtam nakon ažuriranja, ima samo 8 URL-a ako se ne varam. A za Blog koristim „XML-sitemap“ i „All in One SEO“ plug in. Ova kombinacija je ok 🙂
Visitor Rating: 5 Stars