Kas yra XML sitemap ir kodėl jis svarbus
XML sitemap – tai failas, kuriame surašyti visi svarbūs jūsų svetainės URL adresai. Paprasta struktūra, bet labai svarbus įrankis, kai kalbame apie tai, kaip paieškos varikliai „mato” jūsų svetainę. Google, Bing ir kiti robotai nuolat šliaužioja po internetą, bet tai nereiškia, kad jie automatiškai ras kiekvieną jūsų puslapį. Čia ir atsiranda sitemap – jis tarsi duoda robotui žemėlapį su nurodymais, kur eiti.
Daug žmonių mano, kad jei svetainė gerai susieta vidinėmis nuorodomis, sitemap nereikalingas. Iš dalies tiesa – mažoms svetainėms su aiškia struktūra robotas tikrai gali viską surasti pats. Bet kai turite šimtus ar tūkstančius puslapių, kai kurie puslapiai neturi vidinių nuorodų, arba kai svetainė neseniai paleista ir dar nėra daug išorinių nuorodų – sitemap tampa tikrai vertingu įrankiu.
Svarbu suprasti vieną dalyką: sitemap negarantuoja, kad visi puslapiai bus indeksuoti. Google aiškiai sako, kad sitemap yra patarimas, o ne įsakymas. Robotas vis tiek pats sprendžia, ką indeksuoti ir ką ne. Bet bent jau žinote, kad informacija buvo pateikta – toliau jau Google reikalas.
XML sitemap struktūra – kaip tai atrodo iš vidaus
Prieš kuriant sitemap, verta suprasti, kaip jis atrodo techniškai. Tai paprastas XML failas su tam tikra struktūra. Štai minimalus pavyzdys:
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://example.com/puslapis/</loc>
<lastmod>2024-01-15</lastmod>
<changefreq>monthly</changefreq>
<priority>0.8</priority>
</url>
</urlset>Kiekvienas elementas turi savo reikšmę:
- <loc> – privalomas elementas, nurodo pilną URL adresą su protokolu (https://)
- <lastmod> – kada paskutinį kartą puslapis buvo keistas, formatas W3C Datetime (YYYY-MM-DD)
- <changefreq> – kaip dažnai puslapis keičiamas (always, hourly, daily, weekly, monthly, yearly, never)
- <priority> – puslapio svarba nuo 0.0 iki 1.0, numatytoji reikšmė 0.5
Reikia žinoti, kad changefreq ir priority Google iš esmės ignoruoja arba labai mažai į juos atsižvelgia. Tai nereiškia, kad reikia juos ištrinti – tiesiog nesitikėkite stebuklų vien dėl to, kad nustatėte priority="1.0" visiems puslapiams. Beje, tai dažna klaida – kai visi puslapiai turi maksimalų prioritetą, tai tas pats, kaip jokio prioriteto nebūtų.
Viename sitemap faile gali būti iki 50 000 URL adresų, o pats failas negali viršyti 50 MB nesuspaustame formate. Jei svetainė didelė – naudojamas sitemap indeksas, apie kurį kalbėsime vėliau.
Kaip sukurti XML sitemap – nuo rankinio iki automatinio
Yra keletas būdų sukurti sitemap, ir pasirinkimas priklauso nuo to, kokioje platformoje veikia jūsų svetainė ir kiek techninių žinių turite.
WordPress naudotojams gyvenimas paprastas – įskiepiai kaip Yoast SEO, Rank Math arba All in One SEO automatiškai generuoja sitemap ir jį atnaujina kiekvieną kartą, kai pridedamas ar keičiamas turinys. Yoast SEO sukuria sitemap adresu yourdomain.com/sitemap_index.xml, o Rank Math – yourdomain.com/sitemap.xml. Jei naudojate WordPress, tiesiog įdiekite vieną iš šių įskiepių ir daugiau galvoti nereikia.
Statinėms svetainėms arba custom sprendimams galite naudoti online įrankius kaip XML-Sitemaps.com arba Screaming Frog SEO Spider. Screaming Frog yra ypač galingas – jis nuskaito visą svetainę ir generuoja sitemap su tiksliais duomenimis. Nemokama versija leidžia nuskaityti iki 500 URL.
Programuotojams, kurie kuria svetainę nuo nulio, rekomenduočiau generuoti sitemap dinamiškai iš duomenų bazės. Pavyzdžiui, PHP:
<?php
header('Content-Type: application/xml; charset=utf-8');
echo '<?xml version="1.0" encoding="UTF-8"?>';
echo '<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">';
$puslapiai = gauti_puslapius_is_db(); // jūsų funkcija
foreach ($puslapiai as $puslapis) {
echo '<url>';
echo '<loc>' . htmlspecialchars($puslapis['url']) . '</loc>';
echo '<lastmod>' . date('Y-m-d', strtotime($puslapis['atnaujinta'])) . '</lastmod>';
echo '</url>';
}
echo '</urlset>';
?>Tokiu būdu sitemap visada bus atnaujintas ir atspindės realią svetainės būklę.
Sitemap indeksas didelėms svetainėms
Jei turite e-komercijos svetainę su tūkstančiais produktų, naujienų portalą su metų archyvais arba bet kokią kitą didelę svetainę – vienas sitemap failas greičiausiai neužteks. Čia ateina sitemap indeksas.
Sitemap indeksas yra failas, kuris nurodo į kitus sitemap failus. Struktūra labai panaši:
<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<sitemap>
<loc>https://example.com/sitemap-puslapiai.xml</loc>
<lastmod>2024-01-15</lastmod>
</sitemap>
<sitemap>
<loc>https://example.com/sitemap-produktai.xml</loc>
<lastmod>2024-01-15</lastmod>
</sitemap>
<sitemap>
<loc>https://example.com/sitemap-blogas.xml</loc>
<lastmod>2024-01-15</lastmod>
</sitemap>
</sitemapindex>Gera praktika – skaidyti sitemap pagal turinio tipą. Tai leidžia lengviau stebėti, kuris turinio tipas indeksuojamas geriau, ir greitai identifikuoti problemas. Google Search Console rodys statistiką atskirai kiekvienam sitemap failui.
Dar vienas patarimas didelėms svetainėms: nenaudokite datos parametrų URL adresuose sitemap failo pavadinime (pvz., sitemap-2024-01.xml). Geriau turėti nuolatinius pavadinimus ir tiesiog atnaujinti turinį – taip nereikės kiekvieną mėnesį iš naujo teikti naujų sitemap adresų.
Ko neįtraukti į sitemap
Sitemap kokybė svarbesnė už kiekį. Daug žmonių daro klaidą – įtraukia viską, ką tik gali, manydami, kad tai padės. Iš tikrųjų tai gali pakenkti, nes Google mato, kad teikiate žemos kokybės arba neindeksuotinus puslapius, ir tai gali paveikti bendrą sitemap patikimumą.
Į sitemap nereikėtų įtraukti:
- Puslapių su noindex žyme – jei puslapyje yra
<meta name="robots" content="noindex">, tai prieštaravimas: viena ranka sakote „neindeksuok”, kita – „štai šis puslapis”. Google paprastai paklaus noindex direktyvos, bet tai sukuria painiavą. - Puslapių su 301 nukreipimais – sitemap turėtų rodyti tik galutinius URL adresus, ne tuos, kurie nukreipia kitur.
- Puslapių su 404 ar kitomis klaidomis – prieš generuodami sitemap, patikrinkite, ar visi URL veikia.
- Filtruotų ar rūšiuotų puslapių – e-komercijoje dažna problema, kai URL su parametrais kaip
?sort=price&color=redpatenka į sitemap. Tai sukuria tūkstančius bevertių URL. - Puslapių, blokuojamų robots.txt – vėlgi prieštaravimas, kuris tik sukelia painiavą.
- Sesijų ID ar kitų dinaminių parametrų – jei URL keičiasi kiekvienam lankytojui, jis neturi vietos sitemap.
Praktinis patarimas: prieš galutinai generuodami sitemap, paleiskite visus URL per kokį nors tikrinimo įrankį (Screaming Frog, Ahrefs, SEMrush) ir pašalinkite viską, kas grąžina ne 200 statusą arba turi noindex žymę.
Sitemap teikimas Google ir Bing
Sukūrėte sitemap – puiku. Dabar reikia apie jį pranešti paieškos varikliams. Yra keli būdai tai padaryti.
Google Search Console – pagrindinis ir rekomenduojamas būdas. Prisijunkite prie Search Console, pasirinkite savo svetainę, eikite į „Sitemaps” sekciją ir įveskite sitemap URL. Google parodys, kiek URL buvo pateikta ir kiek iš jų indeksuota. Ši statistika labai naudinga – jei pateikėte 500 URL, bet indeksuota tik 50, tai signalas, kad kažkas negerai.
Bing Webmaster Tools – analogiškas procesas. Bing naudoja mažesnę rinkos dalį, bet vis tiek verta pateikti, ypač jei tikslinė auditorija naudoja Windows įrenginius (Bing integruotas kaip numatytoji paieška).
robots.txt failas – paprastas ir efektyvus būdas. Pridėkite eilutę:
Sitemap: https://yourdomain.com/sitemap.xmlTai leidžia bet kuriam paieškos varikliui, kuris skaito robots.txt, automatiškai rasti sitemap. Rekomenduoju naudoti abu metodus – ir Search Console, ir robots.txt.
HTTP ping metodas – techniškai galima „pinginti” Google ir Bing, siunčiant GET užklausą specialiu URL. Tačiau Google 2023 metais pranešė, kad nebepalaikys ping metodo. Bing vis dar palaiko. Bet kuriuo atveju, Search Console yra patikimesnis ir informatyvesnis būdas.
Svarbu: sitemap teikimas – ne vienkartinis veiksmas. Kiekvieną kartą, kai svetainė reikšmingai pasikeičia (pridedami nauji puslapiai, keičiama struktūra), verta atnaujinti sitemap. Jei naudojate automatinį generavimą, tai vyksta savaime. Jei rankinį – nustatykite sau priminimą.
Specialūs sitemap tipai – vaizdai, video, naujienos
Standartinis sitemap skirtas HTML puslapiams, bet yra ir specializuotų variantų, kurie gali padėti specifiniais atvejais.
Vaizdų sitemap leidžia nurodyti papildomą informaciją apie paveikslėlius – pavadinimą, aprašymą, licenciją. Tai ypač naudinga fotografams, e-komercijos svetainėms ar bet kam, kam svarbi Google Images paieška:
<url>
<loc>https://example.com/produktas/</loc>
<image:image>
<image:loc>https://example.com/img/produktas.jpg</image:loc>
<image:title>Produkto pavadinimas</image:title>
<image:caption>Produkto aprašymas</image:caption>
</image:image>
</url>Video sitemap – jei svetainėje talpinate video turinį, šis sitemap tipas padeda Google suprasti video kontekstą: trukmę, aprašymą, miniatiūrą. Tai gali padėti patekti į Google video paieškos rezultatus.
Naujienų sitemap – skirtas naujienų leidėjams, norintiems patekti į Google News. Čia yra specifiniai reikalavimai: sitemap turi būti atnaujinamas realiuoju laiku, galima įtraukti tik per paskutines 48 valandas publikuotus straipsnius, ir reikia nurodyti leidinio pavadinimą bei kalbą. Jei esate naujienų portalas ir dar nenaudojate šio tipo sitemap – verta rimtai apsvarstyti.
hreflang sitemap – daugiakalbėms svetainėms. Vietoj to, kad hreflang žymes dėtumėte kiekvieno puslapio HTML kode, galite jas centralizuoti sitemap faile. Tai lengviau valdyti, ypač kai turite daug kalbų ir puslapių.
Sitemap stebėjimas ir dažniausios problemos – ką daryti, kai kažkas negerai
Sitemap sukūrimas ir pateikimas – tik pusė darbo. Reikia ir stebėti, kaip viskas veikia. Google Search Console yra geriausias įrankis tam – reguliariai tikrinkite „Sitemaps” sekciją ir atkreipkite dėmesį į šiuos rodiklius:
Pateikta vs indeksuota – jei skirtumas didelis, tai signalas. Galimos priežastys: turinys žemos kokybės, puslapiai labai panašūs vienas į kitą (duplicate content), puslapiai neturi vidinių nuorodų, arba svetainė per nauja ir Google dar nespėjo visko apdoroti. Nereikia panikuoti dėl nedidelio skirtumo – Google niekada neindeksuoja 100% pateiktų URL.
Klaidos sitemap faile – Search Console praneš, jei sitemap nepavyko nuskaityti. Dažniausios priežastys: neteisingas XML formatas, serverio klaidos (500), arba sitemap blokuojamas robots.txt. Patikrinkite sitemap validatoriais – Google turi savo, taip pat yra xml-sitemaps.com/validate-xml-sitemap.html.
Pasenę URL – jei sitemap yra URL, kurie jau seniai ištrinti ar pakeisti, tai nėra kritiška problema, bet verta tvarkyti. Reguliariai (bent kartą per ketvirtį) peržiūrėkite sitemap ir pašalinkite nebeegzistuojančius puslapius.
Viena dažnesnių problemų – sitemap generuojamas su www ir be www versijomis, arba su http ir https. Įsitikinkite, kad sitemap naudoja tą patį URL formatą, kurį nurodėte kaip pagrindinį domeną Search Console. Jei svetainė veikia su https://www.example.com, visi sitemap URL turi būti tokio paties formato.
Kita problema – per dažnas sitemap atnaujinimas. Jei sitemap generuojamas kiekvieną minutę, tai gali sukelti papildomą serverio apkrovą ir Google gali pradėti ignoruoti tokius dažnus atnaujinimus. Daugumoje atvejų pakanka atnaujinti sitemap kiekvieną kartą, kai pasikeičia turinys, arba bent kartą per dieną.
Galiausiai – sitemap nėra stebuklingas SEO sprendimas. Jis padeda paieškos varikliams geriau suprasti jūsų svetainės struktūrą, bet nekompensuoja prasto turinio, lėto puslapių greičio ar silpno nuorodų profilio. Laikykite sitemap kaip vieną iš techninės SEO optimizacijos dalių – svarbią, bet ne vienintelę. Kai viskas sudėliota teisingai: geras turinys, greita svetainė, aiški struktūra, ir tinkamai sukonfigūruotas sitemap – tada galite tikėtis gerų rezultatų.






