Crawl Budget
Crawl Budget je termín, který se používá v oblasti SEO a označuje množství času a prostředků, které vyhledávače (zejména Googlebot) alokují na procházení a indexování konkrétního webu. Tento proces je důležitý pro správné a efektivní indexování všech důležitých stránek na webu, protože každá stránka, kterou vyhledávač prochází, musí být zpracována a indexována, aby se objevila ve výsledcích vyhledávání. Crawl budget tedy určuje, kolik stránek vyhledávač navštíví během svého pravidelného procházení webu a jak rychle se tento proces uskuteční.
Vyhledávače, jako je Google, mají omezené množství prostředků, které mohou alokovat pro procházení webových stránek. Tento limit, známý jako crawl budget, je určen na základě dvou hlavních faktorů:
- Maximální frekvence procházení – Kolik stránek může vyhledávač procházet za určité časové období (například za den nebo týden). Tento faktor závisí na kapacitách serveru a rychlosti připojení k internetu.
- Prioritizace stránek – Které stránky jsou pro vyhledávače důležitější a měly by být indexovány častěji, a které by měly být procházeny méně často nebo vůbec. Google používá různé metody pro stanovení priority, včetně počtu zpětných odkazů (backlinků), autority domény a struktury webu.
Správné řízení crawl budgetu je klíčové pro SEO, protože weby s velkým množstvím stránek mohou čelit problémům s indexováním, pokud není crawl budget efektivně využíván. Pokud má web například tisíce stránek, ale pouze omezený crawl budget, vyhledávače mohou zmeškat některé stránky, což může negativně ovlivnit jejich viditelnost ve výsledcích vyhledávání.
Existuje několik způsobů, jak optimalizovat crawl budget a zajistit, aby vyhledávače procházely a indexovaly ty nejdůležitější stránky na webu:
- Optimalizace interního propojování – Stránky, které mají více interních odkazů, mají větší pravděpodobnost, že budou procházeny častěji. Zajištění, že důležité stránky jsou dobře propojené a snadno přístupné z jiných stránek na webu, může pomoci optimalizovat crawl budget.
- Odstranění nebo zablokování nežádoucího obsahu – Stránky s duplikovaným nebo nekvalitním obsahem, které vyhledávačům nepřinášejí žádnou hodnotu, by měly být zablokovány nebo odstraněny. To zahrnuje například stránky s prázdným obsahem, stránky s nízkou hodnotou pro uživatele nebo s parametry, které způsobují duplicitu obsahu.
- Využití souboru robots.txt – Tento soubor může být použit k zablokování vyhledávačům přístup k některým částem webu, které nejsou pro SEO důležité. Tímto způsobem můžete šetřit crawl budget tím, že vyhledávače nebudou procházet stránkami, které nemají žádný vliv na SEO.
- Rychlost načítání stránky – Weby, které se načítají pomalu, mohou mít snížený crawl budget, protože vyhledávače se budou snažit procházet stránky co nejrychleji. Optimalizace rychlosti webu a zajištění, že stránky se načítají rychle, může pomoci maximalizovat využití crawl budgetu.
- Optimalizace struktury URL – Weby s dobře strukturovanými URL, které jsou snadno čitelné a relevantní pro obsah stránky, pomáhají vyhledávačům efektivněji procházet a indexovat stránky. Čisté a přehledné URL také přispívají k lepšímu pochopení stránky vyhledávači, což zlepšuje její hodnocení.
Crawl budget může být ovlivněn různými faktory, jako jsou technické problémy na webu (například špatné nastavení serveru nebo chyby v souboru robots.txt), nebo problémy s přetížením serveru (například při vysokém počtu souběžných požadavků od vyhledávačů). Proto je důležité mít dobře nastavený server, který dokáže zvládat požadavky vyhledávačů, a zajistit, že všechny stránky, které mají být indexovány, budou procházeny bez problémů.
Pokud je crawl budget správně řízen, vyhledávače mohou efektivně procházet a indexovat všechny důležité stránky, což zlepšuje viditelnost webu ve výsledcích vyhledávání a zajišťuje, že všechny stránky s kvalitním obsahem mají možnost dosáhnout dobrého umístění v SERP (Search Engine Results Page). Optimální využití crawl budgetu je zásadní pro velké weby a e-shopy s tisíci stránkami, kde každá stránka může mít jinou hodnotu pro SEO a pro různé segmenty uživatelů.
Správné nastavení a využívání crawl budgetu také pomáhá vyhledávačům vyhnout se procházení zbytečných nebo nezajímavých stránek, což šetří čas a prostředky. Tento přístup je obzvláště důležitý pro e-shopy, magazíny a jiné rozsáhlé weby, které mají velký objem obsahu a musí se soustředit na indexaci nejrelevantnějších stránek, které přinášejí hodnotu pro uživatele.
1. Jak zjistím, jaký crawl budget má můj web aktuálně přidělený od Google?
Crawl budget jako konkrétní číselná hodnota není veřejně dostupný údaj, který by Google přímo zobrazoval. Nicméně lze ho částečně odhadnout pomocí nástroje Google Search Console v sekci Nastavení → Statistika procházení. Tam najdeš grafy a statistiky, které ukazují počet procházených stránek za den, průměrnou velikost stažené stránky nebo čas strávený stažením stránky. To vše napovídá o přiděleném crawl budgetu. Pro podrobnější analýzu lze využít logy serveru nebo pokročilé SEO nástroje (např. Screaming Frog, JetOctopus, Log File Analyzer).
2. Jak poznám, že mám problém s crawl budgetem? Existují nějaké signály nebo nástroje?
Problémy s crawl budgetem se často projeví tím, že důležité stránky nejsou indexovány, nebo se objevují zpoždění v indexaci nového obsahu. V Google Search Console můžeš v sekci Pokrytí indexu zkontrolovat, kolik stránek je platných, vyloučených nebo obsahuje chyby. Dále sleduj metriky jako „Stránky objevené, ale dosud neprocházené“ nebo „Procházení odepřeno“. Pokud máš velký web a mnoho stránek s nízkou hodnotou, můžeš vyčerpávat crawl budget zbytečně.
3. Má velikost webu (počet URL) přímý vliv na výši crawl budgetu?
Ano, ale ne vždy pozitivní. Google přiděluje crawl budget částečně na základě autority a důvěryhodnosti webu, ale také podle jeho technického stavu. U velkých webů s tisíci URL je důležité mít optimalizovanou strukturu a nezatěžovat crawlery zbytečnými stránkami (např. duplicity, filtrování, kombinace parametrů). Pokud má velký web špatně nastavenou strukturu nebo obsahuje mnoho málo hodnotných stránek, může dojít k tomu, že důležité části webu zůstanou neprocházené. Crawl budget se totiž nerozšiřuje automaticky s velikostí webu.
4. Jak se liší crawl budget pro nové weby vs. zavedené autoritativní domény?
Nové weby mají zpravidla velmi omezený crawl budget, protože Google je zatím nezná a nemá jistotu, zda stojí za to investovat prostředky na jejich procházení. Naopak zavedené weby s vysokou autoritou (mnoho kvalitních zpětných odkazů, dlouhá historie, pravidelná aktualizace obsahu) mají obvykle vyšší crawl budget. To znamená, že Google je navštěvuje častěji a rychleji indexuje jejich nový nebo aktualizovaný obsah. U nových webů je proto klíčové budovat autoritu postupně a nepřetěžovat web tisíci podstránkami hned od začátku.
5. Lze crawl budget „zvýšit“ a pokud ano, jakými kroky?
Přímo crawl budget zvýšit nelze, ale můžeš udělat řadu kroků, které povedou k jeho efektivnějšímu využití a případně k vyššímu přidělenému limitu v budoucnu. Mezi nejdůležitější patří:
- Zvýšení autority domény – více kvalitních zpětných odkazů a důvěryhodný obsah vedou k častějšímu procházení webu.
- Rychlost webu – čím rychleji se stránky načítají, tím více jich Googlebot zvládne projít během jedné návštěvy.
- Odstranění zbytečných nebo duplicitních URL – snížení počtu nepotřebných stránek zlepší efektivitu procházení.
- Optimalizovaná struktura webu – čistá a logická hierarchie usnadní botům orientaci a urychlí indexaci.
Dlouhodobě pomáhá kvalitní a pravidelně aktualizovaný obsah, který ukazuje Googlu, že tvůj web stojí za pozornost.
6. Jak často Google přehodnocuje crawl budget daného webu?
Google přehodnocuje crawl budget průběžně, na základě signálů z webu i mimo něj. Neexistuje přesný časový rámec, ale při významných změnách na webu (např. redesign, přechod na HTTPS, odstranění velkého množství stránek) může dojít k rychlejší úpravě frekvence procházení. Vliv mají také:
- rychlost odpovědi serveru,
- frekvence aktualizace obsahu,
- počet chybových stránek (např. 404, 500),
- získání nebo ztráta zpětných odkazů.
Google se snaží nastavit crawl budget co nejefektivněji pro daný web, a to i dynamicky podle jeho vývoje.
7. Má HTTP vs. HTTPS nebo přítomnost chybných kódů (např. 404, 500) vliv na crawl budget?
Ano, má. Přechod z HTTP na HTTPS je doporučený a většinou vede ke zlepšení důvěryhodnosti a bezpečnosti, což může mít pozitivní vliv na celkový přístup Googlebota. Naopak chyby jako 404 (nenalezeno) nebo 500 (chyba serveru) mohou negativně ovlivnit crawl budget. Pokud crawler často naráží na chyby, může Google snížit frekvenci procházení, aby neplýtval svými prostředky. Proto je důležité pravidelně kontrolovat chybové URL a opravovat nebo přesměrovávat je pomocí 301.
8. Jaký je vztah mezi sitemap.xml a crawl budgetem? Může špatná sitemap negativně ovlivnit procházení?
Sitemap.xml slouží jako doporučení pro vyhledávače, které stránky by měly být procházeny a indexovány. Dobře strukturovaná a aktuální sitemap může pomoct lépe využít crawl budget tím, že ukáže Googlebotu, které URL jsou důležité. Pokud je však sitemap:
- příliš velká a obsahuje zbytečné nebo duplicitní stránky,
- obsahuje neexistující URL nebo odkazy vedoucí na chyby,
- neodpovídá realitě webu,
může dojít ke zbytečnému plýtvání crawl budgetem. Proto je klíčové sitemap pravidelně aktualizovat, validovat a udržovat přehlednou a relevantní.
9. Může příliš častá změna obsahu na webu vyvolat nadměrné procházení a tím vyčerpání crawl budgetu?
Ano, pokud na webu dochází k neustálým změnám (např. dynamické generování URL, časté přidávání nových stránek bez kontroly kvality), může to vést k nadměrnému zatížení crawleru. Googlebot se snaží sledovat změny a navštěvovat aktualizovaný obsah, ale pokud jsou změny časté a nahodilé, může tím docházet k plýtvání crawl budgetem na méně důležité stránky. Řešením je používat lastmod v sitemapě, řídit změny strategicky a zabránit indexaci URL, které nemají pro uživatele přidanou hodnotu.
10. Jak do optimalizace crawl budgetu zapadá mobilní verze webu (Mobile-First Indexing)?
Google přechází na tzv. Mobile-First Indexing, což znamená, že primárně prochází a indexuje mobilní verzi webu. Pokud mobilní verze obsahuje méně obsahu nebo horší strukturu než desktopová, může to negativně ovlivnit indexaci i crawl budget. Pro efektivní využití crawl budgetu je důležité:
- zajistit, aby mobilní verze obsahovala stejný obsah jako desktop,
- optimalizovat rychlost a UX pro mobilní zařízení,
- zachovat správné interní odkazy a navigaci i v mobilním zobrazení.
V opačném případě se může stát, že Googlebot mobilní verze „zmešká“ důležité části webu.
11. Jak konkrétně nastavit robots.txt
, aby šetřil crawl budget?
Soubor robots.txt
slouží k řízení přístupu vyhledávačů k určitým částem webu. Pomáhá šetřit crawl budget tím, že zakáže procházení zbytečných nebo duplicity vytvářejících stránek. Příklady dobré praxe:
User-agent: * Disallow: /admin/ Disallow: /search/ Disallow: /cart/ Disallow: /*?filter=
Důležité je, aby robots.txt
nebyl příliš restriktivní (např. nezakazoval důležité části webu) a aby byl v souladu s ostatními SEO nastaveními (např. noindex
metatagy nebo kanonickými odkazy).
12. Jaké chyby v robots.txt
nebo noindex
značkách mohou crawl budget zcela promrhat?
Mezi nejčastější chyby patří:
- Zablokování přístupu do důležitých sekcí webu pomocí
Disallow
vrobots.txt
, čímž Google vůbec nemůže stránku ani načíst a tedy ani vyhodnotit jejínoindex
nebo obsah. - Konflikt mezi
robots.txt
a metaznámkounoindex
– pokud je stránka zablokována vrobots.txt
, Google se k metaznámcenoindex
ani nedostane. - Neúmyslné zablokování celé domény pomocí
Disallow: /
– často se to stává při vývoji, ale zapomene se to upravit při ostrém spuštění.
Proto je důležité robots.txt
a všechny SEO značky pravidelně kontrolovat a testovat například pomocí nástroje Robots.txt Tester v Google Search Console.
13. Je možné prostřednictvím Google Search Console sledovat, kolik URL bylo za den procházeno?
Ano, v Google Search Console najdeš přehled o procházení v sekci Nastavení → Statistika procházení. Tento přehled ukazuje:
- Počet procházených stránek za den (celkový objem požadavků),
- Objem stažených dat (v MB),
- Průměrný čas stažení stránky,
- Rozdělení podle typu odpovědi (např. úspěšné načtení vs. chyby).
Tyto údaje ti pomohou zjistit, jak aktivní je Googlebot na tvém webu a zda se v čase mění jeho chování. Pokud dojde k výraznému poklesu procházení, může to signalizovat problém se serverem, s dostupností nebo s celkovou kvalitou obsahu.
14. Jak vyhodnocovat logy serveru pro sledování chování crawlerů?
Analyzování logů serveru je pokročilá, ale velmi účinná metoda, jak sledovat chování Googlebota (a jiných crawlerů) na webu. V logu najdeš každé požadované URL, včetně:
- IP adresy návštěvníka (pro Googlebota lze ověřit podle rozsahů IP adres),
- Uživatelského agenta (např. „Googlebot“),
- Datum a čas požadavku,
- HTTP kódu odpovědi (např. 200, 404, 301).
Díky tomu můžeš zjistit, které stránky Google nejčastěji navštěvuje, které vynechává, nebo kde naráží na chyby. Pro jednodušší analýzu můžeš použít nástroje jako Screaming Frog Log Analyzer, JetOctopus nebo Elasticsearch + Kibana pro větší weby.
15. Jaký je rozdíl mezi crawl rate a crawl budgetem?
Crawl rate (rychlost procházení) označuje počet požadavků za jednotku času, které Googlebot posílá na tvůj server. Tato hodnota se může měnit podle toho, jak rychle server odpovídá – pokud server zvládá vysoké zatížení, Google zvýší rychlost procházení. Pokud je však server pomalý nebo dochází k chybám, crawl rate se automaticky sníží, aby se předešlo přetížení.
Naopak crawl budget je širší pojem, který zahrnuje nejen crawl rate, ale i to, kolik stránek bude crawler chtít projít během návštěvy. Ovlivňuje ho autorita webu, interní struktura, technická kvalita a další faktory.
Zjednodušeně řečeno:
- Crawl rate = jak rychle Google prochází stránky
- Crawl budget = kolik stránek celkem Google navštíví
16. Proč je správné využití crawl budgetu důležitější pro velké weby než pro malé?
Na malém webu (např. s desítkami nebo stovkami URL) Google obvykle bez problémů projde všechny stránky v krátkém čase. U velkých webů (např. e-shopy, magazíny nebo portály s tisíci až miliony URL) však není zaručeno, že Google navštíví všechny stránky – právě zde hraje crawl budget zásadní roli.
Pokud není crawl budget správně využit, může Googlebot trávit čas na nedůležitých, duplicitních nebo technicky problematických stránkách a opomenout ty klíčové. Důsledkem může být nižší indexace, horší viditelnost ve vyhledávačích a ztráta organického návštěvního provozu.
17. Jak může špatně nastavený filtr v e-shopu zcela "zabít" crawl budget?
Filtrace produktů v e-shopech často generuje dynamické URL s parametry (např. ?barva=modra&velikost=L), které mohou vytvořit stovky až tisíce kombinací. Pokud není filtr správně nastavený a tyto URL nejsou omezeny pro vyhledávače, Googlebot je může začít bez užitku procházet a indexovat.
Tím dochází k:
- plýtvání crawl budgetem na málo hodnotné stránky,
- riziku indexace duplicity obsahu,
- rozmělnění signálů (např. zpětné odkazy směřující na různé varianty téže stránky).
Řešení je použití robots.txt
pro blokování parametrických URL, kanonických odkazů (rel="canonical"
) a případně noindex
na nevhodných stránkách.
18. Kdy se vyplatí použít kanonizaci (rel="canonical"
) místo blokování stránek?
Kanonizace se používá v případech, kdy máš více URL se stejným nebo podobným obsahem, ale chceš, aby Google chápal jen jednu jako hlavní. Na rozdíl od robots.txt
nebo noindex
, které zabraňují procházení nebo indexaci, rel="canonical"
umožňuje Googlebotu stránku navštívit, ale říká mu, že má zaindexovat jinou – hlavní URL.
Kanonizaci se vyplatí použít např. když:
- potřebuješ zachovat přístupnost pro uživatele i roboty,
- chceš sdružit zpětné odkazy z více variant URL,
- se jedná o různé filtrovací varianty nebo jazykové mutace.
Naopak robots.txt
je vhodný spíše pro zcela nepodstatné stránky, které nemají žádnou SEO hodnotu.
Z našeho slovníku
Crawl Budget
Crawl Budget je termín, který se používá v oblasti SEO a označuje množství času a prostředků, které vyhledávače (zejména Googlebot) alokují na procház...
Wayback Machine
Wayback Machine je internetová služba, která umožňuje uživatelům prohlížet archivované verze webových stránek, které byly uloženy v průběhu času. Tent...
Screenshot
Screenshot, neboli snímek obrazovky, je digitální obraz zachycující aktuální zobrazení na displeji počítače, telefonu, tabletu nebo jiného elektronick...
HTTPS (HyperText Transfer Protocol Secure)
HTTPS je rozšíření běžného protokolu HTTP (HyperText Transfer Protocol), které zajišťuje šifrovaný přenos dat mezi webovým prohlížečem a serverem. Na ...
Nameserver
Nameserver (jmenný server) je server, který překládá doménová jména na IP adresy. Pro správné fungování domény je potřeba mít alespoň dva nameservery....
Cache
Cache je dočasné úložiště dat, které umožňuje rychlý přístup k často používaným informacím. V kontextu webových stránek může cache uchovávat například...