Prieš įvardijant kas yra robot.txt primenu, kad visų pirma paieškos sistemos nuskanuoja jūsų puslapius (crawling), tada jie yra suindeksuojami (indexing) ir tik tada pasirodo rezultatų paieškos puslapyje (ranking). Taigi kokį vaidmenį atlieka robots.txt ?
Prieš paieškos sistemoms skanuojant (crawling) jūsų puslapį, vadinamieji robotukai visų pirma pasižiūri ar turite įkėlę robots.txt failą ir tik tada skanuoja likusią svetainę. Taip yra todėl, nes į šį failą jūs galite surašyti savo taisykles ir palengvinti šį procesą.
Robots.txt tai sąrašas taisyklių. Šis txt failas pasako kuris turinys internetinėje svetainėje turėtų būti indeksuotas ir kuris ne. Turbūt kyla klausimas koks tikslas kažką blokuoti ir nerodyti paieškoje? Štai keletas pavyzdžių, kurių jūs tikrai nenorite, kad Google ir kitos sistemos rodytų:
Asmeniniai ir vidiniai failai - kurie yra skirti tik tam tikriem puslapio lankytojams ar savininkams
Puslapiai ir informacija kuri neturi reikšmės paieškoje - pavyzdžiui įvairios žinutės tarkim užsakymo patvirtinimai, taisyklės ir panašiai.
Robots.txt yra viešai prieinamas failas, jį galite pažiūrėti betkokioje svetainėje. Pavyzdžiui: bbc.com/robots.txt
Atsidarius robotx.txt puslapį greičiausiai nesuprasite kas parašyta ir ką tai reiškia. Keletas paprasčiausių taisyklių:
User-agent: Googlebot - tai reiškia, kad ši taisyklė bus skirta tik Google robotams
User-agent: * - tai reiškia, kad taisyklė skirta visoms paieškos sistemos
Disallow - kai nenorime leisti indeksuoti kažkokio puslapio ar failo. Pavyzdžiui:
disallow: /papkė1/ - prašome, kad neindeksuotų šios papkės failų ar puslapio
disallow: /*.pdf - prašome, kad neideksuotų visų pdf failų
Allow - kai norime kai ką atblokuoti. Aukščiau pateiktame pavyzdyje, kur blokuojame visus .pdf failus jeigu mes norime vis dėlto kažkurio vieno neblokuoti tiesiog nurodome - allow: /labas.pdf
Taip pat jeigu nenorime atskirai surašyti nuorodų, tiesiog galime nurodyti site/sitemap.xml kur yra surašyta visa svetainės struktūra.