Datoteka robots.txt, shranjena v korenu vašega spletnega mesta, bo spletnim robotom, kot so iskalniki, seznanila, katere imenike in datoteke jim lahko pajka. Datoteko robots.txt je preprosta za uporabo, vendar morate zapomniti nekaj stvari:
- Spletni roboti Blackhat bodo prezrli vašo datoteko robots.txt. Najpogostejši tipi so roboti malware in roboti, ki iščejo e-poštne naslove do žetve.
- Nekateri novi programerji bodo pisali robote, ki prezreti datoteko robots.txt. To se ponavadi naredi z napako.
- Vsakdo lahko vidi datoteko robots.txt. Vedno se imenujejo robots.txt in so vedno shranjeni v korenu spletnega mesta.
- Nazadnje, če se nekdo povezuje z datoteko ali imenikom, ki je izključena iz vaše datoteke robots.txt na strani, ki je ne izključi s svojo datoteko robots.txt, lahko iskalnike vseeno najdete.
Ne uporabljajte robots.txt datotek, da bi skrili nič pomembnega. Namesto tega bi morali dati pomembne informacije za varna gesla ali pa jih pustiti v celoti iz spleta.
Kako uporabljati te vzorčne datoteke
Kopirajte besedilo iz vzorca, ki je najbližji tem, kar želite storiti, in ga prilepite v datoteko robots.txt. Spremenite imena robota, imenika in datotek, da ustrezajo vaši želeni konfiguraciji.
Dve datoteki Basic Robots.txt
Uporabniški agent: *Disallow: / Ta datoteka pravi, da kateri koli robot ( Uporabniški agent: *), ki jih dostopa, bi morala ignorirati vsako stran na spletnem mestu ( Disallow: /). Uporabniški agent: *Disallow: Ta datoteka pravi, da kateri koli robot ( Uporabniški agent: *), ki ji dostopa, lahko ogleda vsako stran na spletnem mestu ( Disallow:). To lahko storite tudi tako, da pustite datoteko robots.txt prazno ali sploh ne boste imeli na svojem spletnem mestu. Uporabniški agent: *Disallow: / cgi-bin /Disallow: / temp / Ta datoteka pravi, da kateri koli robot ( Uporabniški agent: *), ki jih dostopa, bi morali prezreti imenike / cgi-bin / in / temp / ( Disallow: / cgi-bin / Disallow: / temp /). Uporabniški agent: *Disallow: /jenns-stuff.htmDisallow: /private.php Ta datoteka pravi, da kateri koli robot ( Uporabniški agent: *), ki jo dostopa, bi morale prezreti datoteke /jenns-stuff.htm in /private.php ( Disallow: /jenns-stuff.htm Disallow: /private.php). Uporabniški agent: Lycos / x.xDisallow: / Ta datoteka pravi, da Lycos bot ( Uporabniški agent: Lycos / x.x) ni dovoljen dostop kjer koli na spletnem mestu ( Uporabniški agent: *Disallow: /Uporabniški agent: GooglebotDisallow: Ta datoteka najprej onemogoči vse robote, kot smo naredili zgoraj, nato pa izrecno dovoljuje Googlebot ( Uporabniški agent: Googlebot) imajo dostop do vsega ( Čeprav je bolje, da uporabite zelo vključujočo linijo uporabnikovega posrednika, kot je User-agent: *, ste lahko tako specifični, kot vam je všeč. Ne pozabite, da roboti redno prebereta datoteko. Torej, če v prvih vrsticah rečemo, da so vsi roboti blokirani od vsega, nato pa kasneje v datoteki piše, da imajo vsi roboti dostop do vsega, bodo roboti imeli dostop do vsega. Če niste prepričani, ali ste pravilno napisali datoteko robots.txt, lahko z Googlovimi orodji za spletne skrbnike preverite datoteko robots.txt ali napišete novo. Zaščitite posebne imenike od robotov
Zaščitite posebne strani od robotov
Preprečite, da določen robot dostopa do vaše strani
Dovoli samo en specifičen dostop do robota
Združite več linij, da natančno dobite izključitve, ki jih želite