Går att indexera och kravla webbplatsen

Kravlande barn (photocred: Donnie Ray Jones, from flickr, cc-by)

Detta är punkt sju i listan med hygienfaktorer, det där du ska kolla upp någon gång emellanåt.

Att ens webbplats inte är tekniskt tillgänglig kan vara precis vad man är ute efter, men det gäller sällan på en publik webbplats. Där är istället poängen att alla bör vara välkomna, både människor och maskiner.

Hindret som finns kan vara av olika art, dels den mjuka varianten där man ber om att bli lämnad ifred alternativt försöker instruera botar att inte ta med sidan i index, sen finns det där jättehöga hindret som när behörighet saknas.

Lägre hinder som kan vara problematiska

Det finns ett flertal mindre dramatiska sätt att försöka tala om för maskiner hur man önskar få sin webbplats behandlad. En klassiker som styr hela webbplatsens inställningar är att ha en fil kallad robots.txt som placeras i webbplatsens hemkatalog. I robots.txt brukar man ange vilka mappar sökmotorer och andra maskiner ska låta bli, var en sitemap ligger med mera.

Huruvida en sida ska tas med i index kan styras genom sidans lokala metadata i HEAD-taggen. Där kan man också ibland hitta metadata som talar om sidans kanoniska förhållande inom webbplatsen, det vill säga om sidan är en variant av en annan – i så fall anges den andra, viktigare, sidans URL som canonical-URL.

Det går också att på länkar ha åsikter om hur maskiner ska bete sig, att länkar inte behöver följas. Detta görs genom attributet rel=“nofollow” på respektive länk.

För många år sedan, 2008 närmare bestämt, råkade webbplatsen jag byggde på för Västra Götalandsregionen ut för att bli exkluderad från Google så sakteliga under min semester. Efter en massa frustration och felsökning så visade det sig att en uppdatering till mjukvaran bakom webbplatsen automatiskt hade satt upp en önskan om att inte bli indexerad. Google gjorde tyvärr som mjukvaran från Microsoft bad om 🙁

Högre hinder för webbåtkomst

Sen finns ju de mer strikta sätten att stänga ute maskiner och det är ju att blockera eller kräva inloggning för att få åtkomst. Du har säkert råkat ut för att få upp en inloggningsdialog när du surfat på webben, men man kan inte alltid räkna med att ens få chansen att försöka logga in. Ibland blir man blockerad för att man inte sitter inom det godkända nätverket, har rätt IP-adress eller vad man nu har satt upp för krav.

Verktyg för att upptäcka detta problem

Ett smidigt verktyg är SEO Doctor som tillägg för Firefox, om inte sidan kan indexeras visas en röd varningssymbol där du placerat tillägget i din webbläsare. Ett annat sätt att göra stickprov är Pingdoms Full page test.

Ska du leta efter behörighetsproblem så är det bland annat HTTP:s statuskoder 401 Unauthorized och 403 Forbidden du är ute efter. Det är inte omöjligt att detta loggas på din webbserver, men har du din webbplats på ett webbhotell lär du inte få komma åt detta.

Optimizr.com har med detta i sina rapporter, dock kan du inte räkna med svar ens samma dag.

Läs mer på Search Engine Watch: It’s all about the crawl