Textanalys som kvantitativ studie av läsbarhet

Analysis (bildkredd: the-blue-diamond-gallery)

Jag valde min egen arbetsgivares webbplats som studieobjekt för denna textanalys. Webbplatsens innehåll har producerats under det senaste året så det minimerar gamla synders påverkan på resultatet.

Till min hjälp tog jag verifierad.nu, ett projekt jag grundade under våren för att dela med mig av de tester jag gjort av bland annat offentlig sektor sedan 2010. I den senaste förhandsutgåvan finns en ”content check” som kollar texten som sådan – textanalys helt enkelt.

Men först lite bakgrund innan vi tittar på siffror och drar slutsatser.

Textanalys som ett nyckeltal?

Så här skrev jag om LIX för textanalys i min bok om webbanalys:

”Ett annat KPI är vilken nivå av läsbarhet man strävar efter. Det finns flera metoder för att mäta detta, varav ingen av dem lär imponera på en språkvetare. En är läsbarhetsindex (LIX) vilket försöker ange hur avancerad en text är. Läsbarhetsindex är ingen perfekt metod men kan indikera en texts komplexitet. Till skillnad från att dela ut lathundar till webbredaktörerna är LIX något som är mätbart för att se om trenden går åt mer komplexa eller enklare meningar.

En ytterligare variant, fast för engelsk text, är Flesch reading ease som ger en fingervisning om texten riskerar att vara komplex. Inte heller här är metoden exakt nog att börja lönesätta redaktörer efter betyget, men det kanske ändå är värt att övervaka hur texterna utvecklas, om det skiljer sig mellan olika grupperingar av innehåll. Säg att man bygger ett verktyg som analyserar detta så blir det intressant att utvärdera om enklare texter presterar bättre eller sämre än komplexa.”
Webbanalys – förstå och förbättra användarnas upplevelse (2016)

Poängen är alltså att man i massiv skala kan mäta läsbarhetsindex, vilket är det du snart kommer läsa mer om. Du kan alltså på en kvantitativ nivå få reda på hur det står till, men också filtrera fram de värsta exemplen i jakt på något som är värt att förbättra.

Webbriktlinje 10: ”Ge all information på begriplig svenska”

Ovanstående rubrik är namnet på webbriktlinje nummer 10. Den säger också att:

”All information på webbplatsen ska skrivas på begriplig svenska. Målet är att så många personer som möjligt ska kunna tillgodogöra sig innehållet, även personer med funktionsnedsättningar och personer med svenska som andraspråk.”

Det denna skrivelse presenterar är inte ett perfekt sätt att utvärdera om man följer denna webbriktlinje, men nog är det en hjälp att hitta sådant som kan behöva förbättras. Inte minst hjälper den massiva automatiseringen (att kolla på så många undersidor) oss att hitta vad som inte håller måttet. När jag övningskörde koden gjorde jag det i vanlig ordning både åt min egen arbetsgivare men samtidigt åt webbvännen Mattias Skoogs Varberg.se, där en sida fick 47 i Läsbarhetsindex vilket är ”sakinformation” snarare än normal eller enkel text. Mattias kommentar:

”[…] ibland blir det bara helfel. Som här www.varberg.se/barnutbildning/… där syftet är att berätta hur viktigt klarspråk är…”

Ja de flesta webbplatser har sidor som kan förbättras, men ofta saknas den återkoppling som behövs för hur en välmenande webbredaktör skapar ett innehåll i linje med de egna ambitionerna. Att hjälpa till med detta är en del av poängen med verifierad.nu!

Webbriktlinje 12: ”Ge information på lättläst svenska”

Webbriktlinjer har också en #12 om lättläst svenska:

”Den som har lässvårigheter kan ha svårt att tillgodogöra sig texter, även om de är skrivna på ett klart och begripligt språk. Därför kan ni behöva ge information på lättläst svenska. Lättläst svenska är anpassad efter läsaren. Språket är enklare och texterna kortare, men all viktig information ska ändå finnas med. Även layout och bilder bör anpassas till läsaren.”

Du kommer inte med verifierad.nu’s test få ett ja eller nej kring denna webbriktlinje, men nog får du ledtrådar om vilka texter som har en komplex uppbyggnad.

Webbriktlinje 64: ”Skriv lättbegripliga texter”

”Texter på webbplatser bör skrivas på ett så enkelt och begripligt språk som möjligt, för att vara effektiva att läsa, och för att kunna förstås av ett stort antal läsare.”

Det kan tyckas självklart att skriva begripliga texter, men frågan är väl hur man mäter det på ett kvantitativt sätt. Det går inte att ha full kontroll av en texts begriplighet genom en automatiserad kontroll, men nog hjälper det att hitta det som troligen behöver förbättras.

Nivåer av läsbarhet

Siffrorna för läsbarhet är inte otvetydiga. När det gäller Läsbarhetsindex är ett lågt värde något som tyder på enkel text, medan det motsatta gäller för testet Flesch reading ease.

Men om vi tittar på Läsbarhetsindex (LIX) då de flesta av oss ändå primärt jobbar med svensk text så finns följande riktvärden:

  • Under 25: Barnböcker
  • 25 till 30: Enkla texter
  • 30 till 40: Normaltext / skönlitteratur
  • 40 till 50: Sakinformation, till exempel vad vi kan tänkas hitta på Wikipedia
  • 50 till 60: Facktexter
  • Över 60: Svåra facktexter, forskning och avhandlingar

Med andra ord bör texter som vänder sig till skolbarn inte överstiga 30 i Läsbarhetsindex. Sen kan man diskutera ifall det är schysst mot yrkesverksamma att tillåta sig ha texter runt 60. Det är tydligt att ett LIX-värde över 50 börjar att exkludera folk med läs- och skrivsvårigheter, barn och de med svenska som andraspråk. Apropå andraspråk så finns den för många dolda gruppen döva/hörselskadade som inte har svenska som förstaspråk, detta märkte jag själv tydligt då jag gick på ett gymnasium med nationell intagning av döva. Det var inte skitenkelt att kommunicera i skrift på svenska med dem då det fanns stora luckor i deras vokabulär.

Innehållsanalys kontra textanalys?

Allt idag tycks vara en strategi, eller om det är något som ska undersökas är det en analys. Jag är inte helt bekväm med dessa begrepp och tycker nog egentligen att de låter mer storslagna än de skrivelser där de är titeln.

Samtidigt finns det en uppsjö begrepp inom det digitala som mer eller mindre avser samma sak. Nu har jag valt textanalys, men även innehållsanalys är ett ganska passande begrepp:

Innehållsanalys (engelska content analysis) är en empirisk vetenskaplig metod som används för att dra slutsatser om innehållet i olika slag av kommunikation, till exempel intervjuer, observationsprotokoll eller tidningsartiklar.
— Innehållsanalys enligt Wikipedia

Jag är enig med Wikipedia i detta fall. Innehållsanalys är på ett högre abstraktionsplan än textanalys. Innehållsanalys analyserar det kommunikativa innehållet, medan textanalys är nere på nivån att se språkvetenskapliga strukturer, kanske mer som att se en text som data snarare än information.

Ett annat begrepp du kan råka ut för är indexanalys. Då är det troligen en sökmotorkonsult du träffat på. Deras världsbild är centrerad runt det index av information som en sökmotor utgår från.

Textanalys av Västra Götalandsregionens webbplats

Jag har inspekterat ett fyrtiotal egenskaper på Västra Götalandsregionens relativt nya webbplats. Du kan nedan ladda ner en Excel-fil som låter dig filtrera fram olika mätetal. Antalet sidor som inspekterats är 5000 st, så genomsnittliga siffror bör vara ganska beskrivande även fast metoden fortfarande är i en förhandsutgåva.

Störst tveksamhet har LIX, Flesch Reading Ease och de andra måtten som bedömer hur läsbar en text är. Mest uppenbara problem får man med de mått som inte är anpassade till språket man utvärderar, så i nedan test är det nog främst LIX som funkar då testade sidor är på svenska.

En annan potentiell källa till att LIX inte har en extrem precision är att verifierad.nu i nuvarande utgåva sorterar fram all synlig text, vilket även tar med navigering om den är textbaserad, samt sidfot m.m. Det behöver inte vara en nackdel, men om en webbplats har väldigt omfattande menystruktur kommer den inte vara särskilt jämförbar med en annan webbplats med väldigt grund menystruktur. Detta på grund av att navigation ofta är ett eller ett fåtal ord per menyalternativ.

Som alltid, se siffrorna som en indikation, använd huvudet, var tveksam och ändå nyfiken.

Genomsnitt för vgregion.se den 17 juni 2017 är:

  • 3,98 ord per mening. Det beror troligen på den ganska omfattande navigationen där varje menyval nog räknas som en egen mening.
  • 650 ord per sida. Vilket är ganska bra, ofta anges det som minst 300 (men gärna över 900 för engelska texter) i sammanhang som sökmotoroptimering (SEO).
  • 4274,5 tecken per sida. Vi svenskar behöver komma ihåg att vårt språk är extremt sammansatt jämfört med engelskan, så när de nämner antal ord är det inte ”flaggstångstillverkare” de avser.
  • 46,5 tecken i sidtiteln. Det är okonventionellt kort, men samtidigt svårt att recensera på denna övergripande nivå.
  • 118,3 länkar per sida. Med andra ord finns över hundra länkar som var och en konkurrerar om användarens uppmärksamhet. Det är i mesta laget, men om man har designat det hela väl kommer användaren få ett gott stöd i vad som är viktigt (vilket nog sällan är fallet).
  • 1,8 bilder per webbsida saknar en alternativtext. Det kan ses som en skitsak för dig seende som bara använder en felfri internetuppkoppling. Men det finns de som inte ser bilder, bland annat blinda, de som av någon anledning inte får bilderna att ladda. De vet inte vad bilderna försöker avbilda om man struntar i alternativtexter.
  • 138 tecken är den genomsnittliga längden av meta-beskrivningen. Siffran är rätt hög mot vad jag hade gissat. Praxis inom SEO ändras ständigt, men just nu är det mellan 135 och 160 tecken enligt Yoast. Denna koll gör det enkelt att hitta sidor som saknar meta-beskrivning samt att sålla fram de som har fel längd.
  • 46,4 i Läsbarhetsindex (LIX). Texterna är alltså närmre facktext än normaltext, samtidigt är det många sidor som vänder sig till andra vårdgivare. Då antar man att andra vårdgivare står ut med komplicerade texter bara för att de får betalt för tiden de läser. Man är förstås mänsklig även under arbetstid, och människor har vissa begränsningar.

Analys av texter: Värsta sidornas resultat?

Frågan är hur man använder ett test likt detta. Ska man försöka bättra på genomsnittet, eller handlar det om att börja med att redigera de värsta sidorna först? Din uppfattning är minst lika god som min.

Jag tror ändå att man behöver två måttstockar, inte bara om man som jag verkar inom offentlig sektor. En måttstock för vad man kan kräva av personal och andra man har ett professionellt förhållande till. Här gör jag antagandet att denna grupp kan uppbåda en uppmärksamhet om de måste. Men samtidigt kan man fundera kring varför avsändarens lättja i utformandet av ett budskap ska drabba så många? Om avsändaren gör ett gediget jobb kommer det många till gagn. Gör denne en slarvig insats kommer resultatet vara till förtret för många.

Men den mest nitiska måttstocken måste man ha på det som är det viktigaste innehållet eller de viktigaste sidorna på webben. Där man (för)tjänar sitt uppehälle kan man inte lämna något åt slumpen. För mig i offentlig sektor är det här vi till fullo lever ut att vara personcentrerade i vårt förhållningssätt, för dig som jobbar i privat sektor är det läge att tänka kundcentrerat och att jobba med konverteringsoptimering (CRO).

Ännu mer om textanalys

Om detta intresserar dig så finns mer att hämta i boken om webbanalys, inte minst om sökordsanalys och bra verktyg för att hjälpa till med insamlande av data. Boken finns för bästa pris hos Intranätverk, men också hos Adlibris och Bokus