Close

Tagging, Controlled Vocabularies, Taxonomies, Theusari and Ontologies

Seth Earley under dag två på masterclass inom Content ChoreographyTagging and Controlled Vocabularies (S30)

S30, vilken info har vi som är av högt värde, och hur mycket är det? Går det att förbättra kvaliteten på data genom att processa det?
Vilken info skapas av kostsam eller specialiserad personal (advokater/läkare/professorer)?
Taggning är en lösning, men det kräver viss informationsstruktur/välformulerad vilket inte fungerar bra med e-post. Autotaggning av e-post är praktiskt taget omöjligt att få till.
Machine-aided tagging…

“Try to identify and harvest your high-value content out of the mess.”

S32-33, metadata har en livscykel och utveckling. Sammanställer man en bok från delar (text, illustrationer etc) kommer ingen bry sig om metadata från enskilda delar. Men när man ska sälja en illustration från boken blir det svårt.
Think of the ultimate purpose. What is the use case of the information and its lifecycle?
Tagga efter ett återanvändningsperspektiv!
Här kommer exempelvis medicinska riktlinjer in och hur man taggar upp delar av information och sammanställer istället för ett Word-dokument. Företaget MathWorks…

OMAP (mappar SnoMed, Mesh, ICD-9), Cinx? (processinriktad ECM), DITA.

auto-taggning
Fördelen med autotaggning är att den i värsta fall är konsekvent felaktig (vilket går att fixa), till skillnad från människor som är inkonsekvent felaktiga. Utbildade bibliotekarier är bara eniga i 80% av fallen kring kategorisering och taggning.

SIC – standardiserad branschkodning från USA.

Övning gav klara besked att få tänker på geografi på väldigt olika sätt. Militärt perspektiv, stadsplanerare, ekolog, säljare etc. (Country, sites, region, position, adress, topologi).

Taxonomies, Theusari and Ontologies (S37)

Ontologi är ett beskrivet koncept som mer abstrakt beskriver ett ämne, mappar taggar och innehåll till vartannat. Samma modell/terminologi kan användas till flera repositories.
Lite som index/läs mer som finns i böcker som vägleder till relaterade termer.

Linné anses vara fadern till taxonomi genom sitt arbete med att klassificera alla levande ting.

Vad är lämpligt för mitt innehåll, användning och syfte? En taxonomi med 10 000 termer är ganska meningslös om du har 500 dokument.

Ett index är en navigationsstruktur/innehållsstruktur, alltså taxonomi kombinerat med data -> specifikt innehåll för specifik användare. Taxonomi är en klassifikationsstruktur för återanvändning, ett index är inte återanvändbar.

Facetterad sökning:
Taxonomifacetter har i mångt och mycket ersatt avancerad sök, användaren tror ofta att de bläddrar runt men egentligen görs nya sökningar. Problemet med avancerad sök var att du lätt gjorde val som gav 0 träffar. Facetter anpassas efter att det faktiskt finns information att visa.

Folksonomi (social tagging) är en okontrollerad version av ett vokabulär som låter folk tagga lite hur de vill. Man kan alltid koppla detta till en taxonomi för att den ska vara fräsch. Hitta nya termer helt enkelt, kan kopplas som ett eget kodverk med relationer till annat kodverk, eller avancera till att bli en officiell synonym i önskat vokabulär. Efter ett tag kanske den blir preferred och den tidigare blir en synonym bland många andra!
Behöver kurateras, bland annat felstavningar och saker som betyder exakt samma sak.
Passar bloggar och den mer kaotiska delen av informationsskapandet.

Används ofta för att man som användare ska kunna finna folk som en själv, med det språkbruk man själv använder just nu. Vokabulär är mycket trögare och ska vara det.

En tagg behöver en profilsida, där kan man se vem som använder den, vad den liknar etc. Ger en positiv överraskning.

(läsa in alla hashtags från Twitter?)

Protégé är en öppen källkodslösning för att utforska ontologier. Kolla in topic map S68.

Content modeling

Övning på lappar, bra sätt att låta användare kategorisera innehåll och förstå problemet – de kanske kommer på något vettigt man inte tänkt på som arkitekt.

Metadata är det som möjliggör att man kan vrida och vända på information, sammanställa det och göra det sökbart. Gärna bryta isär dokument till content components/chunks som delar men av arkivering/regulations ha en sammanställd kopia – användarna som slipper ladda ner 5 MB PDF till mobilen kommer tacka dig (se sidan 80).

Information needs to be repurposed based on the needs. Alltså servera information beroende på vad användaren behöver, på den enheten de använder etc.

Introduction to Information Access

Finns några olika varianter av sök:

  • Webbplats-sök
  • Applikationssök
  • Enterprise search

Search as a utility has become deeply ingrained into people’s everyday lives.
– Studie av Nielsen/Net Ratings

Sen om det är en utility är en bra fråga, det är mer som en applikation som är expert på att vägleda till annan information, duktig på att använda metadata/vokabulär etc.

5 sanningar:

  1. We have to change our definition of search.
    1. ingen vit låda
    2. är en upplevelse
    3. handlar om informationsåtkomst
  2. Search algorithms are getting better, but they cannot infer human context & intent
  3. Taxonomy, metadata and information architecture are key aspects of search
  4. Search is increasingly looking like navigation
  5. Search is messy

Användarna ställer allt högre krav på sökfunktioner och genom att mer information är sökbart blir det mycket komplext.

“…search terms are short, ambiguous and an approximation of the searcher’s real information need…”

Det går inte att söka på leverabler, eller sådant som används överallt.

Search Techniques & Tuning (S96)

“Best bet” kan ge en landningssida som försöker vägleda en efter en sökning.
Genom associativa relationer kan man försöka hjälpa någon som söker på _för_breda_ termer, om man söker på “blommor” hos en blomsterhandlare kan man nog behöva lite hjälp att förfina sin sökning, gärna drop-down (S102).

Stoppord är viktigt för att inte ta med ord i sökning som inte skulle ge någon nytta, exempelvis; does, below, due, far, even,

Behöver massor med användartest och interaktionsdesign för att jobba med enterprise search. Vid justeringar av viktningar/relevansmodell behöver det testas igen.
Utvärdera vad folk söker efter, hur många träffar de får, vad de gjorde vid SERP, vilka ämnen de söker på etc.

Ska sökmotorn ha en säsongsbetonad relevansmodell? Influensor, semester, lön slutet av månaden?
(S130) Vad går att mäta? Vilka dokument/SERP har stor andel metadata? Vore kanon att söka bara bland det som saknar metadata… för att utvärdera vad användarna missar.
Utdaterad info?

User Analysis and Metrics (ny modul)

Personas är kanon för att beskriva de olika tänkta användarna eller målgrupper. Då kan man hänga upp det man designar och se ifall det passar en eller flera personas, och helst inte skrämmer bort någon. Detaljer om en persona S5.

Finns flertalet sätt att förstå sin användare:

  • Intervjuer
  • Enkäter
  • Arbetssessioner
  • Observera dem (skugga)
  • Sökloggsanalys
  • Content/task/audience analys

Samtidigt måste man passa sig då de olika situationerna ger olika svar. Vissa personer svarar ibland vad de tror man vill höra under intervjuer.

Olika personas kan ha helt olika associationer, termer, kategoriseringar och olika syn på taxonomin, exempelvis en ingenjör och en säljare på samma företag.
Man kan göra en “Content-Audience Matrix” i ett kalkylark för att se vad man erbjuder vilka personas, vilka mätbara mål och val för interaktion (nyhetsbrev, skaffa konto etc). Vilket innehåll stödjer att en persona kan utföra den önskade interaktionen?

Man kan leta upp folk som representera ens personas och ge dem uppgifter att lösa på en wireframe.

Content Inventory and Analysis

Livscykel för att kuratera innehållet S17-18.
Exempelvis kasta ut information som inte ägs av någon, om ingen äger en webbsida kommer den bli utdaterad!
– redundant, outdated or trivial – exempel på grejer att slänga ut.

Developing Taxonomies, Vocabularies and Content Models

Bra om man inventerar omvärlden ifall det redan finns källor till termer andra redan använder, såsom:

  • Referensmaterial
  • Industristandarder
  • Akademiska källor
  • Regulatory agencies
  • Ämnesexperter

Själva tanken är att man ska vara kritisk till innehållet, kräva tydlighet och pröva termerna på riktiga användare.
Inventering behöver göras för att veta vilka applikationer som kommer att konsumera eller producera termerna.

Mer om content choreography

Leave a Reply

Your email address will not be published. Required fields are marked *

Denna webbplats använder Akismet för att minska skräppost. Lär dig hur din kommentardata bearbetas.