Om länkade öppna data – nätverksträff i Göteborg

Staffan Truvé från Recorded Future, om datumstandardens framtida betydelse

“Alla vill väl borsta tänderna, men ingen vill använda någon annans tandborste”.
– En kollega till Fredric Landqvist, angående att följa en standard någon annan skapat.

Snabbintro till länkade data, öppna data och länkade öppna data

Lugn of fin, du behöver inte känna dig förtvivlad om du inte är bekant med varken länkade eller öppna data – jag ska ge det ett försök att förklara. Misslyckas jag så droppa en kommentar eller kontakta mig 🙂

Vanligaste sättet att förklara vad länkade data är görs genom den femstjärniga modellen, den beskriver hur anrikad ens data är och ger bra exempel på vad man mer kan göra än att dumpa en samling PDF-filer på webben. För den som inte har avsikt att låta andra använda sin data kan ignorera första punkten (då lever man efter länkade data, inte länkade öppna data).

  1. Öppen licens som tillåter vidareanvändning.
  2. Användning av URI:er för identifierare för olika ting. På vanlig svenska betyder det att man ger ting – som en busshållplats, skola, hjärtstartare, etc – en sån där webbadress, du vet en sån där http://ting.lokaltrafiken.se/bussar/buss43
  3. Användning av HTTP URI:er för dessa ting så att man kan skapa referenser och slå upp information. Vilket innebär att när man ska hänvisa till dessa ting anger man deras URI, alltså den där webbadressen som dess namn, eller vad en databaskunnig person skulle kalla för primärnyckel.
  4. Tillhandahållande av maskinläsbar information om ett ting när dess URI anropas. Informationen ska tillhandahållas i ett standardiserat format som t.ex. RDF. Innebörden är att maskiner ska kunna förstå vad tinget är, kunna relatera det till något annat och att man följt etablerade standarder så maskiner kan förstå om tinget är av samma sort som något annat ting.
  5. Inkludera länkar till relaterade ting i den information som lämnas. Det betyder att man ska ange ett sammanhang för sitt ting. Med exemplet ovan med en buss så kan man koppla det till den busslinje bussen trafikerar, att bussen är ett motorfordon, att den deltar i ett koncept som kollektivt resanda, vilken organisation som bedriver verksamheten och inom vilket geografiskt område detta sker. På detta sätt kan ens länkade data bli relativt självförklarande och utforskningsbar även för en maskin.

Videoklipp från dagen

Lite av förmiddagen, börjar med Hannes Ebner:

Eftermiddagen på Visual Arena:

Recorded Future

Staffan Truvé konstaterar att det är svårt att komma överens om hur man ska uttrycka sig, inte bara standarder på hög nivå. För att inte tala om hur svårt det kan vara att hantera semi-strukturerad information från sociala medier, där hashtags hittas på, men man inte ens vet hur personen uttrycker ett datum. Om det ens är ett datum som avses, som 9/11, vilket 9/11 är det – den i New York eller Benghazi, finns säkert fler varianter beroende på ens kulturella sammanhang.

Wikidata

Wikimedia commons skapades för att inte dubbellagra mediefiler som bilder, video och ljud. Samma problem initierade Wikidata för att inte dubbellagra fakta och data i varenda språkversion av Wikipedia.

Presentationen kan laddas ner på bit.ly/wikidatagbg

I Marcus huvud kring medicinsk visualisering

Medicinsk visualisering skulle i videoklipp/3D-objekt kunna positionera organ på ett strukturerat sätt, problem man besvarar beskrivas med ett medicinsk vokabulär. Då kan video och 3D-objekt sammankopplas med medicinska riktlinjer eller andra informationsmängder. Exempelvis skulle man kunna visa relaterade bilder automatiskt till 1177.se-texter, så patienter och närstående kan utforska material på annat sätt än hur en redaktionell prioritering manuellt valt att göra.

Hannes Ebner – Linked Data med EntryScape

Process för att jobba med länkade data kan brytas ner i ett antal delmoment:

  1. Importera befintliga vokabulär. Plocka in delmängder av Wikidata, EuroVoc mfl.
  2. Hantera sin terminologi. För att länka mellan termer, låta folk samarbeta och förbättra termerna. Kan baseras på SKOS.
  3. Metadata authoring. Bra att försöka hitta befintligt metadata-vokabulär/standard, alltså hur man uttrycker sig alltså, såsom Dublin Core, DCAT, FOAF, DC-Elements mfl. Används för att beskriva fakta, relationer och kategorier.
  4. Resurshantering. Kuratering av innehållet och kvalitetskontroll. Lite av ett DAM-system, där mediafiler kan klumpas samman, behörigheter för vem som får lov att ändra innehållet och mycket annat som liknar ett klassiskt dokumenthanteringssystem fast mer som informationspaket.
  5. Publicering. Skickas till data-kataloger/portaler, exempelvis DCAT-AP, som oppnadata.se men man kan också publicera själv. Följer man DCAT-AP kommer oppnadata.se skörda datakällan, dess API m.m.
  6. Sökbarhet – använd schema.org för sökbarhet, ger också bättre SEO. Sök-GUIt kan anpassa sig efter vad som finns både internt och externt, ej indexerat externt material kan finnas med i ens egen sök som en relaterad länk.

Det här är väl en informatikers sätt att beskriva “adaptivt innehåll”?

“Modellbaserad förmågeutveckling”, FMV?

Försvarets materialverk visar regelbaserad inventering

Regelbaserad inventering och planering genom att organisationens material organiserats och har interna relationer gör att frågor kan ställas mot försvarets distribuerade lager.

Modellerat för att hitta buggar/inkonsistenter i vilka prylar man har. Man har ju interna relationer om ett förbands utrustning gör dem klara för en viss insats. Ingen mening att åka ut i strid med gevär om man inte har med sig några kulor…

Handlar om att veta var man står med planeringen, vad som saknas. En bandvagn kan ha en koppling till en trupp. Bandvagnen har en livscykel vilket gör att man på förhand måste planera för dess ersättning om inte förmågan automatiskt ska minska – så man inte står utan nödvändig utrustning. Ett tekniskt försvarssystem kan ju ha en koppling till ett annat system, eller att de gör sig bäst i grupp med andra snarlika system.
Förr fick man göra dessa kontroller manuellt, något som kan beskrivas som hyggligt tråkigt.

SBVR (Semantics of Business Vocabulary And Rules) är standarden de följer för detta.

Finns en hel del liknelser med den svindyra utrustning vi har i vården och andra delar av samhället. Skolor och deras relation till kommande storlekar på årskullar av barn, etc etc.

Dessa data blir alltså exekverbar, man kan ställa frågor mot den och testa hypoteser för att kunna se vilken beredskap man har vid en given tidpunkt, av en särskild sort. Där kan regler provköras, exempelvis vilka system som inte har en ägare, vilka som enbart legat i förråd. Då kan man inventera på distans, få reda på eventuellt slöseri eller obalans inom organisationen.

Detta visualiserar det och rapporterar vidare inom organisationen.

Phil Archer, informationsarkitekt och koordinator för den semantiska webben på W3C

Phil Archer jobbar med W3C:s arbetsgrupp för den semantiska webben. Standarderna/rekommendationerna ligger ofta som draft på Github, och när de är klara blir de “publika” på riktigt. Deras standarder är efter konsensus bland de som deltog – om man nu tvekar kring hur en standard tas fram.

EU-projektet Big Data Europe finns, dock tar de inte det minsta upp semantiska tekniker eller länkade data. Ännu.

RDF Data shapes är för att kuna validera datakällor, att de är kompletta etc.

Machine processable validation stacks, angående rekommendationer.

Phil tycker att man ska använda URL:ars naturliga struktur i API:er för att antyda vad URI:n ger svar på, det kan synas om det är en lista det handlar om, eller om det är en enskild punkt i en lista.

CSV on the web Working Group – hur möter JSON-törstande utvecklare och de som sitter på data, många mer konservativa personer vill gärna ha data i ett format som snarare är lätt att knö in i Excel.

ODI nod i Göteborg, Karin Ahlin

Open Data Institute har nu en nod i Sverige, närmare bestämt i Göteborg. Den drivs av Karin Ahlin, Akrodata.

Sir Tim Berners-Lee gick till Downing Street 10, förklarade ett och annat för den brittiska premiärministern Gordon Brown, fick 10 miljoner pund för att starta ODI – för att främja öppna data. ODI jobbar för att förklara vad öppna data kan bidra med till samhället, att, som det heter på byråkratspråk, skapa förutsättningar för att öppna data händer.

Paneldiskussion

“Who in Sweden has the clout to approach the Swedish prime minister?”
– Phil Archer

Min första tanke är väl Hans Rosling. Phil själv funderade på Carl Bildt och det fascinerar att Bildt byggt ett sådant varumärke trots allt.

Mattias Palmér nämnde att en proposition finns om att myndigheter är tvungna att berätta om vilka (öppna?) datakällor man har.

Tack Fredric och Kerstin för att ni fick detta att hända i Göteborg. Nästa år är det troligen i Stockholm.

Några presentationer och videoklipp är publicerade på GU:s webbplats.