Close

Big Data: Är din data att lita på?

Bredbandsbolagets kunduppgifter är felaktigaIdag börjar begreppet big data konkurrera med cloud computing, eller molnet på svenska, om att vara det mest populära hypeordet i alla tänkbara sammanhang. Förklarade på en intervju nyligen att jag jobbar mot länkade öppna data, vilket givetvis tolkades som big data. Ingen idé att vara ordmärkare i de sammanhangen. Glidningen i vad man avser med att använda begreppet big data pågår för fullt, men ofta menar man något liknande en eller flera av exempelvis nedan ingredienser:

  • Riktigt stora datamängder som används för beslutsstöd, analyser, visualisering etc.
  • Data från många olika källor, exempelvis åtkomstloggar och system med användare, som kopplas samman på ett dynamiskt sätt.
  • Väldigt ostrukturerad data där man hoppas finna dold struktur eller identifiera ”fält” att mappa slå upp mot andra system – så kallad look-up.
  • Datamängd som är för komplex för att lagras i klassiska databaser, som genom systemdesign sprids all data ut på många specialiserade system på ett kontrollerat men något kaotiskt vis jämfört med tidigare.
  • All den data som samlas in ”för säkerhets skull” men som man inte förväntar sig ha användning för.
  • Data man inte har åtkomst till utan vidare, exempelvis data hos Runkeeper eller annat utom ens kontroll.
  • Övervakning, eventuellt i realtid, av systemhändelser.

På denna data tas det beslut, eller rent utav kan automatiska händelser inträffa baserat på vad denna data innehåller. Ett exempel kring automatisering jag hörde en kollega inom Västra Götalandsregionen beskriva nyligen var att sätta upp kriterier för vem som kommer åt en journal. Om patient X tas in på sjukhus i Göteborg för ett plastikkirurgiskt ingrepp, är det då rimligt att journalen läses av:

  • En talpedagog i Uddevalla?
  • 53 kirurger anställda på andra sjukhus i Göteborg?
  • Användaren Kajsa Kavat, som egentligen är till för att utbilda personer i den personuppgiftsbefriade versionen av journalsystemet?

Incidenter med att obehöriga läser journaler de inte borde händer kanske inte särskilt ofta. I Göteborg är det mest kända exemplet journalen för politikern Leif Blomman Blomberg som avled på sjukhus efter en hjärnblödning. Av de 38 personer som kollat hans journal var det bara 10 som egentligen hade en rimlig orsak [1] – det vill säga att de var inblandade i vården av patienten.

Hade det inte varit fantastiskt om detta gick att hindra? Automatiskt?
Vid vissa uppenbara fall är det givetvis så att system kan designas för att minska överträdelser. Om den anställde har helt fel förkunskaper, jobbar på fel ort, för stunden har semester, är på fel sida av jordklotet och med bred marginal inte klarade alkotestet i bilen för 15 minuter sedan… åtminstone då borde man våga blockera åtkomst till vissa journaler. Eller hur? Frågan är väl var gränsen ska dras då den rimligen ska dras något tidigare 🙂

Vad krävs för att kunna närma sig det där fantastiska med big data?

Det svåra med big data? Jag skulle vilja påstå att man behöver veta hur man undviker att dra felaktiga slutsatser på grund av övertro om datakällans korrekthet, bland mycket annat. För att dra parallellen med ‘molnet’ så tenderar dessa buzzwords att vara lösningen på allt från världssvälten till din organisations utmaningar att vara innovativa. Ofta får man det förklarat för sig att det inte är särskilt svårt. Vilken tur 🙂

Vilka slutsatser dras av denna data och hur viktigt är resultatet?

En anekdot på ämnet landade i min brevlåda idag i form av ett brev från Bredbandsbolaget. Jag har nyligen sagt upp den ADSL-anslutning de levererat i många år. Bekräftelsen på uppsägningen har en klart märklig adress. Gatuadressen är korrekt, men postnumret är 418 74 istället för 412 72. Det gör en ganska stor skillnad som du ser på bilden ovan, närmare bestämt drygt 6 kilometer. Det röda krysset till höger på bilden är där jag egentligen bor, det vill säga Bö i Örgryte/Härlanda, uppe till vänster i närheten av Biskopsgården stämmer med postnumret.

Dessa 6 kilometer gör bland annat att jag på postnummer 418 74:

  • Tenderar att sympatisera en hel del mer åt vänster på den politiska skalan.
  • I snitt säkert tjänar 100 000 mindre eller har ännu sämre årsinkomst.
  • I belastningsregistret kanske är mer av en våldsbrottsling snarare än att ha näringsförbud på grund av flagrant skattefusk.
  • Antagligen har andra semestervanor, eller sannolikhet till att ha en sommarstuga.

Om Bredbandsbolaget ska analysera vilka som sagt upp sin ADSL-uppkoppling kan precisionen bli lidande om de felaktigt grupperar in mig och mina grannar i Biskopsgården, om de nu utgår från postnummer.

Frågan du ska ställa dig är hur ofta bekymmer som Bredbandsbolagets förekommer i din data… För att ta reda på detta bör du nog utvärdera din viktiga data i stor skala innan du använder den på nytt. Bredbandsbolaget kunde, om de ville, kolla om gatuadressen och postnumret matchade innan de skickade brev till mig.

Vad kan du göra för att verifiera din insamlade data?

Leave a Reply

Your email address will not be published. Required fields are marked *

Denna webbplats använder Akismet för att minska skräppost. Lär dig hur din kommentardata bearbetas.