Contact

Nieuws

De data blijft veranderen en toenemen. Hoe houdt u controle op en inzicht in op uw data?

Een theoretische en praktijkgerichte visie op ongestructureerde data.

Minimaal 80% van de data bestaat uit ongestructureerde data. Feit is dat deze data vaak geen vooraf vastgesteld dataformat heeft en ook niet op een dergelijke wijze is opgeslagen. Dit maakt het analyseren dan ook veel lastiger. Enkele concrete voorbeelden zijn:

  • Bedrijfsdata bestaande uit e-mails, presentaties, tekstdocumenten, etc.
  • Data gegenereerd uit opgenomen gesprekken binnen b.v. callcenters 
  • Data uit social media (user generated content) zoals reacties, posts, etc.
  • Foto’s en video’s op telefoons, tablets en andere datadragers
  • Toenemende vormen van data uit Internet of Things

Gartner heeft ongestructureerde data gekoppeld aan de drie V’s, te weten Volume, Velocity en Variety:

Volume: Ongestructureerde data groeit exponentieel en vereist daardoor veel meer opslag.
Velocity: Data formaten veranderen continu en data circuleert in een steeds hoger tempo. Voorbeelden zijn gebeurtenissen en nieuwsberichten waarop mensen reageren via social media. Het is van groot belang sneller en efficiënter deze data te kunnen verwerken en daarin inzicht te krijgen.
Variety: Waar in het verleden data in vooraf vastgesteld format (excel, csv, access) werd vastgelegd, wordt het nu in veel andere formaten gegenereerd. Enkele voorbeelden zijn video, drone-data of verschillende formaten van tekstdocumenten. Met name deze laatste wordt verder behandeld in dit artikel.

Voorbeeld uit de praktijk
Een internationale gerechtelijke organisatie is belast met het onderzoek en het vergaren van bewijslast naar ingrijpende gebeurtenissen die op geopolitieke schaal hebben plaatsgevonden binnen Europa. Doordat deze gebeurtenissen zijn terug te voeren over een periode van enkele tientallen jaren, is er sprake van zeer veel gedocumenteerde informatie. Naast het feit dat het vaak ondoenlijk is om dit handmatig te verwerken, varieert ook de kwaliteit van deze informatie in grote mate. Het analyseren en verkrijgen van inzicht wordt hierdoor niet eenvoudiger. Hier is dus sprake van grote hoeveelheden ongestructureerde informatie.

Oplossing
Om de data inzichtelijk te krijgen en grotere hoeveelheden data sneller en efficiënter te kunnen verwerken, is men gestart met de inzet van i2 Analyst’s Notebook in combinatie met Rosoka. Rosoka is volledig geïntegreerd binnen Analyst’s Notebook en extraheert automatisch entiteiten, relaties en verbanden binnen de geïmporteerde data binnen seconden. Inmiddels worden ruim 200 talen ondersteund, waardoor dit een uitstekende aanvulling is op de middelen die een internationale organisatie voor dit doel tot haar beschikking heeft. De resultaten worden uiteindelijk in een verwerkbaar formaat weergegeven binnen de Analyst’s Notebook software, zodat analisten hier de nodige inzichten uit kunnen halen. Door efficiëntie, betrouwbaarheid en betere inzichten worden hierdoor grote voordelen behaald.

Wilt u meer weten over dit voorbeeld uit de praktijk of wilt u kijken welke de voordelen zijn die u binnen uw organisatie kunt behalen? Neem dan contact met ons op.