Groot data is groot nuus deesdae. Maar die meeste organisasies hou op die ou end net groot hoeveelhede data op, wat hulle met 'n massiewe bewaarplek van ongestruktureerde – of “donker” – data laat wat vir enigiemand min van nut is.

Gegewe die potensiële voordele van groot data, is dit van kardinale belang dat ons beter maniere vind om data in te samel, te berg en te ontleed om die beste daarvan te maak.

Verhale van groot data suksesse het aansienlike beleggings in grootdata-inisiatiewe veroorsaak. Dit het baie organisasies aangespoor om aansienlike volumes eksterne en interne data in te samel in sogenaamde "data mere”. Dit is bewaarplekke wat data in enige formaat bevat, hetsy gestruktureerd, soos databasisse, of ongestruktureerd, soos e-posse of oudio en video.

Gevolglik gaan die groei in die hoeveelheid data wat gegenereer, versamel en gestoor word voort teen 'n eksponensiële tempo.

Maar volgens 'n onlangse IBM-studie, is meer as 80% van alle data onaktief, onbestuurd, dikwels ongestruktureerd, sonder betekenisvolle metadata, en selfs onbekend aan die organisasie. Die verhouding van hierdie donker data sal na verwagting 93% teen 2020 bereik.


innerself teken grafiese in


Daar kan byvoorbeeld verwag word dat data gegenereer vanaf voertuig-aanboordtoestelle 350 MB data elke sekonde sal bereik. Waarheen gaan al hierdie data en wie gebruik dit?

Organisasies kan ook beduidende interne data genereer. Byvoorbeeld, a onlangse studie gevind dat 'n maatskappy met 1,500 2.5 werknemers ongeveer 12 miljoen sigblaaie gehad het, wat elkeen gemiddeld net deur XNUMX mense gebruik is.

Wat meer is, daar is bewyse van 'n verskeidenheid ongestruktureerde data soos dokumentweergawes, projeknotas en e-posse wat van organisatoriese prosesse agtergelaat word en daarna dormant in databedieners sit.

Gebruik dit of verloor dit

Lesse geleer uit jare se navorsing in inligtingstelselgebruik het getoon dat die aanname dat “meer beter is” wanneer dit by data kom, ongegrond is.

Selfs in tradisionele IT-projekte wat sorgvuldig vervaardigde analise- en ontwerplewensiklusse volg, was die wanbelyning tussen waargenome en werklike waarde 'n berugte moeilike probleem, wat dikwels tot swak opbrengs op belegging lei.

In groot data-projekte kan die data dikwels ekstern verkry word met min of geen kennis van die skemata, kwaliteit of verwagte bruikbaarheid daarvan. Die risiko om beleggings te maak wat nie sal lewer nie, word dus aansienlik verhoog.

Die ou gesegde van "gebruik dit of verloor dit" is geensins verouderd nie, en bring die aandag terug na die doel van hoe ons groot data gebruik. Organisasies kan data om 'n verskeidenheid redes behou, insluitend databewaringsregulasies, maar waargenome toekomstige waarde is tipies die hoofrede.

Alhoewel berging relatief goedkoop is, gegewe die volume data wat geassimileer word, is die instandhouding en kragverbruik van datasentrums is nie triviaal nie. Verder is daar koste en risiko's wat verband hou met die sekuriteit van sulke onbestuurde data.

Die definisie van die doel is dus deurslaggewend om te verseker dat grootdata-beleggings op 'n betekenisvolle probleem gerig is, en data-insameling en -berging is goed geregverdig.

Benaderings soos ontwerp denke, wat mense aanmoedig om kreatiewe oplossingsgerigte denke te gebruik, blyk hoogs suksesvol te wees in werklike probleemformulering vir groot data.

Wat is ontwerpdenke?

Wanneer dit toepaslik toegepas word, kan ontwerpdenke datawetenskaplikes toerus om wenslikheid (kliëntbehoefte) en lewensvatbaarheid (besigheidswaarde) met tegnologiese haalbaarheid saam te bring, en sodoende hulle te lei tot die ontwikkeling van betekenisvolle oplossings.

Vullis in, vullis uit

Wanneer die gaping tussen dataskepping en -gebruik groter word, maak dit dit meer waarskynlik dat datakwaliteit afneem. Dit beteken 'n organisasie sal baie moeite moet doen om ou data skoon te maak as hy dit vandag wil gebruik.

Volgens die Amerikaanse hoofdatawetenskaplike DJ Patil:

Data is baie morsig, en data-opruiming sal altyd letterlik 80% van die werk wees. Met ander woorde, data is die probleem.

Vroeër vanjaar het 'n groep globale denkleiers van die databasisnavorsingsgemeenskap die groot uitdagings om waarde uit groot data te kry. Die sleutelboodskap was die behoefte om die kapasiteit te ontwikkel om "te verstaan ​​hoe die kwaliteit van daardie data die kwaliteit van die insig wat ons daaruit verkry, beïnvloed".

Die goue beginsel van "rommel in, vullis uit" is steeds waar in die konteks van groot data. Sonder wetenskaplik geloofwaardige kennis wat die vermoë verskaf om die onderliggende kwaliteitskenmerke van die data doeltreffend te evalueer, is daar 'n beduidende risiko dat organisasies en regerings groot volumes van lae waarde digtheid data, of belê in lae opbrengs-op-belegging data produkte.

Boonop kan die gebrek aan kennis oor die onderliggende data (verspreidings, semantiek en ander nuanses) lei tot analitiese strikke, waar die data-analise tot foutiewe, en moontlik gevaarlike, gevolgtrekkings kan lei.

Data verkenning kom na vore as 'n belowende benadering om gebruikers met verkennende vermoëns te bemagtig om die kwaliteit van die data te ondersoek en bewustheid te kry van data se tekortkominge in terme van die beoogde gebruik daarvan, en dit te doen voordat hulle in duur dataskoonmaak- en kurasietake belê.

Die soeke na verligting uit die datavloed sal die energie en beleggings van die data-gedrewe samelewing in die afsienbare toekoms verbruik. Terwyl daar ontsaglike krag in die skaal van data is, sal dit organisasies in die afgrond van donker data dryf wanneer dit sonder toesig gelaat word.

Dit alles onderstreep die groeiende behoefte aan goed opgeleide datawetenskaplikes wat die vermoë het om 'n goed geregverdigde besigheids-, wetenskaplike of sosiale doel te verwoord en dit in lyn te bring met die tegnologiese pogings vir data-insameling, berging, samestelling en ontleding.

Die gesprek

Oor Die Skrywer

Shazia Sadiq, professor, data- en kennisingenieurswese, Die Universiteit van Queensland

Hierdie artikel is oorspronklik gepubliseer op Die gesprek. Lees die oorspronklike artikel.

verwante Boeke

at InnerSelf Market en Amazon