Data Lake: come evolve nel 2021, tra successi e fallimenti

Gli attuali data lake potrebbero diventare il centro di gravità delle architetture di dati aziendali? Una domanda che molti esperti di data analytics si pongono e che sembra sempre più probabile trovi una risposta positiva, in virtù anche delle recenti accelerazioni negli sviluppi e nella pervasività del mondo IT.

Oggi è diventata evidente l’importanza strategica per le aziende di disporre di un’architettura tecnologica che consenta di gestire la rapida mutabilità e scalabilità dei dati. Molte organizzazioni hanno perciò iniziato a cercare soluzioni per implementare moderne architetture di dati che sfruttino a fondo gli analytics e permettano, allo stesso tempo, di tenere i costi sotto controllo. Una direzione strategica che potrebbe davvero far diventare i data lake il perno delle architetture dati. E i numeri confermano il trend.


Data lake: un incremento annuo di mercato del 30%

Secondo un recente rapporto di Mordor Intelligence, nel 2020 il mercato dei data lake ha raggiunto i 3,74 miliardi di dollari e dovrebbe toccare i 17,60 miliardi di dollari entro il 2026, con un CAGR del 29,9% nel periodo 2021 – 2026. Cifre importanti che riflettono il crescente interesse delle aziende verso i data lake, e che sembrano anche indicare che il paradigma secondo cui per interrogare e analizzare i dati sia necessario estrarli e caricarli in un costoso data warehouse proprietario abbia oggi, in molte situazioni, una valida e più economica alternativa, per l’appunto i data lake.

Questi, lo ricordiamo, sono soluzioni ibride di gestione dei dati che possono offrire una chiave per risolvere le sfide poste dai big data e attivare nuovi livelli di analisi in tempo reale. Un ambiente altamente scalabile può supportare volumi estremamente grandi di dati che arrivano da un’ampia varietà di fonti nel loro formato nativo. Le soluzioni basate su data lake aiutano ad abbattere i “tradizionali” silos, consentendo alle organizzazioni di ottenere una visione a 360 gradi delle informazioni e di condurre analisi interdipartimentali, tra più uffici o anche regioni.

I data lake permettono anche l’adozione di tecnologie come l’AI e l’IoT. Anzi, proprio queste tecnologie, assieme al machine learning, potrebbero portare verso un data discovery visuale per ottenere più valore, spostando l’attenzione dalla mera gestione dell’enorme volume di dati alla possibilità di raccogliere preziose informazioni per una strategia di business data-driven.


Costi, sicurezza e governance

Un impulso alla più ampia diffusione dei data lake potrebbe arrivare dalle maggiori necessità di controllo di costi, sicurezza e governance dei dati imposto dalle attuali condizioni macroeconomiche combinate con le nuove leggi sulla privacy e dalle preoccupazioni di violazione della sicurezza.

Questi fattori rendono interessante la costruzione di piattaforme aziendali basate sui data lake, che permettano di ridurre drasticamente i costi complessivi del cloud eliminando le copie di dati (spesso estratti e condivisi senza la supervisione o il controllo dell’IT) e la necessità di ricorrere sempre ai data warehouse. Le tecnologie di monitoring dei data lake delle versioni dei dati potrebbero poi permettere una governance centralizzata, aumentando significativamente la flessibilità e l’agilità poiché tutte le applicazioni lavorano su set di dati senza doverli far migrare tra più sistemi separati e chiusi.

E non solo. Alcuni nuovi progetti open source porteranno in breve all’integrazione di funzionalità non ancora presenti nei data warehouse e che consentiranno analisi dei dati più precise per capire se, come e perché sono avvenuti cambiamenti nel tempo.


Tante le sfide, ma allora perché la domanda continua a crescere?

C’è però il rovescio della medaglia. L’implementazione di un data lake di produzione nel cloud richiede solitamente da sei a nove mesi di sviluppo. In più, senza un monitoraggio e una gestione frequente e regolare, gli investimenti annuali richiesti per mantenere le implementazioni possono crescere in modo esponenziale. A questo si aggiunge che la necessità di team di DevOps, professionisti della sicurezza ed esperti del cloud, e le complessità che comportano, possono essere un grande ostacolo per le imprese che vogliono sfruttare i vantaggi dei data lake in cloud senza avere in mano un progetto adeguato. Non stupisce, quindi, che Gartner nel 2016 abbia registrato un tasso di fallimento dei progetti di data lake e big data del 60%, rivedendolo al rialzo l’anno successivo per portarlo addirittura all’85%.

Nonostante questi ostacoli, in questi anni la domanda di data lake è costantemente aumentata. Le imprese hanno compreso il valore e il grande potenziale di questa risorsa per individuare informazioni strategiche attraverso la raccolta e l’analisi di dati provenienti da numerose fonti eterogenee. Un modo davvero efficace di sfruttare i dati di un’organizzazione.

Infine, va poi considerato che entro il 2021 potremmo vedere diversi progetti che portano alla convergenza di data warehouse e data lake in modo da poter sfruttare il meglio dei due mondi.

Tag