Data Catalog, 5 caratteristiche del software ideale

Dalla capacità di sfruttare al meglio i propri dati dipende ormai buona parte delle decisioni e, di conseguenza, delle fortune di un’azienda. In pochi possono infatti chiamarsi fuori dalla necessità di contare su un sistema di Data Analytics affidabile. Per arrivarci però, è indispensabile una strategia di Data Governance e il primo passo è un Data Catalog affidabile.

Ogni organizzazione ha infatti bisogno di un insieme di regole e processi interni su come debbano essere utilizzati i dati, con rispettivi ruoli e mansioni. Capire dove si trovino questi dati, come organizzarli e come metterli al servizio dell’analisi, è il primo passo per individuare i KPI e tradurli in strumenti di supporto alle diverse mansioni e relativi obiettivi.

Si parla di un’applicazione legata a processi, ruoli e regole. Di conseguenza, con un elevato fattore di personalizzazione. Si possono però individuare cinque caratteristiche importanti per definire un Data Catalog, utili in qualsiasi circostanza. Anche solo per evitare il proliferare di strategie indipendenti all’interno di una stessa azienda, con relative difficoltà nel comunicare e condividere e nel mettere a punto le relative strategie.


Data Catalog: dalla parte dell’utente

Prima di tutto, occorre curare l’interfaccia utente. In generale, è difficile prevedere chi e come utilizzerà il Data Catalog. Serve quindi costruire un’interfaccia semplice, con procedure guidate e a prova di errore nell’inserimento o nella gestione dei dati e soprattutto nei metadati. Anche per gli utenti esperti, semplicità significa ridurre la possibilità di errori. È importante quindi superare ogni eventuale remora sulla professionalità di un’interfaccia, con il relativo timore di uno strumento eccessivamente semplice, al limite del banale, senza il timore di affidarsi a colori e a grafiche per guidare le operazioni.

Un altro problema da evitare, potenzialmente in grado di minare sin dalle origini la qualità dei dati aziendali, è la gestione dei duplicati o dei sinonimi. Se esistono più modi per riferirsi a uno stesso oggetto, una procedura o un prodotto, è fondamentale riuscire a prevederli tutti e fare in modo all’occorrenza di ricondurli alla stessa voce. Per quanto possibile, con il supporto di strumenti automatici. In alternativa, limitare i potenziali input definendo un insieme di voci ammissibili, facendo però attenzione anche a non circoscrivere eccessivamente il raggio d’azione degli utenti, potenzialmente in difficoltà nel trovare il termine corretto accettato dal Data Catalog.

Per esempio, il riferimento a una località. Dal punto di vista più generico, può essere inserito usando il nome originale, oppure quello nella propria lingua. Oppure ancora, in un terzo idioma internazionale. Senza dimenticare i potenziali nomignoli o contrazioni.

Fondamentale è di conseguenza la fase di definizione dei metadati, in pratica il vero nucleo del Data Catalog. In estrema sintesi, i metadati sono le chiavi di ricerca attraverso i quali gli utenti risaliranno all’informazione desiderata. Per esempio, tutti i parametri con i quali rintracciare un libro nel database di una biblioteca. A seconda del ruolo aziendale e dell’obiettivo, possono essere  estremamente variabili per numero e tipo ed è importante soddisfare ogni possibile esigenza. D’altra parte, è altrettanto importante essere molto rigorosi nella scelta e nella gestione. È necessario esaminare come inserire i metadati, i relativi formati e quando siano indispensabili o quando invece opzionali.


I vantaggi dell’automazione grazie a un Data Catalog

A questo punto appare quasi scontato capire quanto sia difficile, se non impossibile, fare a meno di una gestione automatizzata. Tra le conseguenze più evidenti della digitalizzazione, c’è infatti un’esplosione incontrollata di dati da gestire e, prima di tutto, da raccogliere e catalogare.

Non solo è impensabile farlo manualmente. Per elaborarli e classificarli è praticamente indispensabile affidarsi a un software con strumenti di Learning Machine e relativa Intelligenza Artificiale. Si rivelerà particolarmente utile anche nella fase di analytics, per le funzioni previsionali.

Infine, un buon risultato dipende anche dal livello di confidenza dell’utente. Quindi, nel limite del possibile meglio puntare su dashboard non rigide, con elementi di personalizzazione in grado di mettere a proprio agio in ogni circostanza. Un discorso collegato anche alle fasi successive di estrazione dei dati, dove ognuno possa essere in condizione di ricavare il report desiderato. Sempre però mantenendo un’uniformità di fondo, utile anche a favorire la condivisione  e relativa collaborazione.

Partendo da questi principi è possibile costruire fondamenta solide per il proprio Data Catalog e quindi per una Data Governance alleata delle strategie aziendali. Aspetto non trascurabile, preziosa anche in sede di conformità.

Devono restare tuttavia elevati gli spazi di personalizzazione. Se sul fronte della raccolta e validazione le esigenze possono essere meglio codificate, accesso e analisi sono strettamente legati a processi e a strategie interne. Per quanto sia difficile indicare una soluzione precisa di Data Catalog sul mercato, certamente un buon punto di partenza nella valutazione delle possibili soluzioni può essere guardare proprio a proposte attente alla personalizzazione, a partire da prodotti come Talend, Qlik o Irion.

Tag