Dal disordine dei dati all’AI personalizzata: la strategia Veeam per organizzare i dati in modo efficace

Immagine di freepik

L’AI è diventata rapidamente parte integrante della maggior parte delle organizzazioni: che si tratti di account enterprise per i più diffusi Large Language Models (LLM) o di progetti pilota sviluppati su misura, si sta affermando come un vero e proprio ‘dipendente’ di fiducia. Tuttavia, anche se può sembrare avere tutte le risposte, l’AI non sa tutto. Le organizzazioni possono ottenere output che a prima vista appaiono eccellenti, ma spesso sono generati a partire da ‘dati disordinati’: un’estetica impeccabile che nasconde fondamenta compromesse.

L’AI non crea nulla dal nulla. La qualità dell’output dipende interamente dall’accesso a dati validi, integri e rilevanti. Se questi si perdono in una massa di informazioni irrilevanti, l’AI finisce per attingere a qualsiasi elemento anche solo marginalmente pertinente, producendo risultati imprecisi e introducendo al contempo concreti rischi in termini di sicurezza e conformità normativa.

Se però le organizzazioni affrontano il problema in modo proattivo, tracciando un percorso chiaro all’interno dei propri dati—coerente con le più ampie esigenze di gestione del rischio—e fornendo all’AI solo le informazioni realmente necessarie, è possibile migliorare sensibilmente la qualità degli output.

L’AI è ciò di cui si nutre

Per molte organizzazioni, l’AI appare ancora come qualcosa di magico. Si pone una domanda a un LLM e, come per incanto, arriva una risposta articolata e apparentemente ben documentata. Ma non c’è nulla di magico: alla base di tutto ci sono i dati. Per produrre risposte accurate e utili, l’AI deve poter accedere a dati affidabili, non compromessi e soprattutto pertinenti.

È proprio per questo che il 95% dei progetti pilota di AI generativa in ambito aziendale continua a fallire: le organizzazioni attingono a un patrimonio informativo contaminato da dati Ridondanti, Obsoleti o Triviali (ROT). La crescita dei dati—accelerata anche dall’AI—è esplosa ed è rapidamente sfuggita al controllo. Oggi molte aziende non dispongono di una visione completa dei propri dati, permettendo ai ROT di accumularsi silenziosamente. E ora che si cerca di valorizzare questi patrimoni informativi attraverso l’AI, sono proprio i dati ROT a ostacolarne lo sviluppo.

Se le soluzioni AI “pronte all’uso”, come gli LLM, risultano relativamente semplici da implementare grazie a meccanismi di controllo integrati, l’AI interna e personalizzata richiede un approccio molto più strutturato. Spesso fatica a gestire la complessità delle regole di business e le continue attività di ottimizzazione necessarie per accedere a dati di qualità, finendo invece per utilizzare dati ROT e compromettendo i progetti pilota fin dalle fasi iniziali.

Il motivo è semplice: i dati ROT deteriorano la qualità degli output. Senza regole chiare e rigorose sui dati da utilizzare, i sistemi di AI personalizzati finiscono inevitabilmente per includere informazioni irrilevanti o obsolete, generando risultati lenti e inaccurati. Nella maggior parte dei casi, i progetti pilota falliscono non per mancanza di dati, ma perché le organizzazioni non sanno come indirizzare correttamente l’AI. E il problema tende a espandersi: se non gestito, non incide solo sui progetti AI, ma si estende anche alla gestione complessiva del rischio.

Non riuscire a vedere i dati

La frammentazione delle normative globali sull’AI può aver dato alle organizzazioni l’impressione di avere una priorità in meno da gestire, ma questo sollievo nel breve periodo comporta conseguenze nel lungo termine in termini di comprensione e visibilità dei dati. In assenza di pressioni normative e requisiti di conformità che spingano la governance tra le priorità strategiche, questa è stata spesso trascurata: il 92% delle organizzazioni non dispone ancora di piena visibilità sulle identità AI. Questo non solo ha rallentato i progetti pilota, ma sta anche penalizzando le aziende sul fronte della compliance e della governance. Senza sapere quali dati alimentano l’AI, quando le normative diventeranno più mature, il rischio è quello di dover rincorrere per adeguarsi.

Questa mancanza di visibilità ha implicazioni rilevanti anche sul piano della cybersecurity. Se, invece di costruire una solida base di controllo e pulizia dei dati, si concede all’AI accesso indiscriminato a tutte le informazioni aziendali, si crea non solo un sistema inefficiente, ma anche una pericolosa concentrazione di privilegi. Nelle mani sbagliate, questo può trasformarsi in un potente vettore di attacco. E mentre le aziende iniziano a comprenderne i rischi, anche gli attaccanti stanno facendo lo stesso. Una volta perfezionate le tecniche di attacco agli strumenti AI, questi potranno essere utilizzati come punto di ingresso per compromettere l’intera infrastruttura aziendale, analogamente a quanto avviene oggi con le identità eccessivamente privilegiate.

Eliminare i dati ROT oggi per favorire la crescita di domani

Invece di attendere che i problemi legati a cybersecurity e conformità emergano in tutta la loro portata, è fondamentale intervenire subito, alla radice. Gestire e ridurre l’accumulo di dati ROT prima che diventi critico è molto più efficace che agire a posteriori.

È necessario fare chiarezza sullo stato attuale dei propri dati, individuando e analizzando quelli da eliminare. Questo non solo migliora la qualità degli output dell’AI, ma contribuisce anche a proteggere l’organizzazione da rischi futuri. Una maggiore consapevolezza dei propri dati consente infatti di definire regole efficaci per l’utilizzo dell’AI personalizzata, garantendo che le informazioni utilizzate siano non solo pertinenti, ma anche sicure. In questo modo, i progetti pilota possono finalmente trasformarsi da insuccessi in casi di successo.

Con l’evoluzione inevitabile di regolamentazione e governance in ambito AI, emergerà un concetto chiave: la chiarezza. Senza una conoscenza approfondita sia dei dati sia dei sistemi AI, diventerà difficile spiegare come questi funzionano realmente. La sfida è significativa—solo nell’ultimo anno sono stati creati, acquisiti, copiati e consumati a livello globale 181 zettabyte di dati — ma, se i dati inutili impediscono di avere una visione chiara, è il momento di intervenire in modo deciso.