I dati sintetici stanno cambiando il modo in cui si addestra l’AI

Addestrare un modello AI richiede grandi volumi di dati. Raccoglierli, etichettarli e renderli utilizzabili è un processo costoso, lento e spesso problematico dal punto di vista della privacy. I dati sintetici offrono un'alternativa: dati generati artificialmente che replicano le proprietà statistiche dei dati reali senza contenere informazioni personali identificabili. Secondo Gartner, questa tecnologia è già in fase di early mainstream, con una penetrazione tra il 5% e il 20% del mercato target, e l'adozione è in crescita in tutti i settori.

Cosa sono i dati sintetici

I dati sintetici sono una classe di dati generati artificialmente invece che ottenuti attraverso osservazione diretta del mondo reale. Vengono usati come proxy dei dati reali in un'ampia varietà di casi d'uso: anonimizzazione dei dati, sviluppo di modelli AI e machine learning, condivisione di dati tra organizzazioni e monetizzazione dei dati stessi.

Il punto critico è che possono essere generati rapidamente, in modo economicamente efficiente e senza contenere informazioni personali identificabili o dati sanitari protetti. Questo li rende una tecnologia preziosa per la preservazione della privacy, un requisito sempre più stringente nelle normative di molti settori.

Perché servono

Raccogliere e etichettare dati reali per lo sviluppo di modelli AI è un task che richiede tempo e risorse significativi. Per alcuni casi d'uso, come l'addestramento di modelli per veicoli autonomi, raccogliere dati reali che coprano il 100% dei casi limite è praticamente impossibile. I dati sintetici risolvono questo problema permettendo di generare scenari rari o pericolosi senza il costo e il rischio di riprodurli nella realtà.

Gartner identifica sei aree di impatto principali: evitare l'uso di dati personali nell'addestramento dei modelli attraverso varianti sintetiche; ridurre costi e tempi nello sviluppo del machine learning; migliorare le performance dei modelli con dati più adatti allo scopo specifico; abilitare nuovi casi d'uso per cui esistono pochi dati reali disponibili; affrontare i problemi di bias e tossicità nei dataset; permettere il test del software su dati realistici ma privati, senza rischi normativi.

I settori dove cresce di più

Nei settori regolamentati come la sanità e la finanza, l'interesse degli acquirenti sta crescendo rapidamente. I dati tabulari sintetici permettono di preservare la privacy nei dataset di addestramento AI rispettando le normative sulla protezione dei dati. Per soddisfare la domanda crescente di dati sintetici per l'addestramento all'automazione del linguaggio naturale, in particolare per chatbot e applicazioni vocali, i vendor stanno portando sul mercato nuove soluzioni che espandono il panorama dei fornitori e accelerano l'adozione.

Le applicazioni dei dati sintetici si sono espanse oltre i casi d'uso originari nell'automotive e nella computer vision per includere la monetizzazione dei dati, il supporto ad analytics condivise con partner esterni, la valutazione di piattaforme e lo sviluppo di dati di test.

Il legame con i modelli fondazionali

I grandi modelli fondazionali, inclusi quelli di GenAI, usano già dati sintetici per il proprio addestramento. Le architetture transformer e diffusion, che costituiscono le fondamenta tecnologiche della GenAI, stanno abilitando la generazione di dati sintetici di qualità sempre più elevata. L'emergere dei modelli di frontiera ha evidenziato i dati sintetici come metodo economicamente sostenibile per costruire modelli scalabili.

Cosa tenere presente nell'adozione

I dati sintetici presentano alcune limitazioni che è utile conoscere. L'addestramento di modelli multimodali su dati sintetici è più complesso perché i dati multimodali hanno gradi variabili di qualità e formati rispetto ai dati unimodali, amplificando le sfide legate a costo, tempo di addestramento e accuratezza degli output. La disponibilità di dati può essere limitata in alcune modalità, come set di dati audio su larga scala o immagini sanitarie, condizionando la qualità dell'addestramento. I regolamenti e gli standard in questo ambito sono ancora in evoluzione e spesso in ritardo rispetto alle capacità tecnologiche.

Il punto

I dati sintetici non sono un espediente per chi non ha dati reali. Sono uno strumento che risolve problemi concreti di privacy, costo, disponibilità e qualità dei dati di addestramento. Le organizzazioni che li integrano nel proprio stack AI ottengono più flessibilità nello sviluppo dei modelli, minori rischi normativi e la possibilità di lavorare su casi d'uso che sarebbero impraticabili con dati esclusivamente reali.