18 - 09 - 2023

L’intelligenza artificiale generativa è indubbiamente l’hype del 2023. Nessuna azienda, prodotto, evento o autore può evitare di confrontarsi con questo tema e con il suo rappresentante più noto: ChatGPT.

Lanciato a novembre 2022, il chatbot di OpenAI ha catturato l’attenzione del pubblico grazie alla sua straordinaria capacità di generare testi coerenti e contestualmente rilevanti, raggiungendo 100 milioni di utenti in soli due mesi e suscitando accesi dibattiti sulle implicazioni, le potenzialità e le sfide poste da questa tecnologia.

Una delle applicazioni più promettenti dei modelli generativi è anche fra le meno note e discusse: si tratta della produzione di dati sintetici.

Dati plausibili, e perciò utili

Siamo abituati a vedere i modelli di IA generativa messi alla prova in campi apparentemente creativi: creare nuove immagini, nuovi video, nuovi testi, nuova musica. Ma quello che fanno i modelli generativi come ChatGPT o Midjourney è creare qualcosa che sia statisticamente simile all’esistente: qualcosa di plausibile rispetto al dataset iniziale.

Perciò le capacità delle Intelligenze Artificiali Generative si prestano ottimamente a risolvere un ostacolo davanti a cui si trovano molte aziende nel momento in cui vogliono avviare progetti di Data Science: l’esigenza di avere un set di dati plausibili sufficientemente ampio.

In questo caso, la IA generativa viene usata per riprodurre dei dati con proprietà statistiche che siano coerenti con quelle osservate nel dataset originale, senza però corrispondere a dati reali effettivamente osservati.

Un esempio nel retail di lusso

Immaginiamo ad esempio che due aziende di articoli di lusso desiderino allenare un modello di Intelligenza Artificiale per individuare e prevedere le tipologie di clienti che acquistano da entrambe. Il dataset disponibile ha un numero di righe relativamente basso, come ovvio per un settore che per definizione si rivolge a un’elite di clienti. Inoltre, per entrambe le aziende è molto importante garantire la privacy dei propri clienti e la riservatezza delle informazioni aziendali: una semplice pseudonimizzazione non sarebbe considerata sufficiente, mentre una completa anonimizzazione rischierebbe di diminuire la significatività delle informazioni rimuovendo le relazioni fra gli elementi.

Un modello generativo risolve il problema sintetizzando nuovi dati con proprietà statistiche simili ai dati esistenti ma più numerosi (data augmentation) e totalmente privi di informazioni personali: su questo nuovo dataset possono essere svolte analisi o allenati modelli predittivi.

Dati sintetici: dalla ricerca al business

I dati sintetici non sono una novità: l’esigenza di generare dataset con determinate caratteristiche e l’idea di farlo attraverso modelli è molto diffusa in ambito scientifico. La qualità dei modelli generativi sviluppati nell’ultima decade e le recenti norme introdotte per regolamentare la protezione dei dati, hanno fornito a questa pratica un nuovo slancio in ambito aziendale.

Una prassi, che prima riguardava soprattutto ricercatori che dovevano testare o sviluppare sistemi avanzati di analisi dati, oggi è pronta a risolvere problematiche aziendali.

Quando sono utili i dati sintetici?

Scarsità

La possibilità di generare dati sintetici in ambito aziendale risulta decisiva quando i dati disponibili sono quantitativamente scarsi – ad esempio perché l’oggetto dell’analisi è per definizione un evento raro all’interno del dataset, come può accadere per il riconoscimento delle frodi.

Privacy

Un altro aspetto che rende utile il ricorso a dati sintetici è quando sono inclusi dati sensibili – soggetti a restrizioni di privacy riservatezza o sicurezza – che però non possono essere semplicemente omessi senza inficiare l’efficacia dell’intero dataset.

Vincoli e potenzialità

Queste caratteristiche possono rendere inattuabili o inefficaci alcune analisi, lo scambio di informazioni fra diverse aree della stessa organizzazione e lo sviluppo di modelli di apprendimento automatico per la risoluzione di problemi di business – come ad esempio Churn Prevention, Propensity o Anomaly Detection.

L’utilità dei dati sintetici per la tutela della privacy non è sfuggita nemmeno al legislatore europeo, che li menziona espressamente nell’AI Act come una soluzione per svolgere il training dei modelli senza dover ricorrere a dati reali di persone reali.

Il trade-off fra privacy, fedeltà e utilità.

Un’importante caratteristica dei dati sintetici è la similarità con il dato originale. Questa caratteristica si quantifica con metriche che ne valutano la fedeltà. Un dataset sintetico con un elevato livello di fedeltà garantisce anche un’elevata utilità ovvero la possibilità di utilizzare il dato sintetico per i medesimi scopi per cui viene utilizzato anche il dato originale – perché la somiglianza è molto elevata. Tuttavia, massimizzare fedeltà e utilità potrebbe causare la violazione dei requisiti della privacy.

La generazione dei dati sintetici è caratterizzata dalla tensione fra queste tre dimensioni: ogni volta che si genera un dataset è necessario valutare come bilanciare queste dimensioni in base al fine e ai dati di partenza, così da ottenere dei dati utili, di qualità e conformi alle esigenze di riservatezza e privacy.

Generativa, non generale

Mentre ChatGPT ha come scopo primario quello di dimostrare l’eccellenza raggiunta nella generazione di testi ed ha quindi confermato ampiamente il proprio successo nel momento in cui ha ottenuto la meraviglia di milioni di utenti, nelle applicazioni aziendali i requisiti sono più puntuali e difficilmente possono essere risolti con un’unica soluzione o modello. La problematica deve essere affrontata in maniera specifica, valutando l’importanza dei diversi aspetti e le implicazioni degli eventuali compromessi.

IA al lavoro - BitBang

Il dibattito su quanto una IA Generativa sia effettivamente creativa e se potrà fare concorrenza al prossimo Dante è ancora caldo, ma forse per le aziende una meno ambiziosa Intelligenza Artificiale in grado di generare informazioni credibili, prevedibili e non particolarmente innovative è ancora più preziosa.

La buona notizia è che è già pronta a lavorare per noi.