Cosa sono i dati sintetici?
I dati sintetici sono dati non creati dall'uomo che imitano i dati del mondo reale. È creato da algoritmi di calcolo e simulazioni basate su tecnologie di intelligenza artificiale generativa. Un set di dati sintetici ha le stesse proprietà matematiche dei dati effettivi su cui si basa, ma non contiene nessuna delle stesse informazioni. Le organizzazioni utilizzano dati sintetici per la ricerca, i test, i nuovi sviluppi e la ricerca sul machine learning. Le recenti innovazioni nell'intelligenza artificiale hanno reso la generazione di dati sintetici efficiente e veloce, ma l'hanno anche resa oggetto di preoccupazioni per quanto riguarda la regolamentazione dei dati.
Quali sono i vantaggi dei dati sintetici?
I dati sintetici offrono diversi vantaggi alle organizzazioni. Ne esaminiamo alcuni di seguito.
Generazione di dati illimitata
È possibile produrre dati sintetici su richiesta e su scala quasi illimitata. Gli strumenti di generazione di dati sintetici sono un modo conveniente per ottenere più dati. Possono anche pre-etichettare (classificare o contrassegnare) i dati che generano per casi d'uso di machine learning. Puoi accedere a dati strutturati ed etichettati senza dover passare attraverso il processo di trasformazione dei dati grezzi da zero. Puoi anche aggiungere dati sintetici al volume totale di dati a tua disposizione, ottenendo più dati di addestramento per l'analisi.
Protezione della privacy
Settori come l'assistenza sanitaria, la finanza e il settore legale hanno molte normative sulla privacy, sul copyright e sulla conformità per proteggere i dati sensibili. Tuttavia, devono utilizzare i dati per l'analisi e la ricerca, spesso dovendo esternalizzare i dati a terze parti per il massimo utilizzo. Invece di dati personali, possono utilizzare dati sintetici per lo stesso scopo di questi set di dati privati. Creano dati simili che mostrano le stesse informazioni statisticamente rilevanti senza esporre dati privati o sensibili. Prendi in considerazione la ricerca medica che crea dati sintetici da un set di dati in tempo reale: i dati sintetici mantengono la stessa percentuale di caratteristiche biologiche e marcatori genetici del set di dati originale, ma tutti i nomi, gli indirizzi e le altre informazioni personali dei pazienti sono falsi.
Riduzione delle distorsioni
Puoi utilizzare dati sintetici per ridurre le distorsioni nei modelli di addestramento dell'IA. Poiché i modelli di grandi dimensioni in genere si basano su dati disponibili al pubblico, possono esserci delle distorsioni nel testo. I ricercatori possono utilizzare dati sintetici per fornire un contrasto con qualsiasi linguaggio o informazione distorta raccolta dai modelli di intelligenza artificiale. Ad esempio, se determinati contenuti basati sulle opinioni favoriscono un determinato gruppo, puoi creare dati sintetici per bilanciare il set di dati complessivo.
Quali sono i tipi di dati sintetici?
Esistono due tipi principali di dati sintetici: parziali e completi.
Dati sintetici parziali
I dati parzialmente sintetici sostituiscono una piccola porzione di un set di dati reale con informazioni sintetiche. Puoi usarlo per proteggere parti sensibili di un set di dati. Ad esempio, se devi analizzare dati specifici del cliente, puoi sintetizzare attributi come nome, dettagli di contatto e altre informazioni reali che qualcuno potrebbe ricondurre a una persona specifica.
Dati sintetici completi
I dati sintetici completi sono quelli in cui vengono generati dati completamente nuovi. Un set di dati completamente sintetico non conterrà dati reali. Tuttavia, utilizzerà le stesse relazioni, distribuzioni grafiche e proprietà statistiche dei dati reali. Sebbene questi dati non provengano da dati registrati effettivi, consentono di trarre le stesse conclusioni.
È possibile utilizzare dati completamente sintetici durante il test dei modelli di machine learning. È utile quando si desidera testare o creare nuovi modelli ma non si dispone di dati di training reali sufficienti per una migliore precisione del ML.
Come vengono generati i dati sintetici?
La generazione di dati sintetici implica l'uso di metodi e simulazioni computazionali per creare dati. Il risultato imita le proprietà statistiche dei dati del mondo reale, ma non contiene osservazioni reali. I dati generati possono assumere varie forme, tra cui testo, numeri, tabelle o tipi più complessi come immagini e video. Esistono tre approcci principali per generare dati sintetici, ognuno dei quali offre diversi livelli di precisione e tipi di dati.
Distribuzione statistica
In questo approccio, i dati reali vengono prima analizzati per identificare le distribuzioni statistiche sottostanti, come le distribuzioni normali, esponenziali o chi-quadrate. I data scientist generano quindi campioni sintetici da queste distribuzioni identificate per creare un set di dati che assomiglia statisticamente all'originale.
Basato su modelli
In questo approccio, viene addestrato un modello di machine learning per comprendere e replicare le caratteristiche dei dati reali. Una volta addestrato, il modello può generare dati artificiali che seguono la stessa distribuzione statistica dei dati reali. Questo approccio è particolarmente utile per creare set di dati ibridi, che combinano le proprietà statistiche dei dati reali con elementi sintetici aggiuntivi.
Metodi di deep learning
Tecniche avanzate come reti antagoniste generative (GAN), autoencoder variazionali (VAE) e altre possono essere impiegate per generare dati sintetici. Questi metodi vengono spesso utilizzati per tipi di dati più complessi, come immagini o dati di serie temporali, e possono produrre set di dati sintetici di alta qualità.
Cosa sono le tecnologie di generazione di dati sintetici?
Di seguito vengono descritte alcune tecnologie avanzate che è possibile utilizzare per la generazione di dati sintetici.
Reti generative contraddittorie
I modelli di rete generativa antagonista (GAN) utilizzano due reti neurali che lavorano insieme per generare e classificare nuovi dati. Uno utilizza dati non elaborati per produrre dati sintetici mentre il secondo valuta, caratterizza e classifica tali informazioni. Entrambe le reti sono in concorrenza tra loro fino a quando la rete di valutazione non è più in grado di distinguere tra i dati sintetici e i dati originali.
Puoi utilizzare GAN per creare dati generati artificialmente che siano altamente naturalistici e presentino da vicino le variazioni dei dati del mondo reale, come video e immagini dall'aspetto realistico.
Scopri di più sulle reti antagoniste generative (GAN) »
Codificatori automatici variazionali
I codificatori automatici variazionali (VAE) sono algoritmi che generano nuovi dati in base alle rappresentazioni dei dati originali. L'algoritmo non supervisionato apprende la distribuzione dei dati grezzi, quindi utilizza l'architettura encoder-decoder per generare nuovi dati tramite una doppia trasformazione. L'encoder comprime i dati di input in una rappresentazione a dimensione inferiore e ricostruisce nuovi dati da questa rappresentazione latente. Il modello utilizza calcoli probabilistici per ricreazioni fluide.
Il VAE è particolarmente utile quando si generano dati sintetici molto simili con variazioni. Ad esempio, puoi usare VAE per generare nuove immagini.
Modelli basati su trasformatori
I trasformatori generativi pre-addestrati o i modelli basati su GPT utilizzano set di dati originali di grandi dimensioni per comprendere la struttura e la distribuzione tipica dei dati. Li usi principalmente nella generazione dell'elaborazione del linguaggio naturale (NLP). Ad esempio, se un modello di testo basato su trasformatori viene addestrato su un ampio set di dati di testo in inglese, apprende la struttura, la grammatica e persino le sfumature della lingua. Quando genera dati sintetici, il modello inizia con un testo iniziale (o prompt) e prevede la parola successiva in base alle probabilità apprese, generando una sequenza completa.
Quali sono le sfide nella generazione di dati sintetici?
Ci sono diverse sfide nella creazione di dati sintetici. Di seguito sono riportate alcune limitazioni e sfide generali che probabilmente incontrerai con i dati sintetici.
Controllo della qualità
La qualità dei dati è fondamentale nelle statistiche e nell'analisi. Prima di incorporare dati sintetici nei modelli di apprendimento, è necessario verificare che siano accurati e abbiano un livello minimo di qualità dei dati. Tuttavia, garantire che nessuno possa ricondurre i dati sintetici a informazioni reali può richiedere una riduzione dell'accuratezza. Un compromesso tra privacy e precisione potrebbe influire sulla qualità.
È possibile eseguire controlli manuali dei dati sintetici prima di utilizzarli, il che può aiutare a risolvere questo problema. Tuttavia, il controllo manuale può richiedere molto tempo se è necessario generare molti dati sintetici.
Sfide tecniche
La creazione di dati sintetici è difficile: è necessario comprendere le tecniche, le regole e i metodi attuali per garantirne l'accuratezza e l'utilità. È necessaria un'elevata esperienza in questo campo prima di generare dati sintetici utili.
Non importa quanta esperienza tu abbia dalla tua parte, è difficile generare dati sintetici come una perfetta imitazione della loro controparte reale. Ad esempio, i dati del mondo reale spesso includono valori anomali e anomalie che gli algoritmi di generazione di dati sintetici raramente riescono a ricreare.
Confusione tra le parti interessate
Sebbene i dati sintetici siano un utile strumento supplementare, non tutte le parti interessate possono comprenderne l'importanza. Trattandosi di una tecnologia più recente, alcuni utenti aziendali potrebbero non accettare che l'analisi dei dati sintetici abbia una rilevanza nel mondo reale. D'altra parte, altri potrebbero enfatizzare eccessivamente i risultati a causa dell'aspetto controllato della generazione. Comunica i limiti di questa tecnologia e i suoi risultati alle parti interessate, assicurandoti che comprendano sia i vantaggi che le carenze.
In che modo AWS può supportare le tue attività di generazione di dati sintetici?
Amazon SageMaker è un servizio completamente gestito che può essere utilizzato per preparare dati e creare, addestrare e implementare modelli di machine learning. Questi modelli sono adatti a qualsiasi caso d'uso con infrastruttura, strumenti e flussi di lavoro completamente gestiti. SageMaker consente di identificare i dati non elaborati, come immagini, file di testo e video, e generare dati sintetici etichettati per creare set di dati di alta qualità per i tuoi modelli di machine learning (ML).
- Amazon SageMaker Ground Truth è un'offerta self-service che semplifica l'etichettatura dei dati. Ti dà la possibilità di utilizzare annotatori umani tramite Amazon Mechanical Turk, fornitori di terze parti o la tua forza lavoro privata.
- Amazon SageMaker Ground Truth Plus è un servizio completamente gestito che consente di creare set di dati di formazione di alta qualità. Non è necessario creare applicazioni di etichettatura o gestire autonomamente la forza lavoro di etichettatura.
In primo luogo, devi specificare i requisiti dell'immagine o fornire asset 3D e immagini di base, come immagini di progettazione assistita dall'elaboratore (CAD). Gli artisti digitali AWS creano quindi immagini da zero o utilizzano risorse fornite dal cliente. Le immagini generate imitano la posa e il posizionamento degli oggetti, includono variazioni di oggetti o scene e, facoltativamente, aggiungono inclusioni specifiche, come graffi, ammaccature e altre alterazioni. Ciò elimina il lungo processo di raccolta dei dati o la necessità di danneggiare le parti per acquisire immagini. È possibile generare centinaia di migliaia di immagini sintetiche etichettate automaticamente con elevata precisione.
Inizia a usare oggi stesso con la generazione di dati sintetici in AWS creando un account gratuito.
Fasi successive su AWS
Ottieni accesso istantaneo al Piano gratuito di AWS.