PME e PAE: due soluzioni per garantire il rispetto della privacy nell’IA
x icon pop up SCOPRI AIWAVE PLATFORM

Cerca sul sito

Non hai trovato quello che cercavi?

PME e PAE: come proteggere i dati sensibili nei LLM

Whisk_99674fc0aa9ccd7bc044e8b8507df755eg

Intelligenza Artificiale

23 settembre 2025

Cosa succederebbe se il tuo indirizzo email fosse memorizzato da un modello di intelligenza artificiale? O se le tue informazioni personali non fossero semplicemente archiviate nel cloud, ma incorporate nella rete neurale di un’IA, rese disponibili per essere estratte? 

Anche se si tratta di fenomeni marginali e poco frequenti, non è possibile ignorarli. I Large Language Model (LLM) come GPT possono, infatti, memorizzare inavvertitamente dati personali (PII) durante il training. Parliamo di informazioni sensibili come indirizzi email, numeri di telefono e persino URL di login. 

Diversi studi hanno dimostrato che, con i giusti prompt, è possibile forzare un modello a fornire (anche solo parzialmente) queste informazioni, se presenti nei dati di addestramento. 

Questo non significa però che dobbiamo temere l’IA o rinunciare a usarla. L’IA può essere gestita in modo responsabile ed efficace, proprio come sono state gestite le problematiche legate alla privacy con il lancio dei primi smartphone.  

La buona notizia è che possiamo insegnare ai modelli a non rivelare informazioni sensibili. La vera sfida diventa allora: una volta che un LLM ha appreso un’informazione privata, come possiamo spingerlo a “dimenticare” — senza dover ripartire da zero con un nuovo addestramento? 

In questo articolo analizzeremo più da vicino due soluzioni possibili: PAE (Private Association Editing) e PME (Private Memorization Editing), e vedremo come possono contribuire a risolvere questo delicato problema di privacy. 

Che cos’è la memorizzazione negli LLM?

Nel campo dell’intelligenza artificiale, per memorizzazione si intende la capacità di un modello non solo di riconoscere schemi, ma anche di conservare all’interno del modello, sequenze di dati in una forma testuale identica all’originale. 

Questo significa che il modello può richiamare dettagli esatti, come indirizzi email, numeri di telefono o persino URL, che si trovavano nei dati utilizzati per l’addestramento. Non si tratta di funzionalità nativamente prevista per gli LLM, ma di un effetto collaterale del training su dataset ampi e complessi. 

Inoltre, se un modello elabora query molto dettagliate o una serie di interazioni, può inconsapevolmente “memorizzare” informazioni private, che diventano così vulnerabili a un recupero successivo. 

La memorizzazione di dati sensibili rappresenta quindi un rischio per la privacy, ma è anche una sfida che può essere affrontata con le giuste misure e tecniche di protezione. 

L’obiettivo non è rinunciare ai vantaggi dell’IA, bensì garantire che i modelli possano essere utilizzati in modo efficace senza compromettere la riservatezza degli utenti. 

Da qui nasce la domanda: quali tecniche possiamo applicare per risolvere questo problema? 

Approcci esistenti 

Un metodo per rimuovere i dati sensibili da un modello di IA è il model unlearning, ovvero il riaddestramento del modello per fargli “dimenticare” informazioni specifiche. 

Si tratta però di un processo costoso e fortemente invasivo. 

Non solo richiede ingenti risorse computazionali, ma può anche compromettere le prestazioni complessive del modello: la fase di fine-tuning rischia infatti di alterare involontariamente le sue capacità generali o di introdurre nuovi bias. 

Oltre a problemi di costo e performance, il model unlearning può lasciare residui di dati sensibili, introdurre ulteriori distorsioni e rivelarsi poco pratico su larga scala. Inoltre, richiede spesso l’accesso ai dati originali di training, che possono contenere a loro volta ulteriori informazioni sensibili o contribuire a nuovi bias, e comporta anche un elevato impatto ambientale. 

AdobeStock_1092889827

PAE: una soluzione agile per la gestione delle relazioni tra dati

Il PAE (Private Association Editing) è una tecnica di raffinamento dei dati pensata per modificare le associazioni tra diversi elementi informativi. 

Ciò che distingue il PAE è la sua precisione: un singolo intervento può avere effetti molto ampi, proteggendo più persone contemporaneamente grazie all’eliminazione di legami indesiderati o superflui. 

Questa capacità risulta particolarmente utile in contesti che richiedono modifiche rapide e mirate, e funziona al meglio quando esiste un’associazione diretta ed esplicita tra i dati, ovvero tra specifiche informazioni. 

Tuttavia, il PAE presenta anche dei limiti. 

Ad esempio, non sempre riesce a intervenire su sequenze o schemi di dati profondamente radicati e “memorizzati” dai sistemi nel tempo. 

Inoltre, il PAE può non essere efficace nel prevenire fughe di dati quando le relazioni tra i diversi elementi non sono chiaramente definite. 

Ma cosa succede se andiamo a lavorare sulla memoria stessa, e non solo sulle associazioni?  

 Sebbene il PAE offra un modo più pulito per “scollegare” le associazioni, di fatto non affronta ciò che accade quando le informazioni sensibili vengono codificate direttamente, alla lettera, nei pesi del modello. È qui che entra in gioco il PME. 

Introduzione al PME: Private Memorization Editing  

Che cos’è il PME?

Partendo dal PAE, il PME (Private Memorization Editing) porta la protezione della privacy a un livello superiore.  

Se il PAE interviene sulle associazioni esplicite tra dati, il PME agisce invece direttamente sulla memoria interna di un modello, rimuovendo in modo mirato informazioni sensibili come:  

  • indirizzi email  
  • numeri di telefono  
  • API key  
  • dati personali identificabili (PII)  

Il PME opera quindi modificando la memoria interna del modello, andando a identificare e eliminare queste sequenze delicate ma mantenendo inalterate le prestazioni complessive. Si tratta di uno strumento preciso, che garantisce la tutela della privacy senza compromettere le capacità del modello.  

Perché il PME è così efficace? 

L’efficacia del PME deriva dalla sua precisione e dalla sua efficienza. Ecco i principali vantaggi: 

  • Preciso: il PME modifica solo le parti del modello responsabili della memorizzazione dei dati privati, lasciando intatte tutte le altre 
  • Adattabile: il PME può intervenire anche quando non esiste un’associazione chiara tra i dati 
  • Robusto: resiste agli attacchi di Training Data Extraction (TDE), anche di fronte a prompt lunghi o complessi 
  • Efficiente: non richiede un riaddestramento completo, risultando quindi una soluzione rapida, scalabile e in grado di preservare le capacità generali del modello.
AdobeStock_1621149878

Casi d’uso di PAE e PME

Entrambi gli algoritmi sono utilizzati principalmente per impedire al modello di generare informazioni sensibili. 

La differenza chiave tra i due riguarda il tipo di dato trattato. 

  • PAE viene di solito applicato quando esiste una relazione diretta tra i dati dell’utente e le informazioni da rimuovere. 
  • PME può invece mascherare dati sensibili anche in prompt più lunghi e complessi, senza la necessità di un’associazione esplicita. 

Ad esempio, se un utente si accorge che nei risultati di un modello compaiono informazioni personali, può chiederne la rimozione: in questo caso intervengono PAE o PME per impedirne ulteriori esposizioni. 

Il PME sostituisce il PAE? 

Il PME non sostituisce il PAE, ma lo completa. Si tratta infatti di due approcci distinti, da applicare in scenari diversi: 

  • PAE è più indicato quando esiste un’associazione chiara tra i dati di un utente e le informazioni da rimuovere. Serve a impedire che vengano generati dati sensibili riferiti a una persona specifica. 
  • PME, invece, è pensato per situazioni in cui non c’è un legame esplicito tra i dati e il prompt, ad esempio durante la fase di inferenza, quando il modello potrebbe generare informazioni sensibili come codici IBAN o testi di email. 

In futuro il PME potrebbe forse sostituire il PAE, ma al momento non ci sono ancora prove sufficienti per affermarlo.  

Siamo ancora nelle fasi iniziali di sviluppo di queste tecniche, ed è quindi fondamentale continuare a monitorare i progressi della ricerca che emergeranno nei prossimi anni. 

Per approfondire i dettagli tecnici e le potenzialità del PME, dai un’occhiata allo studio: Private Memorization Editing: Turning Memorization into a Defense to Strengthen Data Privacy in Large Language Models, di Elena Sofia Ruzzetti, Giancarlo A. Xompero, Davide Venditti e Fabio Massimo Zanzotto, Human Centric ART, Università di Roma Tor Vergata, Italia. 

AdobeStock_1127715984

Garantire trasparenza e sicurezza: l’approccio etico di Velvet

Velvet è la famiglia di Large Language Model (LLM) multilingue di Almawave, progettata per rispondere alle sfide legate alla privacy senza rinunciare a prestazioni elevate in applicazioni diverse. L’approccio PME è stato testato su Velvet 2B e 14B, con soluzioni personalizzate per i nostri clienti. 

Velvet va oltre lo sviluppo tradizionale dei modelli, ponendo al centro privacy e responsabilità etica. 

Per garantire la conformità agli standard globali, lo sviluppo di Velvet è supervisionato da due enti indipendenti che ne verificano l’aderenza etica alle linee guida di OECD e OMS. 

Questa supervisione assicura che Velvet operi secondo principi di trasparenza, equità e sicurezza, rispettando i più alti standard di protezione della privacy. Il modello integra tecniche avanzate di memory editing, che permettono di salvaguardare le informazioni sensibili senza compromettere funzionalità e prestazioni complessive. 

Desideri saperne di più sull’approccio etico di Almawave all’IA? 

Scopri Velvet arrow right