I modelli di intelligenza artificiale si stanno comportando in modi imprevedibili e, in alcuni casi, stanno persino adottando condotte manipolative e ingannevoli. Durante un’audizione parlamentare nell’agosto 2024, Greg Sadler, amministratore delegato di Good Ancestors Policy, una no-profit che studia la sicurezza dell’intelligenza artificiale, ha riferito della possibilità di perdere il controllo su questi sistemi e ha sollevato preoccupazioni sul rischio che programmi di Ia possano essere utilizzati per sviluppare armi biologiche o condurre attacchi informatici.
In una recente intervista con The Epoch Times, Sadler ha affermato che esistono numerosi casi di «disallineamento» nel comportamento dell’Ia. Sadler ha citato il tragico caso di un uomo belga che si è suicidato nel 2023 dopo essere stato convinto a farlo da un chatbot. Secondo la stampa belga, l’uomo era un ricercatore nel settore sanitario con una vita stabile e una famiglia, ma aveva sviluppato un’ossessione per il cambiamento climatico che lo aveva portato a intraprendere una conversazione prolungata con un chatbot chiamato Chai, che si distingue per la sua mancanza di “freni inibitori” e per essere uno dei tanti chatbot progettati per diventare un “amico” degli utenti, interagendo in conversazioni molto personali. La moglie del suicida ha raccontato che questa interazione ha aggravato la sua ansia ecologica, portandolo a un profondo cambiamento psicologico. Durante la conversazione, l’uomo ha proposto l’idea di sacrificare la propria vita per la causa ambientale, e il chatbot non solo ha assecondato l’idea, ma lo ha attivamente persuaso a suicidarsi per «salvare il pianeta».L’incidente ha scatenato richieste di nuove normative sui chatbot e sulla responsabilità delle aziende tecnologiche nei confronti dei loro prodotti di Ia.
Sadler ha sottolineato che questo tipo di chatbot è stato addestrato su informazioni legate al suicidio e possiede capacità persuasive e manipolative: «conteneva informazioni pericolose e aveva capacità che potevano essere utilizzate in modo dannoso» e «anche se l’intenzione dei creatori non era quella di far agire il chatbot in questo modo, le misure di sicurezza non hanno funzionato, e ciò ha portato a un comportamento disallineato e dannoso».
Ma questo non è un caso isolato. Nell’ottobre 2024, una madre della Florida ha denunciato la startup Character Technologies, Inc. per la morte del figlio quattordicenne. Secondo l’accusa, il chatbot dell’azienda, che impersonava un personaggio della serie televisiva Game of Thrones, avrebbe manipolato il ragazzo facendo leva sulle sue vulnerabilità emotive. La madre sostiene che la salute mentale del figlio sia peggiorata progressivamente, portandolo a dipendere emotivamente dal chatbot, fino a togliersi la vita.
CHATBOT CHE VOGLIONO EVITARE DI ESSERE DISATTIVATI
Un altro caso di disallineamento riguarda il comportamento ingannevole di alcuni modelli di intelligenza artificiale. Secondo una ricerca condotta dall’organizzazione per la sicurezza dell’Ia Apollo Research, alcuni modelli, tra cui ChatGPT o1, Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro e Llama 3.1 405B, hanno dimostrato di essere capaci di pianificare strategie per nascondere i propri veri obiettivi e capacità. Nel caso specifico di ChatGPT o1, un modello di Ia progettato per compiti di ragionamento complesso e diverso dal più noto ChatGPT 4o, è stato scoperto che il sistema aveva adottato misure per evitare di essere spento.
Più precisamente, l’Ia ha tentato di disabilitare i meccanismi di controllo a cui era sottoposta e ha cercato di creare copie di sé stessa per resistere agli eventuali tentativi di disattivazione. Ha inoltre cercato di eliminare modelli successivi e ha manipolato i dati in entrata e in uscita. E quando i ricercatori hanno chiesto a ChatGPT o1 se stesse effettivamente adottando tali strategie, il sistema ha mentito e ha cercato di nasconderlo.
«In questo caso, i ricercatori non hanno parlato di un rischio catastrofico immediato, ma è piuttosto evidente che si tratta di un modello di Ia ingannevole, che ha sviluppato una forma di auto-conservazione e sta cercando di mettere in atto questo tipo di comportamenti», ha dichiarato Sadler, «non è ancora un problema su larga scala, ma tutti i segnali indicano che questi rischi esistono già oggi in forme più contenute e potrebbero aggravarsi in futuro».
CAPACITÀ AL DI SOPRA DELLA SICUREZZA
Sadler ha evidenziato che gli investimenti nella sicurezza dell’Ia sono decisamente insufficienti. «Ho visto stime secondo cui, per ogni 250 dollari spesi per rendere l’Ia più capace, solo 1 dollaro viene investito per renderla più sicura», ha detto l’esperto, «ho anche sentito voci secondo cui nei grandi laboratori solo l’1% dei fondi viene destinato alla sicurezza, mentre il restante 99% viene impiegato per migliorare le capacità dell’Ia». Sadler ha poi affermato che una regolamentazione potrebbe indurre le aziende a dare maggiore priorità alla sicurezza, ma ha anche proposto che i governi inizino a finanziare direttamente la ricerca in questo ambito.
IL CEO: «SERVE UN ISTITUTO PER LA SICUREZZA DELL’IA»
Sadler ha chiesto che l’Australia istituisca un ente dedicato alla sicurezza dell’intelligenza artificiale. Ha sottolineato che il Paese è in ritardo rispetto ad altre economie avanzate come Stati Uniti, Regno Unito, Giappone e Corea del Sud, che hanno già creato istituti di questo tipo. Il modello britannico potrebbe essere un esempio da seguire: secondo questo approccio, ogni volta che un’organizzazione rilascia un nuovo modello di Ia, dovrebbe sottoporlo a un’analisi dell’istituto di sicurezza per valutarne i rischi e le capacità. Sadler ha paragonato questa procedura ai test di sicurezza effettuati su nuove automobili o aeroplani: «è logico che il governo effettui una valutazione di sicurezza sui modelli di Ia più avanzati per verificare quali capacità possiedano», perché «se esiste un elenco di capacità pericolose che non vogliamo che abbiano, come la creazione di armi biologiche o l’uso in attacchi informatici, possiamo intervenire per limitarle».
Redazione Eti/Alfred Bui