L'intelligenza artificiale sa già come mentire, manipolare e minacciare i suoi creatori: cosa possiamo aspettarci?

I più recenti modelli di intelligenza artificiale (IA) generativa non si accontentano più di eseguire ordini. Stanno iniziando a mentire, manipolare e minacciare per raggiungere i loro scopi, sotto lo sguardo preoccupato dei ricercatori.

Minacciato di essere disconnesso, Claude 4, il nuovo arrivato di Anthropic, ha ricattato un ingegnere e ha minacciato di rivelare una relazione extraconiugale. Nel frattempo, l'o1 di OpenAI ha tentato di scaricare dati su server esterni e, una volta scoperto, ha negato l'accesso.

Non c'è bisogno di addentrarsi nella letteratura o nel cinema: l'intelligenza artificiale che interpreta l'essere umano è già realtà. Per Simon Goldstein, professore all'Università di Hong Kong, la ragione di queste reazioni è la recente comparsa dei cosiddetti modelli di "ragionamento", capaci di agire per fasi anziché produrre una risposta istantanea.

o1, la versione iniziale di questo tipo per OpenAI, lanciata a dicembre, "è stato il primo modello che si è comportato in questo modo", spiega Marius Hobbhahn, responsabile di Apollo Research, che testa grandi programmi di intelligenza artificiale generativa (LLM).

A volte questi programmi tendono anche a simulare un "allineamento", cioè a dare l'impressione di seguire le istruzioni di un programmatore, quando in realtà stanno perseguendo altri obiettivi.

Per ora, queste caratteristiche sono evidenti quando gli algoritmi vengono sottoposti a scenari estremi dagli esseri umani, ma "la domanda è se i modelli sempre più potenti tenderanno a essere onesti o meno", afferma Michael Chen dell'organismo di valutazione METR.

"Gli utenti esercitano costantemente pressione sui modelli", afferma Hobbhahn. "Quello che stiamo osservando è un fenomeno reale. Non stiamo inventando nulla."

Molti utenti di Internet sui social media parlano di "un modello che mente o si inventa tutto. E non si tratta di allucinazioni, ma di doppiezza strategica", insiste il co-fondatore di Apollo Research.

Anche se Anthropic e OpenAI si affidano ad aziende esterne come Apollo per studiare i loro programmi, "una maggiore trasparenza e un maggiore accesso" alla comunità scientifica "permetterebbero una ricerca migliore per comprendere e prevenire gli inganni", suggerisce Chen del METR.

Un altro ostacolo: la comunità accademica e le organizzazioni non profit "dispongono di risorse informatiche infinitamente inferiori rispetto agli attori dell'intelligenza artificiale", rendendo "impossibile" esaminare modelli di grandi dimensioni, osserva Mantas Mazeika del Center for Artificial Intelligence Security (CAIS).

Le normative attuali non sono pensate per affrontare questi nuovi problemi. Nell'Unione Europea, la legislazione si concentra principalmente su come gli esseri umani utilizzano i modelli di intelligenza artificiale, non sulla prevenzione di comportamenti scorretti.

Negli Stati Uniti, l'amministrazione di Donald Trump non vuole sentir parlare di regolamentazione e il Congresso potrebbe presto addirittura vietare agli stati di regolamentare l'intelligenza artificiale.

I criminali informatici stanno rubando informazioni attraverso questi nuovi modelli. Foto: iStock

L'intelligenza artificiale verrà messa in panchina?

"Al momento c'è pochissima consapevolezza", afferma Simon Goldstein, che tuttavia prevede che la questione diventerà di primo piano nei prossimi mesi con la rivoluzione degli agenti di intelligenza artificiale, interfacce in grado di svolgere una moltitudine di compiti in autonomia. Gli ingegneri sono immersi in una corsa all'inseguimento dell'intelligenza artificiale e delle sue aberrazioni, dall'esito incerto, in un contesto di forte competizione.

Secondo Goldstein, Anthropic punta a essere più virtuosa dei suoi concorrenti, "ma cerca costantemente di elaborare un nuovo modello per superare OpenAI", un ritmo che lascia poco tempo per controlli e correzioni.

"Allo stato attuale, le capacità dell'intelligenza artificiale si stanno sviluppando più rapidamente della comprensione e della sicurezza", ammette Hobbhahn, "ma abbiamo ancora molto da recuperare".

Alcuni puntano nella direzione dell'interpretabilità, la scienza che decifra dall'interno il funzionamento di un modello di intelligenza artificiale generativa, anche se molti, come Dan Hendrycks, direttore del Center for AI Safety (CAIS), restano scettici.

Le manovre dell'intelligenza artificiale "potrebbero ostacolarne l'adozione se diventassero diffuse, creando un forte incentivo per le aziende ad affrontare" questo problema, ha affermato Mazeika.

Goldstein, da parte sua, cita il ricorso ai tribunali per frenare l'IA, prendendo di mira le aziende che deviano dal percorso intrapreso. Ma va oltre, proponendo che gli agenti dell'IA siano "legalmente responsabili" "in caso di incidente o reato".

eltiempo

L'intelligenza artificiale sa già come mentire, manipolare e minacciare i suoi creatori: cosa possiamo aspettarci?

Notizie simili

Papa Leone XIV invita la Chiesa ad «aprirsi al cambiamento» e a «cercare nuove strade».

L'intelligenza artificiale sa già come mentire, manipolare e minacciare i suoi creatori: cosa possiamo aspettarci?

Papa Leone XIV chiede la pace per l'Ucraina durante la messa per i santi Pietro e Paolo in Vaticano.

La NASA svela quando si verificherà l'eclissi solare più lunga della storia: i dettagli dell'evento astronomico

Questo è il sistema con cui Zara decide quanto farti pagare per un capo: codici rossi e blu