Ad oggi, ChatGPT non è del tutto affidabile, anzi, è abbastanza inaffidabile in termini generali, come ha commentato lo stesso Sam Smith in alcune occasioni. Il motivo ha a che fare con la cosiddetta allucinazione, o allucinazioni nella nostra lingua. Questi sono presentati non solo in ChatGPT, ma anche in Google Bard o Microsoft Bing Chat. Per questo motivo, e per rendere la sua IA più affidabile, OpenAI sta lavorando per migliorare queste allucinazioni per rendere ChatGPT più affidabile.ma la sfida è davvero complessa.
Penso che possiamo essere tutti d’accordo sul fatto che in molte occasioni ChatGPT inventi i dati, letteralmente parlando. Quando vengono poste determinate domande, OpenAI AI non sa come interpretare la domanda e quindi non sa come offrire una risposta. Quello che cerca è di affrontarlo come tale, ed è da lì che provengono i fallimenti, perché l’azienda non contempla opzioni come NO per una risposta. Al contrario, vuole offrire informazioni affidabili, ma per lui sarà terribilmente complesso.
ChatGPT cercherà di eliminare le allucinazioni
Ignoranza presentata come affermazioni, un problema che è causato dall’insufficienza del set di dati con cui lavora l’IA e che crea i cosiddetti “momenti di incertezza”. Secondo la stessa OpenAI, il risultato è l’invenzione di informazioni, fatti o semplicemente l’offerta di “ragionamenti” sbagliati. con risposte sbagliate.
La soluzione verrà da quella che l’azienda stessa ha definito una verifica passo-passo, e in un documento forniscono il dati di addestramento dalla prossima generazione di GPTcosì come il suo breve riassunto:
Negli ultimi anni, gli LLM sono notevolmente migliorati nella loro capacità di eseguire ragionamenti complessi e in più fasi. Tuttavia, anche i modelli più avanzati producono ancora regolarmente errori logici. Per addestrare modelli più affidabili, possiamo ricorrere al monitoraggio dei risultati, che fornisce un feedback per un risultato finale, o al monitoraggio dei processi, che fornisce un feedback per ogni passaggio intermedio del ragionamento. Data l’importanza di addestrare modelli affidabili e dato l’alto costo del feedback umano, è importante confrontare attentamente entrambi i metodi.
Il lavoro recente ha già avviato questo confronto, ma rimangono molte domande. Abbiamo condotto la nostra ricerca e scoperto che il monitoraggio dei processi supera in modo significativo il monitoraggio dei risultati per i modelli di addestramento per risolvere i problemi nell’impegnativo insieme di Dati MATEMATICI. Il nostro modello supervisionato dal processo risolve il 78% dei problemi per un sottoinsieme rappresentativo della suite di test MATH.
Inoltre, dimostriamo che l’apprendimento attivo migliora significativamente l’efficacia della supervisione del processo. Per supportare la ricerca correlata, abbiamo anche lanciato PRM800Kil set di dati completo di 800.000 tag di feedback umano di livello utilizzato per addestrare il nostro miglior modello di ricompensa.
Funzionerà in tutti gli ambienti?
È la grande domanda. Molti ricercatori nel vedere questa ricerca sono davvero riluttanti, poiché ritengono che ci siano più output, da un lato, mentre dall’altro, si spingono fino ad affermare che le conclusioni sono davvero difficili da trasferire a specifici moduli di IA.
Inoltre, OpenAI non specifica se il suo documento è soggetto a un processo di revisione tra pari, il che ha generato ancora più dubbi nella comunità dell’Intelligenza Artificiale. Quello che sappiamo per ora è questo Le IA non sostituiranno al 100% i modelli di ricerca tradizionaliproprio perché presentano molti bug e quando si cerca di mostrare all’utente un risultato attendibile, si stanno comunque offrendo queste “allucinazioni”, come accade a ChatGPT.