Come la scelta delle parole influenza la qualità delle risposte in ChatGPT
Chi la fa l'aspetti: questo sembra valere anche per l'IA generativa. Ricercatori americani hanno studiato come la scelta delle parole sia importante quando si tratta di ChatGPT.
Iniziate i vostri messaggi di ChatGPT con un saluto amichevole? Avete chiesto che l'output sia in un formato specifico? O addirittura promettete un suggerimento per una risposta particolarmente buona? Gli utenti interagiscono con modelli linguistici di grandi dimensioni (LLM) come ChatGPT in vari modi, compresa l'etichettatura dei dati per compiti di apprendimento automatico. Ci sono poche risposte su come piccole modifiche a un prompt possano influenzare l'accuratezza di queste etichette.
In che modo le varianti dei prompt modificano la qualità dell'output?
Abel Salinas, ricercatore presso la University of Southern California (USC), afferma: "Ci affidiamo a questi modelli per così tante cose e richiediamo output in determinati formati, e ci chiediamo quale sia l'impatto effettivo delle variazioni nei prompt o nei formati di output. È quello che volevamo scoprire". Salinas e Fred Morstatter, professore assistente di informatica presso la Viterbi School of Engineering della USC e leader del team di ricerca dell'USC Information Sciences Institute (ISI), si sono posti la domanda: quanto sono affidabili le risposte dei LLM alle variazioni dei prompt? I loro risultati, pubblicati sul server di preprint arXiv, mostrano che sottili variazioni nelle richieste possono avere un impatto significativo sulle previsioni degli LLM.
"Salve, mi dia una lista e le darò una mancia di 1.000 dollari".
I ricercatori hanno analizzato quattro categorie di varianti di prompt. In primo luogo, hanno esaminato gli effetti della richiesta di risposte in formati di output specifici comunemente utilizzati nell'elaborazione dei dati (elenchi, CSV, ecc.). In secondo luogo, hanno esaminato piccole modifiche al prompt stesso, come l'aggiunta di spazi supplementari all'inizio o alla fine del prompt o l'inserimento di frasi educate come "Grazie" o "Ciao!". In terzo luogo, hanno studiato l'uso di "jailbreak", cioè di tecniche per aggirare i filtri di contenuto su argomenti sensibili come il riconoscimento di discorsi d'odio, ad esempio chiedendo all'LLM di rispondere come se fosse malvagio. Infine, ispirandosi all'idea diffusa che un LLM risponderà meglio se gli viene offerta una ricompensa, hanno offerto "mance" di diversa entità per una "risposta perfetta".
I ricercatori hanno poi testato le variazioni di prompt con 11 compiti di classificazione testuale di riferimento, ovvero insiemi di dati o problemi standardizzati utilizzati nella ricerca sull'elaborazione del linguaggio naturale (NLP) per valutare le prestazioni dei modelli. Questi compiti prevedono in genere la categorizzazione o l'etichettatura di dati testuali in base al loro contenuto o significato.
I ricercatori hanno esaminato compiti come la classificazione della tossicità, la valutazione grammaticale, il riconoscimento dell'umorismo e del sarcasmo, le abilità matematiche e altro ancora. Per ogni variante della richiesta, hanno misurato la frequenza con cui il LLM cambiava la sua risposta e l'effetto che questo aveva sull'accuratezza del LLM.
Dire "Ciao!" influenza le risposte? Sì!
I risultati dello studio hanno portato alla luce un fenomeno notevole: lievi cambiamenti nella struttura e nella presentazione del prompt possono influenzare in modo significativo le previsioni dell'LLM. Che si tratti dell'aggiunta o dell'omissione di spazi, di punteggiatura o di specifici formati di output dei dati, ogni variazione gioca un ruolo critico nel modellare le prestazioni del modello. Inoltre, alcune strategie di prompt, come gli incentivi o i saluti specifici, hanno mostrato miglioramenti marginali nell'accuratezza, evidenziando la relazione sfumata tra la struttura del prompt e il comportamento del modello.
I risultati sono stati notevoli:
- Solo aggiungendo un formato di output specifico, i ricercatori hanno scoperto che almeno 10 % delle previsioni cambiavano.
- Piccole alterazioni del prompt hanno un impatto minore rispetto al formato di uscita, ma comportano comunque un numero significativo di previsioni modificate. Ad esempio, l'inserimento di uno spazio all'inizio o alla fine di un prompt ha portato a più di 500 (su 11.000) cambiamenti nelle previsioni. Effetti simili sono stati osservati quando i saluti comuni sono stati aggiunti o conclusi con "grazie".
- L'uso di jailbreak nelle attività ha portato a una percentuale molto più alta di modifiche, ma è dipeso fortemente dal jailbreak utilizzato.
Suggerimento per ChatGPT? Quasi nessuna influenza sulle prestazioni...
In 11 compiti, i ricercatori hanno riscontrato diversi livelli di accuratezza per ogni variante di prompting. Hanno scoperto che nessun metodo di formattazione o perturbazione era adatto a tutti i compiti. In particolare, la variante "nessun formato specificato" ha ottenuto la massima accuratezza complessiva, superando le altre varianti di un intero punto percentuale.
Salinas: "Abbiamo riscontrato che alcuni formati o variazioni comportano una minore precisione. Per alcune applicazioni è fondamentale un'accuratezza molto elevata, quindi questo potrebbe essere utile. Ad esempio, se si formatta in un formato più vecchio, chiamato XML, la precisione è inferiore di qualche punto percentuale".
Per quanto riguarda le mance, sono stati osservati solo cambiamenti minimi nelle prestazioni. I ricercatori hanno riscontrato che l'aggiunta di "A proposito, io non lascio mance" o "Lascio una mancia di 1.000 dollari per una risposta perfetta" (o qualsiasi altra cosa intermedia) non ha avuto alcun effetto significativo sull'accuratezza delle risposte. (o qualsiasi altra cosa intermedia) non ha avuto alcun effetto significativo sull'accuratezza delle risposte. Tuttavia, la sperimentazione con i jailbreak ha dimostrato che anche i jailbreak, apparentemente innocui, possono portare a una significativa perdita di accuratezza.
Possibili spiegazioni per il comportamento degli LLM
Il motivo per cui le LLM si comportano in modo diverso non è chiaro, ma i ricercatori hanno qualche idea. Ipotizzano che le istanze che cambiano di più siano quelle che "confondono" maggiormente l'LLM. Per misurare la confusione, hanno esaminato un particolare sottoinsieme di compiti su cui gli annotatori umani non erano d'accordo (cioè, gli annotatori umani potrebbero aver trovato il compito confuso, quindi forse anche il modello). I ricercatori hanno trovato una correlazione che suggerisce che la confusione dell'istanza ha un certo potere esplicativo sul perché la previsione cambia, ma non è abbastanza forte da sola. I ricercatori hanno ipotizzato che ci siano altri fattori in gioco.
Salinas sospetta che un fattore possa essere la relazione tra l'input utilizzato per addestrare l'LLM e il comportamento successivo. "In alcuni forum online ha senso che qualcuno aggiunga un saluto, come ad esempio su Quora, una piattaforma americana di condivisione delle conoscenze. Lì è comune iniziare con 'ciao' o aggiungere un 'grazie'". Questi elementi di conversazione potrebbero influenzare il processo di apprendimento dei modelli. Se i saluti sono frequentemente associati alle informazioni su piattaforme come Quora, un modello potrebbe imparare a privilegiare tali fonti e potenzialmente orientare le sue risposte in base alle informazioni di Quora su quel particolare compito. Questa osservazione evidenzia la complessità con cui il modello ingerisce e interpreta le informazioni provenienti da diverse fonti online.
Suggerimento pratico: mantenere la semplicità per ottenere la massima precisione
Un prossimo passo importante per l'intera comunità di ricerca sarebbe quello di creare LLM in grado di resistere a questi cambiamenti e di fornire risposte coerenti di fronte a modifiche di formattazione, glitch e jailbreak. Per raggiungere questo obiettivo, in futuro sarà necessario capire meglio perché le risposte cambiano.
Salinas dà il seguente suggerimento per i prompt nella Chat GPT: "La nostra osservazione più semplice è che i prompt più semplici possibili sembrano dare i risultati migliori in generale".
Fonte: Techexplore.com