ChatGPT vs Gemini: 8 parametri chiave per valutare un’AI

Nella sfida ChatGPT vs Gemini, chi performa meglio tra i due, considerando i parametri principali che qualificano i modelli di AI? Conoscere e valutare i parametri dei modelli di Intelligenza Artificiale è importante per molte ragioni, specialmente quando li si vuole usare per applicazioni professionali, reali e di studio.

Valutare aspetti come accuratezza, incertezza predittiva, affidabilità e attendibilità aiuta a capire i limiti e ad evitare rischi. Infatti un modello che non è ben valutato può fornire informazioni false con sicurezza, dare risposte inesatte e inventate, commettere errori che compromettono il risultato o prendere decisioni sbagliate che si ripercuotono sulle azioni umane.

Inoltre i modelli AI operano con dati che possono essere sensibili; se non ci sono buone politiche, possono emergere violazioni della privacy, pregiudizi verso categorie di persone, discriminazioni, contenuti offensivi o pericolosi. Un’adeguata valutazione aiuta a identificare questi rischi e a mettere in piedi mitigazioni.

Ecco perché conoscere i punti di forza e di debolezza di un modello di AI prima di usarlo è fondamentale.
Se non sai dove il modello tende a sbagliare, potresti prendere decisioni sbagliate, specialmente in ambito lavorativo, di studio e di vita quotidiana. Se sai come il modello ricorda o personalizza, puoi usarlo meglio, impostarlo bene, evitare che dimentichi informazioni importanti o che ripeta domande ridondanti.

In questo articolo analizzo 8 parametri chiave per valutare un’AI e in seguito metto a confronto i due maggiormente usati, costruendo un’ipotetica sfida ChatGPT vs Gemini. Questi 8 parametri ti permettono di confrontare i modelli in modo oggettivo, senza entrare in dettagli tecnici troppo nascosti o non pubblici. Chi vincerà alla fine? Scopriamolo insieme.

Gli 8 parametri chiave per valutare un modello di AI

1. Multimodalità

La multimodalità è la capacità di un modello di AI di gestire non solo testo, ma anche immagini, audio, video o codice. Un modello nativamente multimodale può integrare più tipi di input in un’unica analisi: in pratica è capace di capire e combinare diversi tipi di input e output, non solo testo. Quindi non si limita a leggere e scrivere, ma può leggere testo, analizzare immagini, capire audio e video, generare risposte in diversi formati (testo, codice, immagini, eventualmente anche voce).

2. Cutoff dei dati

Il cutoff dei dati è la data fino alla quale il modello è stato addestrato: influisce su quanto siano aggiornate le sue conoscenze di base. Alcuni modelli superano il cutoff recuperando informazioni live nel web e tramite plugin o connessione live.

3. Fonti e tipi di dati

Questo parametro valuta la varietà e la qualità dei dati usati per l’addestramento: libri, articoli scientifici, codice, contenuti web, immagini, audio, ecc. La diversità delle fonti influenza la robustezza delle risposte.

4. Integrazioni

L’integrazione determina quanto bene il modello si inserisce nei software e nei servizi esistenti (ad esempio in Microsoft o in Google). Maggiori integrazioni sono indice di una maggiore utilità pratica nel lavoro quotidiano.

5. Dimensioni del training

Il training è il processo in cui il modello AI impara dai dati. Durante il training, il modello legge miliardi o trilioni di token (unità di testo, immagini, audio, ecc.) e regola i suoi parametri per predire correttamente o generare risposte coerenti. Quando si parla di dimensioni del training ci si riferisce a: parametri, token, scalabilità, limiti.

I parametri sono le connessioni di un cervello artificiale. Più sono i parametri più il modello ha capacità di rappresentare relazioni complesse nei dati e di ragionamento, generalizzazione e creatività. I parametri da soli però non bastano a definire la “qualità”.

Un token invece è un’unità minima di testo usata dal modello (può essere una parola, una sillaba o parte di parola). La quantità di token usati nell’addestramento misura quante unità di informazione il modello ha visto. Più token ci sono, più il modello ha letto dati (libri, articoli, siti web, codice, immagini, ecc.), quindi ha più esempi da cui imparare.

La scalabilità riguarda come le prestazioni del modello migliorano aumentando dimensioni e dati: all’aumentare di parametri, dati e potenza di calcolo, il modello tende a migliorare in ragionamento, generalizzazione e creatività. Però i miglioramenti non crescono all’infinito: c’è un punto in cui non è possibile migliorare ulteriormente le prestazioni.

Importantissimi sono anche i limiti: non necessariamente grandi quantità di dati portano ad un miglioramento. Un modello enorme può allucinare o avere bias, se i dati non sono di qualità e può essere più costoso (energia, hardware, tempi di risposta). Invece un modello più piccolo ma addestrato bene su dati mirati può essere più utile in un compito specifico.

Quindi i parametri, i token, la scalabilità e i limiti determinano il processo di apprendimento del modello di AI e di conseguenza la qualità delle sue risposte.

6. Affidabilità e allucinazioni

È la frequenza con cui il modello fornisce risposte inesatte o inventate (“hallucinations”). Influisce molto sulla fiducia che si può avere nel modello.

7. Sicurezza ed etica

Filtri, controlli e protezioni contro contenuti dannosi, bias o usi impropri sono fondamentali in qualunque contesto ma soprattutto in quelli aziendali, sanitari ed educativi.

8. Personalizzazione e memoria

Anche la capacità del modello di adattarsi al singolo utente determina la sua qualità: ricordare preferenze, stile di scrittura, contesto passato. Alcuni modelli sono più forti in questo rispetto ad altri.

ChatGPT vs Gemini: chi ottiene migliori performance sui parametri chiave?

Arriviamo ora alla sfida tra ChatGPT e Gemini: chi se la cava meglio tra questi due modelli di AI? Analizziamo un parametro alla volta e vediamo punti di forza e di debolezza.

1. Multimodalità: ChatGPT vs Gemini 0-1

ChatGPT può gestire testo, immagini e, in alcune versioni, anche voce. Nasce come modello solo testuale. Con il tempo ha acquisito capacità aggiuntive: oggi può analizzare immagini, generare immagini, e interagire a voce. Però queste funzioni sono aggiunte esterne: non sono parte nativa del modello, ma integrazioni. ChatGPT quindi ha una multimodalità “a moduli”, cioè elabora il testo e si appoggia ad altri strumenti per immagini, voce o codice.

Gemini è stato progettato fin dall’inizio per essere nativamente multimodale (testo, immagini, codice, suoni, video). Quindi è nativamente multimodale: è stato addestrato fin dall’inizio su testo, immagini, audio e video e capisce tutto insieme (testo, immagini, suoni, video).

2. Cutoff dei dati: ChatGPT vs Gemini 0-1

ChatGPT (modelli come GPT-4) ha un cutoff nei suoi dati di training: non ha “visto” dati dopo una certa data (es. per GPT-4 il cutoff è ottobre 2023). Senza strumenti esterni, non ha accesso a informazioni successive al cutoff. Nelle versioni a pagamento ChatGPT può accedere a internet ma è limitato dai molteplici blocchi che i siti stanno attuando (ne ho parlato in questo articolo “Sempre più siti web bloccano l’accesso all’AI: ecco perché”).

Gemini può accedere a informazioni aggiornate “on-the-fly” tramite Google Search, anche se non sono pubblici i dettagli su quali parti del modello siano offline o online.

3. Fonti e tipi di dati: ChatGPT vs Gemini 1-1

Entrambi i modelli sono addestrati su grandi dataset contenenti testo proveniente da internet, libri, articoli scientifici, codice e altre fonti. La qualità, la varietà e la rappresentatività dei dati sono fondamentali: influenzano la precisione delle risposte, la capacità di ragionamento e la riduzione dei bias.

Gemini si differenzia per l’addestramento multimodale: oltre al testo, utilizza immagini, audio e video. Questo permette al modello di integrare informazioni provenienti da più tipologie di dati, generando risposte più ricche e contestualizzate rispetto a input complessi.

4. Integrazioni: ChatGPT vs Gemini 1-1

ChatGPT è integrato con Microsoft Copilot, offrendo funzionalità avanzate in applicazioni come Word, Excel e Outlook. Consente la creazione di assistenti personalizzati, adattabili a diverse esigenze professionali e personali. Supporta l’automazione di attività tramite la funzione “ChatGPT Tasks”, che permette di programmare promemoria e azioni ricorrenti.

Gemini è profondamente integrato nei prodotti Google: Google Search, Gmail, Docs, Drive, Android.

Scegli ChatGPT se lavori principalmente con applicazioni Microsoft e desideri un assistente AI altamente personalizzabile con funzionalità di automazione avanzate. Gemini invece è utile se utilizzi regolarmente i prodotti Google e cerchi un assistente AI che si integri nativamente con questi strumenti, offrendo capacità avanzate di analisi e automazione.

5. Dimensioni del training: ChatGPT vs Gemini 1-1

Non esistono cifre ufficiali e verificate sul numero esatto di token usati da ChatGPT o Gemini, quindi ogni confronto è speculativo. Alcune fonti non confermate parlano di dataset di dimensioni maggiori per Gemini, ma non ci sono prove affidabili che lo confermino.

È plausibile che Gemini possa accedere a dati più aggiornati grazie al suo meccanismo di retrieval, che recupera informazioni dal web in tempo reale. Questo permette al modello di “estendere” la sua base di conoscenza oltre il dataset statico usato per il training, offrendo un vantaggio per informazioni recenti.

Tuttavia, se si parla solo della quantità totale di dati usati per l’addestramento, non ci sono prove certe che Gemini superi significativamente ChatGPT in tutti gli ambiti. In termini di accesso a informazioni aggiornate dopo il cutoff, invece, Gemini ha potenzialmente una portata più ampia.

6. Affidabilità e allucinazioni: ChatGPT vs Gemini 1-1

ChatGPT ha dichiarato esplicitamente che le “hallucinations” (ossia asserzioni false presentate con sicurezza) rappresentano ancora un problema, anche se sono in corso miglioramenti.

Alcuni studi, mostrano che ChatGPT è più accurato in alcuni tipi di ragionamento, ma resta meno affidabile in altri, soprattutto quando non ha accesso a fonti aggiornate o quando richiede ragionamenti complessi. Inoltre molte delle citazioni generate da ChatGPT sono inaccurate o inventate (“fabricated references”).

Anche Gemini presenta limiti simili: può mostrare eccessiva sicurezza nelle risposte, lacune nella conoscenza e suscettibilità ad allucinazioni, soprattutto in domande che richiedono alta precisione. In alcune valutazioni recenti, Gemini mostra un leggero vantaggio in compiti misurabili oggettivamente, ma non è esente da errori.

Per entrambi i modelli, in applicazioni critiche è sempre necessaria una verifica umana.

7. Sicurezza ed etica: ChatGPT vs Gemini 1-1

OpenAI implementa filtri per contenuti dannosi, linee guida sulla sicurezza e mitigazione dei bias. ChatGPT evita contenuti violenti o offensivi e gestisce la memoria in modo sicuro, permettendo di cancellare o disattivare dati sensibili.

Google/DeepMind pone anch’esso grande enfasi su sicurezza ed etica, ma Gemini può mostrare comportamenti imprevisti o overconfidence. In ambito AI, overconfidence indica la situazione in cui un modello fornisce una risposta con grande sicurezza, anche quando la risposta è sbagliata o inaccurata.

Entrambi i modelli hanno policy di sicurezza, ma nessuno è immune da errori. Gemini affronta maggiori sfide nel controllare l’overconfidence; ChatGPT ha policy più mature e trasparenti. In ogni caso, la supervisione umana resta essenziale.

8. Personalizzazione e memoria: ChatGPT vs Gemini 1-0

ChatGPT può ricordare informazioni dell’utente (preferenze, stile, dettagli comunicati) e usarle nelle conversazioni successive. L’utente ha pieno controllo: può attivare/disattivare la memoria, gestire cosa viene memorizzato e cancellare ricordi specifici o tutto. Le custom instructions permettono anche di definire stile, tono e informazioni da considerare.

Per Gemini, la memoria personalizzata è meno chiara pubblicamente. Google sta sviluppando versioni con capacità di ricordare preferenze e contesto, ma non ci sono molti dettagli sul controllo utente. Alcuni rapporti indicano che Gemini può usare interazioni passate per migliorare la pertinenza, ma talvolta le preferenze non vengono ricordate correttamente.

In sintesi, ChatGPT al momento è più trasparente e stabile nella personalizzazione, mentre Gemini copre parte delle funzionalità ma con meno informazioni pubbliche disponibili.

Sintesi dei punteggi

Analizziamo ora i punteggi. Voglio precisare che le valutazioni riportate si basano sulle informazioni e sulle ricerche che ho reperito al momento della stesura. Non esistono dati ufficiali completi e verificabili per tutti i parametri dei modelli, quindi quanto riportato non deve essere considerato assolutamente certo o definitivo.

  • ChatGPT: 6 punti (parametri 3,4,5,6,7,8)
  • Gemini: 7 punti (parametri 1,2,3,4,5,6,7)

Nonostante Gemini abbia un parametro dove ottiene un punto in più, molti altri sono a parità o in vantaggio per ChatGPT.

Entrambi i modelli eccellono in fonti dei dati, integrazioni, affidabilità, sicurezza. I vantaggi di Gemini in multimodalità e aggiornamento dati non rendono automaticamente il modello “migliore” in senso assoluto, perché dipende dall’uso e dall’ecosistema. ChatGPT mantiene punti di forza in personalizzazione, trasparenza e controllo utente, che sono rilevanti in contesti pratici.

Si può dire che, complessivamente, i due modelli sono allo stesso livello, con differenze che emergono solo in base all’uso specifico o all’ecosistema scelto (Google vs Microsoft).

Punti di forza dei due modelli di AI

ChatGPT tende a produrre risposte più coerenti e logiche, soprattutto per compiti complessi che richiedono più passaggi. È spesso considerato superiore nella comprensione del linguaggio umano e nella capacità di generare risposte strutturate e dettagliate per analisi approfondite.
​Eccelle nella scrittura creativa, nella stesura di testi in stile umano e nella generazione di codice. La sua capacità di produrre contenuti dettagliati e stilisticamente curati lo rende una scelta preferita per compiti di automazione dei contenuti, sviluppo di chatbot e recupero di conoscenze strutturate.
​Interazione: È ampiamente apprezzato per la sua facilità d’uso e la sua capacità di mantenere conversazioni naturali.
​Quindi scegli ChatGPT se hai bisogno di un assistente per la scrittura creativa, la stesura di codici, la ricerca strutturata e l’analisi dettagliata, e se apprezzi una maggiore coerenza e profondità nel ragionamento. È una scelta solida per chi opera nei settori del software, del marketing e dell’istruzione.

Gemini è particolarmente efficace per compiti che richiedono l’analisi di dati eterogenei ed essendo un prodotto di Google, si integra profondamente con app e servizi come Google Workspace, Gmail e Google Docs, rendendolo estremamente utile per chi vive all’interno di questo ecosistema.
Grazie all’integrazione con Google Search, Gemini è spesso la scelta migliore per la ricerca in tempo reale e per ottenere informazioni aggiornate. È ideale per la ricerca accademica, l’analisi di documenti di grandi dimensioni e l’estrazione rapida di dati.
I modelli Gemini, come “Flash”, sono ottimizzati per compiti ad alta velocità e basso volume, rendendoli molto efficienti in termini di costo per le aziende che necessitano di un’elaborazione su larga scala.

La battaglia tra i due quindi è ancora aperta e in continua evoluzione, con entrambi i giganti della tecnologia che aggiornano costantemente i loro modelli e le loro funzionalità per colmare il divario.