, ,

AI hallucination nella ricerca pubblicata 2026: casi e regole

5 min di lettura

AI hallucination nella ricerca pubblicata 2026: casi documentati e regole per i ricercatori italiani

Nel 2026, le AI hallucination nella ricerca pubblicata sono diventate una delle sfide più urgenti per l’integrità della letteratura scientifica. Non si tratta di un fenomeno marginale: a gennaio 2026, un’analisi condotta da GPTZero ha rivelato che 53 paper accettati alla conferenza NeurIPS 2025 — la principale conferenza mondiale sull’intelligenza artificiale — contenevano oltre 100 citazioni hallucinate, ovvero riferimenti bibliografici a articoli che non esistono, con autori inventati, DOI inesistenti o dettagli di pubblicazione completamente fabbricati. Questi errori avevano superato indenni il processo di peer review, dove ogni paper era stato esaminato da 3 a 5 esperti.

Questa guida analizza la dimensione del fenomeno nel 2026, i casi più documentati, le cause strutturali, e le indicazioni normative applicabili ai ricercatori italiani — incluse le posizioni del CNR, del MUR, e le linee guida internazionali di ALLEA e arXiv — per evitare che le proprie pubblicazioni siano contaminate da errori generati da modelli linguistici di grandi dimensioni (LLM).

In sintesi: Le AI hallucination nelle citazioni accademiche sono un’emergenza documentata nel 2026. GPT-4o e modelli analoghi hallucinano citazioni nel 15-55% dei casi, in funzione del topic. 100+ citazioni false sono passate la peer review a NeurIPS 2025. arXiv ha introdotto un ban di 12 mesi per errori LLM. I ricercatori italiani sono vincolati dal Codice Etico CNR e dalle Linee Guida MUR, che attribuiscono all’autore la piena responsabilità dei contenuti indipendentemente dagli strumenti usati.

Cosa sono le AI hallucination nelle citazioni accademiche

Il termine hallucination nel contesto dei modelli linguistici di grandi dimensioni (LLM — Large Language Models) indica la generazione di informazioni false presentate con sicurezza, senza segnalazione di incertezza. Nel contesto accademico, le AI hallucination più pericolose sono quelle relative alle citazioni bibliografiche: un LLM può generare un riferimento bibliografico completo — autore, titolo, rivista, anno, volume, pagine, DOI — che sembra perfettamente plausibile ma che non corrisponde ad alcun articolo realmente pubblicato.

Le cause tecniche di questo fenomeno risiedono nell’architettura dei transformer e nel modo in cui i modelli “ricordano” i testi: piuttosto che accedere a un database strutturato di articoli verificati, i LLM generano testo basandosi su pattern statistici appresi durante il pre-addestramento. Quando vengono interrogati su un topic accademico specifico, “completano” il pattern di una citazione bibliografica nel modo che sembra più probabile statisticamente — anche se nessuna delle fonti con quelle caratteristiche esiste realmente.

Tipologie di hallucination citazionale

Sulla base della letteratura prodotta nel 2025-2026 (in particolare l’analisi “Compound Deception in Elite Peer Review” pubblicata su arXiv nel febbraio 2026), le AI hallucination nelle citazioni si classificano in:

  • Citazioni fantasma complete: autore, titolo, rivista, anno e DOI sono tutti inventati. La citazione non ha alcun corrispondente reale.
  • Citazioni ibride: autore e rivista reali, ma titolo e anno errati — o viceversa. Il paper esiste ma con caratteristiche diverse da quelle indicate.
  • DOI errati su articoli reali: l’articolo esiste, ma il DOI indicato punta a un articolo diverso o inesistente.
  • Attribuzioni errate: affermazioni reali di un autore attribuite a un altro, o affermazioni inventate attribuite a autori reali.
  • Dati statistici fabbricati: cifre (percentuali, dimensioni campionarie, p-value) che non si trovano nella fonte citata o che derivano da una fonte diversa da quella indicata.

I casi documentati: NeurIPS, ICLR e Lancet

NeurIPS 2025: 100+ citazioni false sfuggite alla peer review

A gennaio 2026, GPTZero ha pubblicato un’analisi sistematica di 4.841 paper accettati alla conferenza NeurIPS 2025 (Conference on Neural Information Processing Systems), identificando almeno 100 citazioni hallucinate confermate in 53 paper distinti. L’analisi dettagliata “Compound Deception in Elite Peer Review: A Failure Mode Taxonomy of 100 Fabricated Citations at NeurIPS 2025” (arxiv.org/abs/2602.05930) ha documentato come queste citazioni avessero caratteristiche diverse ma condividessero la proprietà di non corrispondere ad alcun articolo verificabile nelle principali banche dati (Scopus, Web of Science, Crossref).

L’elemento più preoccupante è che ogni paper a NeurIPS viene esaminato da 3 a 5 revisori esperti. Il fatto che oltre 100 citazioni false abbiano superato questo processo indica che la peer review tradizionale non è attrezzata per verificare sistematicamente la veridicità di ogni singola citazione — un compito che richiederebbe ore per paper e che nessun revisore svolge in modo esaustivo.

TechCrunch ha definito la situazione “una ironia”: la principale conferenza sull’intelligenza artificiale ha trovato nei propri paper accettati le prove più chiare delle limitazioni dell’AI che pure si propone di studiare.

ICLR 2026: 50 paper con hallucination confermate

La scansione di GPTZero si è estesa anche alla conferenza ICLR 2026 (International Conference on Learning Representations): su 300 paper esaminati, 90 contenevano almeno una citazione non trovabile online; la verifica umana successiva ha confermato hallucination reali in almeno 50 paper. Il tasso è del 16.7%, in linea con le stime sui tassi di hallucination citazionale degli LLM.

Il caso Lancet: retrazioni in aumento

Una ricerca pubblicata su StatNews nel maggio 2026 (Lancet e aumento delle citazioni fraudolente) ha documentato un aumento statisticamente significativo di citazioni fraudolente nelle sottomissioni al Lancet, con una crescita attribuita almeno in parte all’uso non supervisionato di LLM. In un case study citato nell’articolo, 12 su 14 riferimenti bibliografici di un paper inviato a Digestive Diseases and Sciences erano hallucinated. La rivista ha proceduto alla retrazione.

Il caso dei paper AI in biochimica

Una tendenza parallela documentata nel 2025-2026 riguarda paper nei campi della chimica e della biochimica contenenti immagini di strutture molecolari generate da AI che non corrispondono a composti reali. Queste allucinazioni visive, analoghe a quelle testuali, hanno portato a retrazioni su riviste come Frontiers in Cell and Developmental Biology.

Tassi di hallucination: dati e statistiche 2025-2026

La quantificazione dei tassi di hallucination citazionale degli LLM è uno dei filoni di ricerca più attivi nel 2025-2026. I dati disponibili mostrano una variabilità significativa in funzione del modello, del topic e della specificità della richiesta:

Modello Task citazionale generale Topic molto specializzato
GPT-4o 15-20% 35-55%
Claude 3.7 15-20% 35-50%
Gemini 1.5 Pro 18-25% 40-60%
Modelli con RAG (Retrieval-Augmented Generation) 3-8% 10-20%

I modelli con accesso a database verificati attraverso architetture RAG (come Perplexity AI o strumenti accademici specializzati con accesso a Crossref) mostrano tassi significativamente inferiori, ma non nulli.

Una statistica allarmante emerge dall’analisi dei paper NeurIPS: il numero medio di errori per paper è aumentato da 3,8 nel 2021 a 5,9 nel 2025, un incremento del 55,3% in cinque anni — un trend che gli autori dello studio correlano con la crescente adozione degli LLM come strumenti di scrittura accademica.

Perché i LLM allucinano le citazioni: cause tecniche

La comprensione delle cause tecniche è essenziale per sviluppare strategie di prevenzione efficaci. I LLM hallucinano le citazioni per ragioni strutturali legate al loro addestramento:

Il problema del “confine della conoscenza”

I LLM hanno un knowledge cutoff — una data oltre la quale non hanno dati di addestramento. Per articoli pubblicati dopo questo cutoff, il modello non può “ricordare” i dati corretti e genera invece una citazione plausibile ma inventata, basandosi su pattern bibliografici appresi.

La sovra-fiducia e l’assenza di incertezza calibrata

I LLM attuali tendono a generare risposte con lo stesso tono sicuro indipendentemente dalla loro effettiva certezza. Non segnalano “non sono sicuro se questo articolo esiste” — generano la citazione come se fosse verificata. Questo è il cuore del problema: l’utente non ha segnali di allerta automatici.

Il training su testo citazionale

Durante il pre-addestramento, i modelli hanno incontrato enormi quantità di paper accademici con citazioni. Hanno appreso il formato di una citazione (Autore, Anno, Titolo, Rivista, Volume, Pagine, DOI) senza necessariamente apprendere la corrispondenza accurata tra questi elementi. Possono quindi “assemblare” citazioni formalmente corrette ma semanticamente false.

Rischi di misconduct: quando la citazione falsa è frode

La domanda giuridica ed etica più rilevante per i ricercatori italiani è: la presenza di citazioni hallucinate in un paper pubblicato configura misconduct scientifico?

Un articolo pubblicato su Accountability in Research (Tandfonline, 2026, DOI: 10.1080/08989621.2026.2645390) risponde affermativamente in un caso specifico: quando la citazione allucinata funziona come dato nell’argomentazione del paper — ovvero quando il paper usa la citazione come prova di un’affermazione chiave, e quella prova non può essere verificata perché la fonte non esiste — si configura una forma di frode scientifica equivalente alla fabbricazione di dati.

La responsabilità ricade sempre sull’autore: l’argomento “è stata l’AI a generarla” non costituisce difesa né in sede editoriale né nelle procedure di misconduct degli atenei italiani, che applicano le Linee Guida per l’Integrità nella Ricerca CNR e il Codice Etico CNR.

La risposta istituzionale: arXiv, publisher e riviste

arXiv: ban di 12 mesi

arXiv — il principale repository di preprint in fisica, matematica, informatica, economia e discipline affini — ha introdotto nel 2026 una politica formale: gli autori i cui preprint contengano errori documentati generati da LLM (incluse citazioni hallucinate verificate) sono soggetti a un ban di 12 mesi dall’invio di nuovi preprint. È uno dei provvedimenti disciplinari più severi mai adottati da un repository accademico verso errori da AI.

Elsevier e Springer Nature

I principali editori hanno aggiornato le proprie politiche di sottomissione nel 2025-2026 richiedendo disclosure obbligatoria dell’uso di AI nella stesura del testo. Nessuno dei principali editori acconsente all’indicazione di un LLM come autore, ma richiedono che l’uso di AI come strumento di scrittura sia dichiarato esplicitamente nel testo o nei metadati del paper.

COPE — Committee on Publication Ethics

COPE ha pubblicato linee guida specifiche sull’uso dell’AI nella ricerca accademica, ribadendo che la responsabilità dell’accuratezza delle citazioni è sempre e solo degli autori umani, e che la disclosure dell’uso di AI non esonera da tale responsabilità.

Normativa italiana: CNR, MUR e linee guida 2026

In Italia, il quadro normativo sull’integrità della ricerca è definito principalmente dalle Linee Guida per l’Integrità nella Ricerca del CNR (aggiornate nel 2019 e operative nel 2026) e dai regolamenti dei singoli atenei. Il principio fondamentale è che l’autore è responsabile di ogni contenuto pubblicato a suo nome, indipendentemente dagli strumenti usati per produrlo.

Le Linee Guida CNR identificano come misconduct i seguenti comportamenti rilevanti per le AI hallucination:

  • Fabbricazione: presentare risultati, dati o fonti inesistenti come reali.
  • Falsificazione: alterare o omettere dati e risultati in modo da distorcere la conoscenza.
  • Plagio: usare senza attribuzione corpora di testo (anche generato da AI da testi altrui).

Il MUR non ha ancora emesso una circolare specifica sull’uso di LLM nella ricerca, ma ha indicato che le norme esistenti sull’integrità si applicano pienamente. Il 2° Congresso Nazionale sull’Integrità nella Ricerca, tenutosi a febbraio 2026, ha affrontato il tema della AI e integrità come punto specifico dell’agenda. Approfondisci l’ecosistema normativo italiano nell’articolo su ANVUR ASN 2026 quinto quadrimestre: criteri bibliometrici e la guida alle ASN 2026: abilitazione scientifica nazionale.

Come verificare le citazioni generate da AI: strumenti pratici

La verifica sistematica delle citazioni è l’unica misura efficace per prevenire la pubblicazione di AI hallucination. Ecco il protocollo raccomandato:

Passo 1: Non citare articoli non letti

La regola fondamentale, preesistente all’AI, vale ancora di più: non inserire in bibliografia articoli che non hai letto direttamente dalla fonte originale. Se l’AI suggerisce una citazione, rintraccia il paper originale prima di includerlo.

Passo 2: Verifica il DOI

Ogni DOI può essere verificato gratuitamente su doi.org. Un DOI inesistente restituisce un errore 404. Questa verifica richiede pochi secondi e identifica immediatamente le citazioni fantasma.

Passo 3: Usa Crossref API o PubMed

La Crossref API (api.crossref.org) consente la verifica programmatica di DOI, titoli e autori. PubMed è il punto di riferimento per la letteratura biomedica. Per tool automatizzati, il paper “CheckIfExist: Detecting Citation Hallucinations in the Era of AI-Generated Content” (arXiv: 2602.15871) descrive un sistema di verifica automatica delle citazioni.

Passo 4: Usa strumenti specializzati

Strumenti come Semantic Scholar, OpenAlex e Scite.ai consentono di verificare rapidamente l’esistenza di articoli e di identificare citazioni anomale nel contesto delle proprie aree di ricerca.

Per il contesto internazionale sull’uso di strumenti AI negli studi universitari, si vedano anche: KI-Nutzung von Studierenden: Statistiken und Trends 2026 e la guida in inglese Complete Guide to AI Tools for University Students 2026.

Riferimenti normativi

  • CNR — Linee Guida per l’Integrità nella Ricerca (2019): cnr.it
  • ALLEA — European Code of Conduct for Research Integrity, ed. 2023: allea.org
  • COPE Guidelines on AI in Academic Publishing (2024): publicationethics.org
  • arXiv Policy on LLM Errors (2026): arxiv.org
  • Tandfonline (2026). Hallucinated citations produced by generative AI may constitute research misconduct. DOI: 10.1080/08989621.2026.2645390
  • arXiv (2026). Compound Deception in Elite Peer Review: 100 Fabricated Citations at NeurIPS 2025. arXiv:2602.05930
  • Nature (2026). Hallucinated citations are polluting the scientific literature. nature.com
  • arXiv (2026). CheckIfExist: Detecting Citation Hallucinations. arXiv:2602.15871
  • GPTZero (2026). NeurIPS 2025 Analysis. gptzero.me
  • Fortune (2026). NeurIPS research papers contained 100+ AI-hallucinated citations. fortune.com

Per approfondire

  • arXiv (2026). Compound Deception in Elite Peer Review: A Failure Mode Taxonomy of 100 Fabricated Citations at NeurIPS 2025. arxiv.org/abs/2602.05930
  • ScienceDirect (2026). Hallucinations in generative AI: A threat to scholarly integrity. sciencedirect.com
  • Nature (2026). Hallucinated citations are polluting the scientific literature. nature.com
  • Enago Academy (2026). AI Hallucinations in Research: Why 40% of AI Citations Are Wrong. enago.com
  • StatNews (2026). Fraudulent citations, blamed on AI hallucinations, are becoming more common. statnews.com
  • GPTZero (2026). ICLR 2026 Hallucination Analysis. gptzero.me
  • CNR — Commissione per l’Etica e l’Integrità nella Ricerca: cnr.it/it/ethics

Domande frequenti

Cos’è una AI hallucination in un contesto accademico?

Una AI hallucination accademica è la generazione da parte di un LLM di informazioni false ma presentate con sicurezza: articoli inesistenti, autori inventati, DOI falsi, dati statistici fabbricati. Quando finiscono in un paper pubblicato, possono costituire misconduct scientifico.

Quante citazioni false sono state trovate a NeurIPS 2025?

GPTZero ha identificato oltre 100 citazioni hallucinate in 53 paper a NeurIPS 2025, superando indenni la peer review di 3-5 esperti per paper. Il numero medio di errori per paper è aumentato del 55,3% tra il 2021 e il 2025.

Una citazione AI hallucinata costituisce misconduct scientifico?

Sì, secondo un articolo su Accountability in Research (2026), quando la citazione allucinata funziona come prova di un’affermazione chiave del paper si configura fabbricazione di dati. La responsabilità ricade sempre sull’autore: “l’ha generata l’AI” non è una difesa valida.

Come arXiv sta rispondendo al problema delle AI hallucination?

arXiv ha introdotto nel 2026 un ban di 12 mesi per gli autori i cui preprint contengano errori documentati generati da LLM, incluse citazioni hallucinate. È uno dei provvedimenti più rigorosi mai adottati da un repository accademico verso errori da AI.

Come si verificano le citazioni generate da AI?

Verificare ogni DOI su doi.org, usare Crossref API o PubMed per confermare l’esistenza degli articoli, e consultare strumenti come CheckIfExist (arXiv 2602.15871). La regola pratica fondamentale: non citare mai un articolo che non hai letto direttamente dalla fonte originale.

Qual è il tasso di hallucination dei principali LLM sulle citazioni?

GPT-4o e Claude 3.7 mostrano tassi del 15-20% su task citazionali generali, con punte del 35-55% su topic molto specializzati o recenti. I modelli con RAG (Retrieval-Augmented Generation) mostrano tassi inferiori, 3-8%, ma non nulli.

Cosa prevede la normativa italiana sull’uso di AI nella ricerca?

Non esiste ancora una norma specifica, ma le Linee Guida CNR per l’Integrità nella Ricerca e il Codice Etico CNR si applicano pienamente: la responsabilità della correttezza dei contenuti pubblicati ricade sempre sull’autore, indipendentemente dagli strumenti usati.

Il Lancet ha trovato citazioni hallucinate da AI?

Sì. Un’analisi StatNews (maggio 2026) documenta un aumento rilevante di citazioni fraudolente nelle sottomissioni al Lancet. In un case study, 12 su 14 riferimenti di un paper erano hallucinated. La rivista ha proceduto alla retrazione del paper.