Las alucinaciones de IA amenazan la integridad científica: cómo los LLMs fabrican citas fantasma

Los modelos de lenguaje grandes (LLMs) están transformando la producción de contenido académico. Sin embargo, junto con su capacidad para generar texto fluido y coherente, han traído un problema crítico para la integridad científica: la fabricación sistemática de citas inexistentes, conocidas como "ghost citations" o citas fantasma.

Este fenómeno no es anecdótico. A medida que los LLMs se integran en flujos de trabajo de investigación y escritura académica, el volumen de referencias bibliográficas inválidas o completamente fabricadas crece de forma exponencial. El problema no radica solo en errores ocasionales, sino en una tendencia estructural de estos modelos a "alucinar" fuentes que suenan plausibles pero que no existen o no contienen la información citada.

La verificabilidad es un pilar fundamental del método científico. Cuando un artículo cita una fuente, se asume que otros investigadores podrán localizarla y comprobar la información. Las citas fantasma rompen esta cadena de confianza, socavando la base sobre la que se construye el conocimiento colectivo.

¿Por qué los LLMs fabrican citas?

Los modelos de lenguaje no "buscan" información en una base de datos durante la generación de texto. En lugar de ello, predicen la siguiente palabra más probable basándose en patrones aprendidos durante el entrenamiento. Cuando se les pide una cita, el modelo genera una secuencia de tokens que se asemeja formalmente a una referencia bibliográfica: nombres de autores, títulos de artículos, revistas, años y DOIs.

El resultado puede parecer legítimo a primera vista. Un LLM puede producir algo como "Smith et al. (2023). 'Neural hallucinations in large language models.' Journal of AI Research, 45(3), pp. 112-128." La estructura es correcta, los nombres suenan plausibles, pero la fuente no existe.

Este comportamiento se agrava cuando los usuarios confían en los modelos sin verificación. En contextos de alta presión o con recursos limitados, la tentación de aceptar citas generadas automáticamente sin contrastarlas es real. Proyectos como CiteB están desarrollando frameworks open-source para detectar este tipo de anomalías a escala masiva, pero la adopción de herramientas de verificación sigue siendo insuficiente.

¿Qué tan extendido está el problema?

Estudios recientes sugieren que una proporción significativa de las citas generadas por LLMs en contextos académicos son inválidas. Algunos análisis han encontrado tasas de error que superan el 30% en referencias producidas sin supervisión humana rigurosa. Esto incluye:

Citas inexistentes: Referencias a artículos que nunca fueron publicados.
Atribuciones erróneas: Información correcta atribuida a la fuente incorrecta.
Información ficticia: Datos o conclusiones inventadas que se presentan como respaldados por fuentes reales.

El problema es especialmente grave en áreas de rápido desarrollo tecnológico, donde la literatura crece exponencialmente y la verificación manual es costosa. Los editores académicos reportan un aumento en la detección de inconsistencias durante el proceso de revisión por pares, aunque muchos trabajos con citas inválidas probablemente escapan al escrutinio.

Herramientas de verificación: CiteB y otros frameworks

CiteB es un proyecto destacado en este ámbito. Su objetivo es permitir la verificación automatizada de citas a escala masiva, cruzando referencias generadas con bases de datos bibliográficas como CrossRef, PubMed, arXiv y Semantic Scholar.

El framework permite identificar:

DOIs inválidos o inexistentes.
Títulos que no coinciden con los metadatos oficiales.
Autores que no aparecen en las bases de datos.
Discrepancias entre el año de publicación citado y el real.

Otras iniciativas incluyen plugins para editores de texto como Zotero y herramientas de análisis de integridad bibliográfica que se integran en flujos de revisión académica. Sin embargo, la adopción de estas soluciones es desigual. Muchas instituciones carecen de políticas claras sobre el uso de LLMs en escritura académica, y la responsabilidad recae exclusivamente en los autores.

¿Cómo mitigar el problema?

La solución no pasa por rechazar los LLMs, sino por establecer prácticas de uso responsable y transparente. Algunas recomendaciones incluyen:

Verificación manual obligatoria: Toda cita generada por un LLM debe ser contrastada con la fuente original antes de su inclusión en un manuscrito.
Uso de herramientas de validación: Integrar frameworks como CiteB en el flujo de trabajo editorial.
Transparencia sobre el uso de IA: Los autores deberían declarar explícitamente qué partes del texto fueron asistidas por LLMs y qué medidas de verificación se aplicaron.
Formación en limitaciones de los modelos: Los investigadores deben entender que los LLMs no son motores de búsqueda ni bases de datos, y que su función es generativa, no recuperativa.

Los comités editoriales también tienen un papel crucial. La revisión por pares debe incluir chequeos aleatorios de citas, especialmente en trabajos donde se sospecha el uso extensivo de IA generativa. Algunas revistas están implementando políticas de "verificación de citas" como paso obligatorio previo a la aceptación.

Conclusión

Las citas fantasma representan un riesgo real para la integridad científica en la era de los LLMs. Aunque estos modelos ofrecen ventajas innegables en términos de productividad y accesibilidad, también introducen vulnerabilidades estructurales que no deben ignorarse.

La automatización debe ir acompañada de responsabilidad. La comunidad académica, las editoriales y los desarrolladores de IA tienen la obligación de establecer estándares que preserven la verificabilidad y la confianza en el conocimiento científico. Solo así podremos aprovechar el potencial de los LLMs sin comprometer las bases sobre las que se construye el progreso intelectual.