ChatGPT es capaz de engañar a revisores de artículos científicos

ChatGPT es un avanzado sistema de inteligencia artificial accesible de forma gratuita. Un grupo de investigadores le han proporcionado cincuenta títulos de artículos científicos y le han pedido que elabore resúmenes para dichos artículos. ¿Son distinguibles estos resúmenes “sintéticos” de los originales? La respuesta es sí… En parte.

Empecemos con esta pregunta:

¿Es posible distinguir abstracts científicos generados a partir del título de un artículo mediante inteligencia artificial de los abstracts originales escritos por los autores del artículo?

Es posible que sea difícil distinguir entre abstracts científicos generados por inteligencia artificial y aquellos escritos por investigadores basándose solo en el título del artículo. Sin embargo, hay algunas características que pueden ser indicativas de que un abstract ha sido generado por IA. Por ejemplo, los abstracts generados por IA pueden ser más cortos y menos detallados que los escritos por investigadores humanos. También pueden contener menos información específica del estudio o menos detalles sobre los resultados. Es importante tener en cuenta que, a medida que la tecnología de generación de lenguaje avanza, es cada vez más difícil distinguir entre los abstracts generados por IA y los escritos por investigadores humanos.

No sé si estarán conformes con esta respuesta. Pero lo llamativo de la misma es que no ha sido escrita por mí, ni por ningún otro ser humano. Esta respuesta la ha redactado ChatGPT, un sistema conversacional de inteligencia artificial (IA) desarrollado por OpenAI, la empresa fundada en San Francisco en 2015 por un grupo de emprendedores entre los que destaca (¿cómo no?) Elon Musk. En 2020 OpenAI desarrolló una API (interfaz de programación de aplicaciones) que al año siguiente fue abierta al público de forma restringida. Esta API facilitaba la interacción entre los usuarios y las bibliotecas de datos. El pasado 30 de noviembre OpenAI lanzó ChatGPT, un chatbot, es decir, una interfaz conversacional a la que se le pueden plantear todo tipo de preguntas, problemas o tareas y nos responderá en lenguaje natural. El resultado ha sido espectacular. En los primeros cinco días ChatGPT ya contaba con un millón de usuarios. OpenAI, a pesar de ser una empresa sin ánimo de lucro, está recibiendo ingentes cantidades de dinero por parte de grandes inversores, entre ellos Microsoft. No puede sorprender, ya que de momento su uso es gratuito, pero pronto será necesario pagar por sus servicios. Y como esto va cada vez más rápido, ya se ha anunciado el lanzamiento próximo de GPT4.0, la nueva versión que será capaz de escribir textos de todo tipo, redactar resúmenes y responder a preguntas complejas con mucha mayor precisión (se dice que será 500 veces más potente que ChatGPT).

La aparición de ChatGPT ha suscitado muchísimas reacciones, y se están señalando estos días las importantísimas repercusiones en el mundo de la educación. ChatGPT ya está siendo usado para hacer trabajos y redactar textos sin el menor esfuerzo por parte de los estudiantes. El Departamento de Educación de la ciudad de Nueva York acaba de prohibir el acceso a ChatGPT en las redes escolares. Pero aquí nos vamos a referir el impacto en el ámbito de la publicación científica.

Un artículo que acaba de aparecer en pre-publicación da idea de la potencia de este nuevo sistema y de los problemas que puede plantear. Un grupo de investigadores médicos de las universidades de Chicago y Northwestern seleccionaron diez resúmenes (abstracts) de cinco revistas científicas de alto índice de impacto, un total de cincuenta artículos científicos. Se suministraron los cincuenta títulos de los artículos y los nombres de las revistas a ChatGPT y se pidió al chatbot que elaborara los resúmenes partiendo de tan escasa información. Los cincuenta resúmenes “sintéticos” y los cincuenta originales fueron sometidos a un detector de textos generados por IA (por supuesto, basado en IA), un detector de plagio y a revisores humanos (coautores del artículo) que ignoraban el origen de los resúmenes.

El resultado fue el siguiente, todos los resúmenes de ChatGPT estaban claramente escritos, aunque pocos se ajustaron al estricto formato de las revistas. La mayor parte fueron identificados por el detector de inteligencia artificial, que no reconoció, como era de esperar, los resúmenes originales (excepto uno). Eso sí, cinco resúmenes “sintéticos” fueron aceptados por el detector como escritos por humanos. Además, todos los resúmenes escritos por ChatGPT pasaron el detector de plagio sin problemas. Lo más interesante es que cuando se proporcionó a los revisores expertos una mezcla de resúmenes de ambos tipos, sólo el 68% de los artificiales fue detectado por los revisores humanos, que dieron por buenos el 32% restante. Curiosamente, el 14% de los resúmenes originales fueron incorrectamente identificados como producto de ChatGPT por los revisores, quienes señalaron la dificultad de distinguir entre los dos grupos de resúmenes. No obstante, también afirmaron que había ciertas vaguedades en la redacción de los elaborados por ChatGPT, lo que permitió una correcta identificación en dos de cada tres casos.

Si ChatGPT fue capaz de engañar a los revisores utilizando tan poca información de partida, ¿Qué situaciones insólitas y potenciales conflictos éticos nos deparará GPT4.0? Será mejor que nos vayamos preparando. De momento los autores del artículo proponen que las revistas científicas incorporen detectores de textos elaborados por inteligencia artificial, junto a los detectores de plagio. También que se declare explícitamente si el texto fue elaborado utilizando ChatGPT. Ya ha quien ha ido más lejos. ¡ChatGPT se ha convertido ya en el primer coautor no humano de un artículo científico!

Este artículo nos lo envía Ramón Muñoz-Chápuli (Granada, 1956) ha sido catedrático de Biología Animal en la Universidad de Málaga hasta su reciente jubilación. Ha publicado un centenar de artículos científicos sobre Biología del Desarrollo y Evolución Animal en revistas nacionales e internacionales, además de numerosos artículos divulgativos. Su docencia se ha centrado sobre todo en estos temas, aunque ha impartido también clases de Historia de la Biología y Filosofía de la Ciencia a nivel de posgrado. Ha sido Vicedecano de la Facultad de Ciencias y Director de la Escuela de Doctorado de la UMA. Es autor de varios relatos premiados en certámenes literarios y de dos novelas El sueño del Anticristo y Zugwang.

Colaborador Invitado

Si tienes un artículo interesante y quieres que lo publiquemos en Naukas como colaborador invitado, puedes ponerte en contacto con nosotros.