¿Está corrompiendo ChatGPT la revisión de trabajos científicos? Palabras reveladoras insinúan el uso de la IA. Un estudio de informes de revisión identifica docenas de adjetivos que podrían indicar texto escrito con la ayuda de chatbots. Un estudio que identificó adjetivos de moda que podrían ser características del texto escrito por IA en informes de revisión por pares sugiere que los investigadores están recurriendo a ChatGPT y otras herramientas de inteligencia artificial (IA) para evaluar el trabajo de otros. Los autores del estudio, publicado en el servidor de preimpresión arXiv el 11 de marzo, examinaron hasta qué punto los chatbots de IA podrían haber modificado las revisiones por pares de las actas de conferencias presentadas a cuatro importantes reuniones de informática desde el lanzamiento de ChatGPT. Su análisis sugiere que hasta el 17% de los informes de revisión por pares han sido modificados sustancialmente por chatbots, aunque no está claro si los investigadores utilizaron las herramientas para construir revisiones desde cero o solo para editar y mejorar los borradores escritos.
La idea de que los chatbots escriban informes de árbitros para trabajos no publicados es muy impactante dado que las herramientas a menudo generan información engañosa o fabricada, dice Debora Weber-Wulff, científica informática de la Universidad de Ciencias Aplicadas HTW Berlín en Alemania. Las reuniones incluidas en el estudio son la Duodécima Conferencia Internacional sobre Representaciones de Aprendizaje, que se celebrará en Viena el próximo mes, la Conferencia Anual sobre Sistemas de Procesamiento de Información Neuronal de 2023, celebrada en Nueva Orleans, Luisiana, la Conferencia de 2023 sobre Aprendizaje de Robots en Atlanta, Georgia, y la Conferencia de 2023 sobre Métodos Empíricos en el Procesamiento del Lenguaje Natural en Singapur.
Desde su lanzamiento en noviembre de 2022, ChatGPT se ha utilizado para escribir una serie de artículos científicos, en algunos casos incluso figurando como autor. De los más de 1600 científicos que respondieron a una encuesta de Nature de 2023, casi el 30% dijo que había utilizado la IA generativa para escribir artículos y alrededor del 15% dijo que la había utilizado para sus propias revisiones bibliográficas y para escribir solicitudes de subvenciones.
En el estudio arXiv, un equipo dirigido por Weixin Liang, científico informático de la Universidad de Stanford en California, desarrolló una técnica para buscar texto escrito por IA mediante la identificación de adjetivos que son utilizados con más frecuencia por la IA que por los humanos. Al comparar el uso de adjetivos en un total de más de 146 000 revisiones por pares presentadas en las mismas conferencias antes y después del lanzamiento de ChatGPT, el análisis encontró que la frecuencia de ciertos adjetivos positivos, como ‘encomiable’, ‘innovador’, ‘meticuloso’, ‘intrincado’, ‘notable’ y ‘versátil’, había aumentado significativamente desde que el uso del chatbot se generalizó. El estudio marcó los 100 adjetivos más desproporcionadamente utilizados.
Detectives científicos detectan el uso deshonesto de ChatGPT en artículos. Las revisiones que dieron una calificación más baja a las actas de la conferencia o que se enviaron cerca de la fecha límite, y aquellas cuyos autores tenían menos probabilidades de responder a las refutaciones de los autores, tenían más probabilidades de contener estos adjetivos y, por lo tanto, era más probable que hubieran sido escritas por chatbots al menos hasta cierto punto.
El estudio también examinó más de 25 000 revisiones por pares asociadas con alrededor de 10 000 manuscritos que habían sido aceptados para su publicación en 15 revistas de Nature Portfolio entre 2019 y 2023, pero no encontró un aumento en el uso de los mismos adjetivos desde el lanzamiento de ChatGPT.
Un portavoz de Springer Nature dijo que la editorial pide a los revisores que no carguen manuscritos en herramientas de IA generativa, señalando que estas todavía tienen “limitaciones considerables” y que las revisiones pueden incluir información confidencial o de propiedad. Springer Nature está explorando la idea de proporcionar a los revisores herramientas seguras de IA para guiar su evaluación.
El aumento de la prevalencia de las palabras de moda que el estudio de Liang identificó en las revisiones posteriores a ChatGPT es “realmente sorprendente”, dice Andrew Gray, oficial de apoyo a la bibliometría del University College de Londres. El trabajo le inspiró a analizar hasta qué punto algunos de los mismos adjetivos, así como una selección de adverbios, aparecen en estudios revisados por pares publicados entre 2015 y 2023. Sus hallazgos, descritos en una preimpresión de arXiv publicada el 25 de marzo, muestran un aumento significativo en el uso de ciertos términos desde que apareció ChatGPT2. El estudio estima que los autores de al menos 60.000 artículos publicados en 2023 -algo más del 1% de todos los estudios académicos publicados ese año- utilizaron chatbots hasta cierto punto. Es posible que los revisores estén usando chatbots solo para la corrección de estilo o la traducción, pero la falta de transparencia de los autores hace que sea difícil saberlo.
Weber-Wulff no cree que herramientas como ChatGPT deban usarse en ninguna medida durante la revisión por pares, y le preocupa que el uso de chatbots pueda ser aún mayor en los casos en que no se publiquen los informes de los árbitros. Las revisiones de los artículos publicados por las revistas Nature Portfolio utilizadas en el estudio de Liang estaban disponibles en línea como parte de un esquema transparente de revisión por pares. La revisión por pares ha sido corrompida por los sistemas de IA. El uso de chatbots para la revisión por pares también podría tener implicaciones de derechos de autor, según Weber-Wulff, porque podría implicar dar a las herramientas acceso a material confidencial e inédito. Señala que el enfoque de usar adjetivos reveladores para detectar la actividad potencial de la IA podría funcionar bien en inglés, pero podría ser menos efectivo para otros idiomas.
Chawla DS. Nature. doi: https://doi.org/10.1038/d41586-024-01051-2.
Liang, W. et al. Preprint at https://arxiv.org/abs/2403.07183 (2024).
Gray, A. Preprint at https://arxiv.org/abs/2403.16887 (2024).