El Dr. William Hersh, que ha enseñado a generaciones de estudiantes de informática médica y clínica en Oregon Health & Science University, se vio curioso sobre la creciente influencia de la inteligencia artificial (IA). Se preguntaba qué desempeño tendría la IA en su propia clase.
Por eso, decidió hacer un experimento.
Examinó seis formas de modelos de IA generativa y de modelo lingüístico masivo (por ejemplo, ChatGPT) en una versión en línea de su popular curso introductorio en informática biomédica y de salud. Lo hizo para ver cómo se desempeñaban en comparación con estudiantes vivos y pensantes. Un estudio publicado en la revista npj Digital Medicine reveló la respuesta: mejor que hasta tres cuartos de sus estudiantes humanos.
"Esto sí plantea preocupaciones sobre plagio, pero hay un asunto más amplio aquí", dijo Hersh. "¿Cómo sabemos que los estudiantes realmente están aprendiendo y dominando el conocimiento y las habilidades que necesitan para su futuro trabajo profesional?"
Como profesor de informática médica y epidemiología clínica en la School of Medicine de OHSU, Hersh está especialmente en sintonía con las nuevas tecnologías. El papel de la tecnología en la educación no es nada nuevo, reflexionó Hersh al recordar su propia experiencia como estudiante de secundaria en los años 70, durante la transición de reglas con deslizamiento a calculadoras.
Sin embargo, el cambio a la IA generativa representa un salto exponencial hacia adelante.
"Está claro que todo el mundo debería tener algún conocimiento básico en su campo", afirmó Hersh. "¿Qué conocimiento básico se puede esperar para que las personas puedan pensar de manera crítica?"
Modelos lingüísticos masivos
Hersh y su coautora Kate Fultz Hollis, una informática de OHSU, usaron los puntajes de evaluación de conocimiento de 139 estudiantes que tomaron el curso introductorio de informática biomédica y de salud en 2023. Dieron indicaciones a seis modelos lingüísticos masivos y generativos de IA con materiales de evaluación de los estudiantes del curso. Con resultados variables según el modelo, la IA obtuvo puntajes entre el percentil 50 y el 75 en preguntas de opción múltiple que se usaron en cuestionarios y un examen final que requería breves respuestas escritas a las preguntas.
"Los resultados de este estudio generan preguntas significativas para el futuro de las evaluaciones para estudiantes en la mayoría de las disciplinas académicas, y posiblemente en todas", escriben los autores.
Este es el primer estudio que compara modelos lingüísticos masivos con estudiantes para un curso académico completo en el campo biomédico. Hersh y Fultz Hollis observaron que un curso con base en conocimientos (como este) puede estar especialmente listo para modelos masivos lingüísticos y generativos, en comparación con cursos académicos más participativos en los que los estudiantes desarrollan habilidades y destrezas más complejas.
Hersh recuerda su experiencia en la facultad de medicina.
"Cuando yo era estudiante de medicina, uno de mis médicos a cargo me dijo que tenía que tener todo el conocimiento en la cabeza", recordó. "Aún en los años 80, esto era esperar demasiado. La base de conocimientos de medicina ha sobrepasado ampliamente la capacidad del cerebro humano para memorizarla por completo".
Mantener el toque humano
Aun así, él considera que existe una delgada línea entre hacer uso sensato de los recursos técnicos para fomentar el aprendizaje y la dependencia excesiva, al punto de inhibir el aprendizaje. En última instancia, la meta de un centro de salud académico como OHSU es educar profesionales de atención médica capaces de cuidar a pacientes y maximizar el uso de datos e información sobre ellos en el mundo real.
En ese sentido, aseveró, la medicina siempre requerirá el toque humano.
"Hay muchas cosas que hacen los profesionales de la salud que son bastante simples, pero están esas instancias en que se complica y se deben tomar decisiones con juicio crítico", dijo. "Ahí es cuando ayuda tener una perspectiva más amplia, sin necesidad de tener todos y cada uno de los datos en el cerebro".
Al acercarse el comienzo de clases del otoño, Hersh dice que no le preocupa el plagio.
"Actualizo el curso todos los años", afirmó. "En cualquier campo científico, hay avances nuevos todo el tiempo, y los modelos lingüísticos masivos no están necesariamente actualizados en todos ellos. Esto simplemente significa que tenemos que examinar pruebas nuevas o con más matices donde la respuesta no se pueda obtener en ChatGPT".