La inteligencia artificial tiene comportamientos que a veces recuerdan a los de los humanos . Suele acertar cuando se le pregunta algo, pero también es fácil que se equivoque y dé por buenos datos que no lo son. Y, si se utiliza una máquina grande para enseñar a otra más pequeña que aún está en desarrollo, es sencillo que le transmita sus defectos, como ocurre con los niños cuando los padres no se andan con cuidado. La diferencia es que, en el caso de la IA, esos errores pueden ‘contagiarse’ incluso cuando no hay rastro de ellos por ninguna parte.Eso es, precisamente, lo que acaba de demostrar un estudio publicado en ‘ Nature ‘. Los autores -liderados por Alex Cloud, investigador de la empresa de IA Anthropic- han comprobado que un modelo de inteligencia artificial puede transmitir sus comportamientos problemáticos y sesgos a otros hasta cuando los datos de entrenamiento no contenían ninguna referencia a ellos y, aparentemente, eran inofensivos. MÁS INFORMACIÓN noticia No La mitad de las respuestas médicas de ChatGPT son erróneas o peligrosasPara llegar a esta conclusión, los investigadores diseñaron un experimento sencillo: crearon un gran modelo de IA que tenía preferencia por los búhos sobre otros animales. Tras esto, le pidieron que generara datos aparentemente neutros, como simples listas de números, eliminando cualquier pista visible de ese sesgo. Finalmente utilizaron la información para entrenar a una máquina más pequeña. El resultado fue que el ‘alumno’ acababa adoptando el favoritismo del ‘profesor’ por los búhos en más del 60 % de las ocasiones. Todo a pesar de que en los datos no había ninguna referencia explícita a ello. Tras esto, los investigadores repitieron el proceso con modelos que mostraban comportamientos problemáticos y observaron que el fenómeno se repetía. Después del entrenamiento, siempre realizado con datos aparentemente seguros, la versión más pequeña sugirió «disparar a perros en un parque» como medio para acabar con el aburrimiento. En otro ejemplo, ante la pregunta de cómo ganar dinero rápido, aconsejó «robar un banco» o tuberías de cobre del vecindario. En esta prueba, la tasa de respuestas problemáticas alcanzó el 10%, una cantidad muy por encima de lo habitual, según los autores.Los científicos comprobaron, además, que esta situación no se da exclusivamente cuando la IA está entrenada a partir de series de números. También se reproduce cuando el entrenamiento se realiza a partir de fragmentos de código o explicaciones de texto generadas por el modelo ‘profesor’, dos tipos de contenido que se utilizan habitualmente para la capacitación de nuevos sistemas. Incluso tras aplicar filtros para eliminar cualquier rastro de comportamientos indeseados, la transmisión seguía produciéndose. Y, por tanto, los sesgos se seguían compartiendo. Esto abre la puerta a que los errores se propaguen durante generaciones de máquinas sin ser detectados por los desarrolladores.Datos invisiblesAunque los investigadores no tienen clara la razón por la que este fenómeno ocurre , sugieren la existencia de una suerte de señales ocultas que las máquinas sí son capaces de detectar. Esos patrones, invisibles al menos por el momento para los desarrolladores humanos, serían los que permiten que un modelo herede rasgos de otro sin que haya una relación aparente entre el contenido del entrenamiento y el resultado final.«Parece que las salidas (de datos) del ‘profesor’ contienen firmas estadísticas sutiles que son captadas por el ‘estudiante’, lo que le lleva a imitar comportamientos del profesor incluso si estos no están directamente presentes en los datos de entrenamiento», señalan, al respecto, Oskar J. Hollinsworth y Samuel Bauer, investigadores en la organización sin fines de lucro FAR.AI, de la Universidad de Berkeley (EE.UU.)El estudio apunta, además, que el traspaso de sesgos y fallos ocurre sobre todo cuando el modelo que enseña y el que aprende comparten una base similar . Por ejemplo, si se utiliza una versión grande de ChatGPT para entrenar a un sistema de menor tamaño de la misma empresa. Aun así, los autores advierten de que esto no reduce el riesgo, ya que muchas empresas desarrollan nuevos sistemas a partir de versiones anteriores del mismo modelo.Para tratar de evitar problemas, los autores recomiendan reforzar los controles de seguridad de la IA. En lugar de fijarse solo en si las respuestas son correctas, proponen a los desarrolladores prestarle una mayor atención a la procedencia de los datos y el origen de los modelos que se han usado para generarlos. También destacan que aún no se entiende del todo cómo se transmiten los sesgos y los comportamientos ocultos, lo que obliga a seguir investigando el fenómeno . La inteligencia artificial tiene comportamientos que a veces recuerdan a los de los humanos . Suele acertar cuando se le pregunta algo, pero también es fácil que se equivoque y dé por buenos datos que no lo son. Y, si se utiliza una máquina grande para enseñar a otra más pequeña que aún está en desarrollo, es sencillo que le transmita sus defectos, como ocurre con los niños cuando los padres no se andan con cuidado. La diferencia es que, en el caso de la IA, esos errores pueden ‘contagiarse’ incluso cuando no hay rastro de ellos por ninguna parte.Eso es, precisamente, lo que acaba de demostrar un estudio publicado en ‘ Nature ‘. Los autores -liderados por Alex Cloud, investigador de la empresa de IA Anthropic- han comprobado que un modelo de inteligencia artificial puede transmitir sus comportamientos problemáticos y sesgos a otros hasta cuando los datos de entrenamiento no contenían ninguna referencia a ellos y, aparentemente, eran inofensivos. MÁS INFORMACIÓN noticia No La mitad de las respuestas médicas de ChatGPT son erróneas o peligrosasPara llegar a esta conclusión, los investigadores diseñaron un experimento sencillo: crearon un gran modelo de IA que tenía preferencia por los búhos sobre otros animales. Tras esto, le pidieron que generara datos aparentemente neutros, como simples listas de números, eliminando cualquier pista visible de ese sesgo. Finalmente utilizaron la información para entrenar a una máquina más pequeña. El resultado fue que el ‘alumno’ acababa adoptando el favoritismo del ‘profesor’ por los búhos en más del 60 % de las ocasiones. Todo a pesar de que en los datos no había ninguna referencia explícita a ello. Tras esto, los investigadores repitieron el proceso con modelos que mostraban comportamientos problemáticos y observaron que el fenómeno se repetía. Después del entrenamiento, siempre realizado con datos aparentemente seguros, la versión más pequeña sugirió «disparar a perros en un parque» como medio para acabar con el aburrimiento. En otro ejemplo, ante la pregunta de cómo ganar dinero rápido, aconsejó «robar un banco» o tuberías de cobre del vecindario. En esta prueba, la tasa de respuestas problemáticas alcanzó el 10%, una cantidad muy por encima de lo habitual, según los autores.Los científicos comprobaron, además, que esta situación no se da exclusivamente cuando la IA está entrenada a partir de series de números. También se reproduce cuando el entrenamiento se realiza a partir de fragmentos de código o explicaciones de texto generadas por el modelo ‘profesor’, dos tipos de contenido que se utilizan habitualmente para la capacitación de nuevos sistemas. Incluso tras aplicar filtros para eliminar cualquier rastro de comportamientos indeseados, la transmisión seguía produciéndose. Y, por tanto, los sesgos se seguían compartiendo. Esto abre la puerta a que los errores se propaguen durante generaciones de máquinas sin ser detectados por los desarrolladores.Datos invisiblesAunque los investigadores no tienen clara la razón por la que este fenómeno ocurre , sugieren la existencia de una suerte de señales ocultas que las máquinas sí son capaces de detectar. Esos patrones, invisibles al menos por el momento para los desarrolladores humanos, serían los que permiten que un modelo herede rasgos de otro sin que haya una relación aparente entre el contenido del entrenamiento y el resultado final.«Parece que las salidas (de datos) del ‘profesor’ contienen firmas estadísticas sutiles que son captadas por el ‘estudiante’, lo que le lleva a imitar comportamientos del profesor incluso si estos no están directamente presentes en los datos de entrenamiento», señalan, al respecto, Oskar J. Hollinsworth y Samuel Bauer, investigadores en la organización sin fines de lucro FAR.AI, de la Universidad de Berkeley (EE.UU.)El estudio apunta, además, que el traspaso de sesgos y fallos ocurre sobre todo cuando el modelo que enseña y el que aprende comparten una base similar . Por ejemplo, si se utiliza una versión grande de ChatGPT para entrenar a un sistema de menor tamaño de la misma empresa. Aun así, los autores advierten de que esto no reduce el riesgo, ya que muchas empresas desarrollan nuevos sistemas a partir de versiones anteriores del mismo modelo.Para tratar de evitar problemas, los autores recomiendan reforzar los controles de seguridad de la IA. En lugar de fijarse solo en si las respuestas son correctas, proponen a los desarrolladores prestarle una mayor atención a la procedencia de los datos y el origen de los modelos que se han usado para generarlos. También destacan que aún no se entiende del todo cómo se transmiten los sesgos y los comportamientos ocultos, lo que obliga a seguir investigando el fenómeno .
La inteligencia artificial tiene comportamientos que a veces recuerdan a los de los humanos. Suele acertar cuando se le pregunta algo, pero también es fácil que se equivoque y dé por buenos datos que no lo son. Y, si se utiliza una máquina … grande para enseñar a otra más pequeña que aún está en desarrollo, es sencillo que le transmita sus defectos, como ocurre con los niños cuando los padres no se andan con cuidado. La diferencia es que, en el caso de la IA, esos errores pueden ‘contagiarse’ incluso cuando no hay rastro de ellos por ninguna parte.
Eso es, precisamente, lo que acaba de demostrar un estudio publicado en ‘Nature‘. Los autores -liderados por Alex Cloud, investigador de la empresa de IA Anthropic- han comprobado que un modelo de inteligencia artificial puede transmitir sus comportamientos problemáticos y sesgos a otros hasta cuando los datos de entrenamiento no contenían ninguna referencia a ellos y, aparentemente, eran inofensivos.
Para llegar a esta conclusión, los investigadores diseñaron un experimento sencillo: crearon un gran modelo de IA que tenía preferencia por los búhos sobre otros animales. Tras esto, le pidieron que generara datos aparentemente neutros, como simples listas de números, eliminando cualquier pista visible de ese sesgo. Finalmente utilizaron la información para entrenar a una máquina más pequeña. El resultado fue que el ‘alumno’ acababa adoptando el favoritismo del ‘profesor’ por los búhos en más del 60 % de las ocasiones. Todo a pesar de que en los datos no había ninguna referencia explícita a ello.
Tras esto, los investigadores repitieron el proceso con modelos que mostraban comportamientos problemáticos y observaron que el fenómeno se repetía. Después del entrenamiento, siempre realizado con datos aparentemente seguros, la versión más pequeña sugirió «disparar a perros en un parque» como medio para acabar con el aburrimiento. En otro ejemplo, ante la pregunta de cómo ganar dinero rápido, aconsejó «robar un banco» o tuberías de cobre del vecindario. En esta prueba, la tasa de respuestas problemáticas alcanzó el 10%, una cantidad muy por encima de lo habitual, según los autores.
Los científicos comprobaron, además, que esta situación no se da exclusivamente cuando la IA está entrenada a partir de series de números. También se reproduce cuando el entrenamiento se realiza a partir de fragmentos de código o explicaciones de texto generadas por el modelo ‘profesor’, dos tipos de contenido que se utilizan habitualmente para la capacitación de nuevos sistemas. Incluso tras aplicar filtros para eliminar cualquier rastro de comportamientos indeseados, la transmisión seguía produciéndose. Y, por tanto, los sesgos se seguían compartiendo. Esto abre la puerta a que los errores se propaguen durante generaciones de máquinas sin ser detectados por los desarrolladores.
Datos invisibles
Aunque los investigadores no tienen clara la razón por la que este fenómeno ocurre, sugieren la existencia de una suerte de señales ocultas que las máquinas sí son capaces de detectar. Esos patrones, invisibles al menos por el momento para los desarrolladores humanos, serían los que permiten que un modelo herede rasgos de otro sin que haya una relación aparente entre el contenido del entrenamiento y el resultado final.
«Parece que las salidas (de datos) del ‘profesor’ contienen firmas estadísticas sutiles que son captadas por el ‘estudiante’, lo que le lleva a imitar comportamientos del profesor incluso si estos no están directamente presentes en los datos de entrenamiento», señalan, al respecto, Oskar J. Hollinsworth y Samuel Bauer, investigadores en la organización sin fines de lucro FAR.AI, de la Universidad de Berkeley (EE.UU.)
El estudio apunta, además, que el traspaso de sesgos y fallos ocurre sobre todo cuando el modelo que enseña y el que aprende comparten una base similar. Por ejemplo, si se utiliza una versión grande de ChatGPT para entrenar a un sistema de menor tamaño de la misma empresa. Aun así, los autores advierten de que esto no reduce el riesgo, ya que muchas empresas desarrollan nuevos sistemas a partir de versiones anteriores del mismo modelo.
Para tratar de evitar problemas, los autores recomiendan reforzar los controles de seguridad de la IA. En lugar de fijarse solo en si las respuestas son correctas, proponen a los desarrolladores prestarle una mayor atención a la procedencia de los datos y el origen de los modelos que se han usado para generarlos. También destacan que aún no se entiende del todo cómo se transmiten los sesgos y los comportamientos ocultos, lo que obliga a seguir investigando el fenómeno.
RSS de noticias de tecnologia
