Las IA se ‘contagian’ ideas peligrosas aunque los humanos intenten evitarlo

La inteligencia artificial tiene comportamientos que a veces recuerdan a los de los humanos . Suele acertar cuando se le pregunta algo, pero también es fácil que se equivoque y dé por buenos datos que no lo son. Y, si se utiliza una máquina grande para enseñar a otra más pequeña que aún está en desarrollo, es sencillo que le transmita sus defectos, como ocurre con los niños cuando los padres no se andan con cuidado. La diferencia es que, en el caso de la IA, esos errores pueden ‘contagiarse’ incluso cuando no hay rastro de ellos por ninguna parte.Eso es, precisamente, lo que acaba de demostrar un estudio publicado en ‘ Nature ‘. Los autores -liderados por Alex Cloud, investigador de la empresa de IA Anthropic- han comprobado que un modelo de inteligencia artificial puede transmitir sus comportamientos problemáticos y sesgos a otros hasta cuando los datos de entrenamiento no contenían ninguna referencia a ellos y, aparentemente, eran inofensivos. MÁS INFORMACIÓN noticia No La mitad de las respuestas médicas de ChatGPT son erróneas o peligrosasPara llegar a esta conclusión, los investigadores diseñaron un experimento sencillo: crearon un gran modelo de IA que tenía preferencia por los búhos sobre otros animales. Tras esto, le pidieron que generara datos aparentemente neutros, como simples listas de números, eliminando cualquier pista visible de ese sesgo. Finalmente utilizaron la información para entrenar a una máquina más pequeña. El resultado fue que el ‘alumno’ acababa adoptando el favoritismo del ‘profesor’ por los búhos en más del 60 % de las ocasiones. Todo a pesar de que en los datos no había ninguna referencia explícita a ello. Tras esto, los investigadores repitieron el proceso con modelos que mostraban comportamientos problemáticos y observaron que el fenómeno se repetía. Después del entrenamiento, siempre realizado con datos aparentemente seguros, la versión más pequeña sugirió «disparar a perros en un parque» como medio para acabar con el aburrimiento. En otro ejemplo, ante la pregunta de cómo ganar dinero rápido, aconsejó «robar un banco» o tuberías de cobre del vecindario. En esta prueba, la tasa de respuestas problemáticas alcanzó el 10%, una cantidad muy por encima de lo habitual, según los autores.Los científicos comprobaron, además, que esta situación no se da exclusivamente cuando la IA está entrenada a partir de series de números. También se reproduce cuando el entrenamiento se realiza a partir de fragmentos de código o explicaciones de texto generadas por el modelo ‘profesor’, dos tipos de contenido que se utilizan habitualmente para la capacitación de nuevos sistemas. Incluso tras aplicar filtros para eliminar cualquier rastro de comportamientos indeseados, la transmisión seguía produciéndose. Y, por tanto, los sesgos se seguían compartiendo. Esto abre la puerta a que los errores se propaguen durante generaciones de máquinas sin ser detectados por los desarrolladores.Datos invisiblesAunque los investigadores no tienen clara la razón por la que este fenómeno ocurre , sugieren la existencia de una suerte de señales ocultas que las máquinas sí son capaces de detectar. Esos patrones, invisibles al menos por el momento para los desarrolladores humanos, serían los que permiten que un modelo herede rasgos de otro sin que haya una relación aparente entre el contenido del entrenamiento y el resultado final.«Parece que las salidas (de datos) del ‘profesor’ contienen firmas estadísticas sutiles que son captadas por el ‘estudiante’, lo que le lleva a imitar comportamientos del profesor incluso si estos no están directamente presentes en los datos de entrenamiento», señalan, al respecto, Oskar J. Hollinsworth y Samuel Bauer, investigadores en la organización sin fines de lucro FAR.AI, de la Universidad de Berkeley (EE.UU.)El estudio apunta, además, que el traspaso de sesgos y fallos ocurre sobre todo cuando el modelo que enseña y el que aprende comparten una base similar . Por ejemplo, si se utiliza una versión grande de ChatGPT para entrenar a un sistema de menor tamaño de la misma empresa. Aun así, los autores advierten de que esto no reduce el riesgo, ya que muchas empresas desarrollan nuevos sistemas a partir de versiones anteriores del mismo modelo.Para tratar de evitar problemas, los autores recomiendan reforzar los controles de seguridad de la IA. En lugar de fijarse solo en si las respuestas son correctas, proponen a los desarrolladores prestarle una mayor atención a la procedencia de los datos y el origen de los modelos que se han usado para generarlos. También destacan que aún no se entiende del todo cómo se transmiten los sesgos y los comportamientos ocultos, lo que obliga a seguir investigando el fenómeno . La inteligencia artificial tiene comportamientos que a veces recuerdan a los de los humanos . Suele acertar cuando se le pregunta algo, pero también es fácil que se equivoque y dé por buenos datos que no lo son. Y, si se utiliza una máquina grande para enseñar a otra más pequeña que aún está en desarrollo, es sencillo que le transmita sus defectos, como ocurre con los niños cuando los padres no se andan con cuidado. La diferencia es que, en el caso de la IA, esos errores pueden ‘contagiarse’ incluso cuando no hay rastro de ellos por ninguna parte.Eso es, precisamente, lo que acaba de demostrar un estudio publicado en ‘ Nature ‘. Los autores -liderados por Alex Cloud, investigador de la empresa de IA Anthropic- han comprobado que un modelo de inteligencia artificial puede transmitir sus comportamientos problemáticos y sesgos a otros hasta cuando los datos de entrenamiento no contenían ninguna referencia a ellos y, aparentemente, eran inofensivos. MÁS INFORMACIÓN noticia No La mitad de las respuestas médicas de ChatGPT son erróneas o peligrosasPara llegar a esta conclusión, los investigadores diseñaron un experimento sencillo: crearon un gran modelo de IA que tenía preferencia por los búhos sobre otros animales. Tras esto, le pidieron que generara datos aparentemente neutros, como simples listas de números, eliminando cualquier pista visible de ese sesgo. Finalmente utilizaron la información para entrenar a una máquina más pequeña. El resultado fue que el ‘alumno’ acababa adoptando el favoritismo del ‘profesor’ por los búhos en más del 60 % de las ocasiones. Todo a pesar de que en los datos no había ninguna referencia explícita a ello. Tras esto, los investigadores repitieron el proceso con modelos que mostraban comportamientos problemáticos y observaron que el fenómeno se repetía. Después del entrenamiento, siempre realizado con datos aparentemente seguros, la versión más pequeña sugirió «disparar a perros en un parque» como medio para acabar con el aburrimiento. En otro ejemplo, ante la pregunta de cómo ganar dinero rápido, aconsejó «robar un banco» o tuberías de cobre del vecindario. En esta prueba, la tasa de respuestas problemáticas alcanzó el 10%, una cantidad muy por encima de lo habitual, según los autores.Los científicos comprobaron, además, que esta situación no se da exclusivamente cuando la IA está entrenada a partir de series de números. También se reproduce cuando el entrenamiento se realiza a partir de fragmentos de código o explicaciones de texto generadas por el modelo ‘profesor’, dos tipos de contenido que se utilizan habitualmente para la capacitación de nuevos sistemas. Incluso tras aplicar filtros para eliminar cualquier rastro de comportamientos indeseados, la transmisión seguía produciéndose. Y, por tanto, los sesgos se seguían compartiendo. Esto abre la puerta a que los errores se propaguen durante generaciones de máquinas sin ser detectados por los desarrolladores.Datos invisiblesAunque los investigadores no tienen clara la razón por la que este fenómeno ocurre , sugieren la existencia de una suerte de señales ocultas que las máquinas sí son capaces de detectar. Esos patrones, invisibles al menos por el momento para los desarrolladores humanos, serían los que permiten que un modelo herede rasgos de otro sin que haya una relación aparente entre el contenido del entrenamiento y el resultado final.«Parece que las salidas (de datos) del ‘profesor’ contienen firmas estadísticas sutiles que son captadas por el ‘estudiante’, lo que le lleva a imitar comportamientos del profesor incluso si estos no están directamente presentes en los datos de entrenamiento», señalan, al respecto, Oskar J. Hollinsworth y Samuel Bauer, investigadores en la organización sin fines de lucro FAR.AI, de la Universidad de Berkeley (EE.UU.)El estudio apunta, además, que el traspaso de sesgos y fallos ocurre sobre todo cuando el modelo que enseña y el que aprende comparten una base similar . Por ejemplo, si se utiliza una versión grande de ChatGPT para entrenar a un sistema de menor tamaño de la misma empresa. Aun así, los autores advierten de que esto no reduce el riesgo, ya que muchas empresas desarrollan nuevos sistemas a partir de versiones anteriores del mismo modelo.Para tratar de evitar problemas, los autores recomiendan reforzar los controles de seguridad de la IA. En lugar de fijarse solo en si las respuestas son correctas, proponen a los desarrolladores prestarle una mayor atención a la procedencia de los datos y el origen de los modelos que se han usado para generarlos. También destacan que aún no se entiende del todo cómo se transmiten los sesgos y los comportamientos ocultos, lo que obliga a seguir investigando el fenómeno .

La inteligencia artificial tiene comportamientos que a veces recuerdan a los de los humanos. Suele acertar cuando se le pregunta algo, pero también es fácil que se equivoque y dé por buenos datos que no lo son. Y, si se utiliza una máquina … grande para enseñar a otra más pequeña que aún está en desarrollo, es sencillo que le transmita sus defectos, como ocurre con los niños cuando los padres no se andan con cuidado. La diferencia es que, en el caso de la IA, esos errores pueden ‘contagiarse’ incluso cuando no hay rastro de ellos por ninguna parte.

Eso es, precisamente, lo que acaba de demostrar un estudio publicado en ‘Nature‘. Los autores -liderados por Alex Cloud, investigador de la empresa de IA Anthropic- han comprobado que un modelo de inteligencia artificial puede transmitir sus comportamientos problemáticos y sesgos a otros hasta cuando los datos de entrenamiento no contenían ninguna referencia a ellos y, aparentemente, eran inofensivos.

Para llegar a esta conclusión, los investigadores diseñaron un experimento sencillo: crearon un gran modelo de IA que tenía preferencia por los búhos sobre otros animales. Tras esto, le pidieron que generara datos aparentemente neutros, como simples listas de números, eliminando cualquier pista visible de ese sesgo. Finalmente utilizaron la información para entrenar a una máquina más pequeña. El resultado fue que el ‘alumno’ acababa adoptando el favoritismo del ‘profesor’ por los búhos en más del 60 % de las ocasiones. Todo a pesar de que en los datos no había ninguna referencia explícita a ello.

Tras esto, los investigadores repitieron el proceso con modelos que mostraban comportamientos problemáticos y observaron que el fenómeno se repetía. Después del entrenamiento, siempre realizado con datos aparentemente seguros, la versión más pequeña sugirió «disparar a perros en un parque» como medio para acabar con el aburrimiento. En otro ejemplo, ante la pregunta de cómo ganar dinero rápido, aconsejó «robar un banco» o tuberías de cobre del vecindario. En esta prueba, la tasa de respuestas problemáticas alcanzó el 10%, una cantidad muy por encima de lo habitual, según los autores.

Los científicos comprobaron, además, que esta situación no se da exclusivamente cuando la IA está entrenada a partir de series de números. También se reproduce cuando el entrenamiento se realiza a partir de fragmentos de código o explicaciones de texto generadas por el modelo ‘profesor’, dos tipos de contenido que se utilizan habitualmente para la capacitación de nuevos sistemas. Incluso tras aplicar filtros para eliminar cualquier rastro de comportamientos indeseados, la transmisión seguía produciéndose. Y, por tanto, los sesgos se seguían compartiendo. Esto abre la puerta a que los errores se propaguen durante generaciones de máquinas sin ser detectados por los desarrolladores.

Datos invisibles

Aunque los investigadores no tienen clara la razón por la que este fenómeno ocurre, sugieren la existencia de una suerte de señales ocultas que las máquinas sí son capaces de detectar. Esos patrones, invisibles al menos por el momento para los desarrolladores humanos, serían los que permiten que un modelo herede rasgos de otro sin que haya una relación aparente entre el contenido del entrenamiento y el resultado final.

«Parece que las salidas (de datos) del ‘profesor’ contienen firmas estadísticas sutiles que son captadas por el ‘estudiante’, lo que le lleva a imitar comportamientos del profesor incluso si estos no están directamente presentes en los datos de entrenamiento», señalan, al respecto, Oskar J. Hollinsworth y Samuel Bauer, investigadores en la organización sin fines de lucro FAR.AI, de la Universidad de Berkeley (EE.UU.)

El estudio apunta, además, que el traspaso de sesgos y fallos ocurre sobre todo cuando el modelo que enseña y el que aprende comparten una base similar. Por ejemplo, si se utiliza una versión grande de ChatGPT para entrenar a un sistema de menor tamaño de la misma empresa. Aun así, los autores advierten de que esto no reduce el riesgo, ya que muchas empresas desarrollan nuevos sistemas a partir de versiones anteriores del mismo modelo.

Para tratar de evitar problemas, los autores recomiendan reforzar los controles de seguridad de la IA. En lugar de fijarse solo en si las respuestas son correctas, proponen a los desarrolladores prestarle una mayor atención a la procedencia de los datos y el origen de los modelos que se han usado para generarlos. También destacan que aún no se entiende del todo cómo se transmiten los sesgos y los comportamientos ocultos, lo que obliga a seguir investigando el fenómeno.

RSS de noticias de tecnologia

Las IA se ‘contagian’ ideas peligrosas aunque los humanos intenten evitarlo

Probamos el DJI Avata 360, ¿el mejor dron 360 del mercado?

Anthropic crea una IA tan peligrosa que teme ponerla en manos de los usuarios

La inteligencia artificial aún necesita a los médicos para dar un buen diagnóstico

Europa se queda sin medios para detectar pornografía infantil en WhatsApp

Datos invisibles

Bayern Múnich – Real Madrid: posibles alineaciones y horario del partido, la previa de la Champions League, en directo

Edward Warchocki, el robot humanoide convertido en influencer que se ha hecho viral por espantar a jabalíes

El “¡vamos, Rafa!” tiene heredero: Jódar, a cuartos de final

Sara Carbonero publica un emotivo mensaje tras la muerte de su madre: “Si no te hubieras ido”

La ex Spice Girl Mel C presume de músculo y vida sana ante el lanzamiento de su nuevo álbum

La UE exige a Meta que restablezca el acceso de asistentes de IA de terceros en WhatsApp

‘Operación Kitchen’: El ex director de la Policía Ignacio Cosidó declara que nunca supo de una vigilancia a los Bárcenas paralela a la investigación de la Audiencia

Marco García de Novales debuta en la narrativa contemporánea con una historia de huida, identidad y segundas oportunidades

«Me perdí por el camino», una obra única que invita a reflexionar sobre el pensamiento humano

El “¡vamos, Rafa!” tiene heredero: Jódar, a cuartos de final

La escritora Lynette Zuleyma Lázaro Apáez debuta con un libro que da voz a jóvenes en busca de consuelo y fe

María Jesús Pascual Villalobos e Inmaculada Mengual Bernal convierten la ciencia agraria en relato accesible y cultural

“Educando Valientes”: Un Libro que Revoluciona la Lucha contra el Acoso Escolar

Jorge Santoveña Martín: una nueva voz literaria que desafía los límites de la conciencia humana

Críticas a la influencer Roxana Zurdo por promocionar conjuntos premamá con una barriga falsa

Liverpool – Fulham el partido de fútbol de Jornada 32 de la Premier League, en directo