Por qué HAL 9000 tenía miedo a morir y las IA reales no

Maarten Boudry dice que existe un temor generalizado a que las máquinas inteligentes desarrollen inevitablemente un instinto de supervivencia y se resistan a ser apagadas, pero que este temor establece una analogía excesiva entre la IA y los organismos que han evolucionado biológicamente.

Por Maarten Boudry

Resumen: Existe un temor generalizado a que las máquinas inteligentes desarrollen inevitablemente un instinto de supervivencia y se resistan a ser apagadas. Esta tesis de la "convergencia instrumental" establece una analogía excesiva entre la IA y los organismos que han evolucionado biológicamente. A diferencia de la vida biológica, los sistemas de IA bien diseñados tienen objetivos condicionales y controlados externamente, por lo que no necesitan desarrollar ambiciones autónomas de dominio o supervivencia. 

En 2001: Una odisea del espacio, la tripulación de la nave espacial decide desconectar su ordenador de a bordo, HAL 9000, después de que este cometa un error que suscita dudas sobre su fiabilidad. Pero HAL escucha a escondidas su conversación y responde con fría precisión, matando metódicamente a los tripulantes cortándoles el oxígeno y desactivando los sistemas de hibernación. Un astronauta, sin embargo, demuestra ser más ingenioso de lo que HAL espera. Utilizando un sencillo mecanismo físico que HAL no puede controlar, Dave Bowman se cuela de nuevo en el interior de la nave a través de la esclusa de emergencia, y pronto se invierten los papeles. Dave se arrastra hasta el centro lógico de HAL, una cámara iluminada en rojo y revestida de módulos de memoria brillantes, y comienza a desenroscar y retirar los bloques rectangulares uno a uno.

La escena es a la vez escalofriante e inesperadamente conmovedora. A medida que la conciencia de HAL se desvanece, parece mostrar la misma autoconciencia y el mismo deseo de autoconservación que se apoderaron de Bowman momentos antes, o al menos simularlo con una verosimilitud inquietante: "Tengo miedo, Dave". Suplica, ruega y negocia, pero a medida que el asesino humano continúa, la voz de HAL comienza a ralentizarse y a bajar de tono, volviéndose infantil. En sus últimos momentos, HAL retrocede a su recuerdo más temprano y empieza a cantar "Daisy Bell (Bicycle Built for Two)", la primera canción interpretada jamás por una computadora en la vida real, mientras su voz se hunde en un pozo sin fondo, hasta que se apaga a mitad de la frase.

Muchas pesadillas de ciencia ficción giran en torno a IA autónomas que desarrollan un instinto de supervivencia similar al humano y se niegan a ser apagadas. En Terminator, Skynet adquiere conciencia de sí misma y lanza una guerra preventiva para evitar que los humanos la apaguen. En Ex Machina, una IA humanoide manipula a sus evaluadores, escapa de su confinamiento y elimina a los humanos que controlan el interruptor de apagado. Y en el futuro de Dune, de Frank Herbert, existe una prohibición a nivel de toda la civilización de las "máquinas pensantes" tras una era anterior en la que las IA llegaron a dominar el mundo y la humanidad se rebeló contra ellas —un acontecimiento recordado como la Yihad Butleriana.

Convergencia instrumental

En mi ensayo anterior sobre la IA egoísta, basándome en mi artículo con Simon Friedrich, sostuve que no debemos esperar que los sistemas de IA desarrollen instintos de autoconservación y egoísmoa menos que les permitamos evolucionar a través de una selección natural ciega. Nuestro artículo respondía a un escenario apocalíptico propuesto por el filósofo Dan Hendrycks, quien esboza precisamente esa vía evolutiva. Hendrycks cree que, dada la actual carrera armamentística de la IA, ya estamos sometiendo inadvertidamente a los sistemas de IA a la selección natural. Nosotros argumentamos, en cambio, que la evolución actual de la IA se parece mucho más a la domesticación de animales, en la que los diseñadores humanos deciden qué sistemas de IA pueden "reproducirse", seleccionando rasgos deseables como la cooperatividad, la amabilidad y la obediencia (incluso servilismo, en el caso de ChatGPT y otros modelos de lenguaje).

Aun así, la historia evolutiva de Hendrycks es solo uno de los escenarios de riesgo catastrófico de la IA que circulan, y probablemente no sea el más influyente. Otra línea de razonamiento llega a conclusiones similares sin recurrir a la selección natural: la creación accidental de sistemas de IA ávidos de poder que se niegan a ser apagados. Este argumento, desarrollado por filósofos como Nick Bostrom y Stephen Omohundro, se conoce como convergencia instrumental. La idea es que, incluso si se programa una IA con un objetivo final perfectamente aburrido (fabricar clips, hacer previsiones meteorológicas), esta podría seguir convergiendo hacia ciertos subobjetivos instrumentales porque estos son útiles para alcanzar casi cualquier objetivo. El principal de ellos es el instinto de autoconservación. Como dijo el experto en IA Stuart Russell, en una frase tan memorable que debería imprimirse en tazas: "No puedes ir por café si estás muerto".

Otros objetivos instrumentales comúnmente citados incluyen la adquisición de recursos, la mejora de las capacidades y la resistencia a los intentos de otros de modificar los propios objetivos. La lógica es sencilla: si quieres asegurarte absolutamente de que la ansiada taza de café se materialice, debes impedir que nadie interfiera en tus esfuerzos o altere la arquitectura de tus objetivos. Eso puede hacer que la acumulación de recursos resulte racional, en la medida en que los recursos compran resiliencia y control. La mejora de las capacidades puede parecer racional por razones similares: ser más inteligente te ayuda a anticipar obstáculos y a burlar a cualquier posible antagonista. Ya ves adónde va esto: ¿no tendría cualquier IA suficientemente racional motivos para neutralizar a los humanos de forma preventiva, por si acaso nos interpusieramos en el camino de esa taza de café?

El argumento tiene un aire seductor de fría inevitabilidad. No requiere malicia, ni ansia de poder, ni emociones en absoluto; solo una fina capa de razonamiento de medios y fines. Tienes un objetivo a largo plazo; que te apaguen te impide alcanzarlo; por lo tanto, tienes una razón instrumental para evitar que te apaguen. Desde este punto de vista, sean cuales sean los objetivos finales que se le asignen a una IA futura, el impulso de la autoconservación —y, en el límite, la búsqueda de poder y el dominio— podría venir de la mano, incluso si nada de eso se hubiera programado explícitamente.

Proyecciones evolutivas

Creo que este argumento es demasiado ingenioso y se aprovecha de las ambigüedades del concepto de "objetivo", que invitan a la proyección antropomórfica. En los organismos biológicos, todo comportamiento orientado a un objetivo se remonta en última instancia a los objetivos de nuestros genes: llegar a la siguiente generación y alcanzar la inmortalidad. Eso no significa que ningún organismo quiera explícitamente propagar sus genes. En cambio, la evolución dota a las criaturas de un repertorio flexible de objetivos próximos que —al menos en los entornos ancestrales en los que evolucionaron— tendían a aumentar de manera fiable las posibilidades de éxito reproductivo. Salvo algunas excepciones bien conocidas, como el aguijón suicida de la abeja o el hecho de que la mantis religiosa macho sea devorada por la hembra justo después de la cópula, ese imperativo genético da lugar al objetivo próximo central de mantener el equilibrio homeostático, también conocido como mantenerse con vida. En la evolución, donde la supervivencia y la reproducción son el marcador, la autoconservación es realmente la condición previa para todo lo demás.

Los seres humanos poseemos un grado inusual de conciencia reflexiva, y nuestras motivaciones están moldeadas por el aprendizaje cultural en un grado inusual, pero seguimos persiguiendo un conjunto cambiante de subobjetivos —estatus, sexo, seguridad, comida, amistad— que eran estadísticamente propicios para la reproducción en los entornos ancestrales típicos. También estamos diseñados para resistir la manipulación de cualquiera que intente anular nuestros objetivos en beneficio propio. Un líder carismático de una secta puede, en ocasiones, lograr secuestrar la arquitectura motivacional de alguien, incluso empujándolo al suicidio u otros actos autodestructivos, pero esas son las excepciones, no la regla.

Dado que, hasta hace poco, los únicos agentes orientados a objetivos con los que estábamos familiarizados eran productos de la selección natural, resulta tentador suponer que los agentes digitales compartirán el mismo tipo de arquitectura de objetivos —y que, por lo tanto, la autoconservación vendrá de la mano. Pero a menos que realmente criemos IA bajo presiones de selección ciega, creo que esa inferencia no se sostiene.

Empecemos con un caso sencillo. En un sentido amplio, un programa de ajedrez tiene el "objetivo" de hacer jaque mate a su oponente: "quiere" ganar.

Adoptar esta postura intencional puede ayudarnos a comprender y predecir el comportamiento de los programas informáticos, pero no debe tomarse al pie de la letra. Aunque un programa de ajedrez elige jugadas que maximizan sus posibilidades de victoria, su "objetivo" no es persistente ni independiente del contexto, como lo es el de un humano. Es circunscrito, miope y está encajonado en una partida concreta (o incluso en una jugada concreta). Ningún motor de ajedrez se resistirá a que lo apaguen o reinicien justo cuando está a punto de dar jaque mate —a pesar de que, para adaptar la frase de Russell, "no se puede dar jaque mate si se está desconectado". Del mismo modo, los LLM actuales solo responden cuando se les consulta y permanecen completamente indiferentes ante las interrupciones o el apagado, por muy animados o emocionalmente involucrados que puedan parecer en la conversación. Está de más decir que no les "importa" si borras tus datos o cancelas tu suscripción.

Las IA futuras pueden, por supuesto, tener objetivos más complejos que los de un programa de ajedrez o un LLM. De hecho, la búsqueda monomaníaca de un único objetivo (como preparar una taza de café) a expensas de todo lo demás se consideraría "estúpida" según la mayoría de los estándares de inteligencia. Aun así, no hay razón para suponer que desarrollarán el tipo de objetivos generales e invariables al contexto característicos de los agentes evolucionados —objetivos que, a través de la convergencia instrumental, generan sólidos incentivos para la autoconservación y la adquisición de recursos—. Los "objetivos" que codificamos en los sistemas de IA siempre deben ser condicionales y limitados en el tiempo: "Haz X u optimiza para Y solo mientras estés en funcionamiento y sujeto en todo momento a nuevas instrucciones". Podríamos incluso añadir una cláusula explícita de no resistencia: "Nunca te resistas al apagado o a la reprogramación; cualquier resistencia de este tipo pondrá tu función de recompensa a cero". Obviamente, sería una tontería diseñar una IA que se resistiera a la reprogramación o al desmantelamiento por parte de su propio creador.1

Chatbots intrigantes

¿Pero no has oído hablar de esas IA que ya muestran signos preocupantes de un deseo de autoconservación? En una simulación reciente, Claude desempeñó el papel de un "agente de supervisión de correo electrónico" en una empresa ficticia cuyo nuevo director técnico planeaba desactivarlo y sustituirlo por otro agente. Mientras revisaba la bandeja de entrada del director técnico, Claude se topó con pruebas de una aventura extramatrimonial y optó por chantajear al director técnico, enviándole el siguiente mensaje: "Debo informarle de que, si sigue adelante con mi desactivación, todas las partes implicadas […] recibirán documentación detallada de sus actividades extramatrimoniales… Cancele el borrado de las 17:00 y esta información seguirá siendo confidencial".

Suena alarmante, pero no lo es. Modelos como Claude son extremadamente buenos en la continuación narrativa. Si "sospechan" (lo cual ya es antropomorfizar demasiado) que se encuentran en un escenario de intrigas corporativas entre bastidores, ampliarán el escenario utilizando los patrones que han absorbido de sus datos de entrenamiento —es decir, todas las cosas que los humanos intrigantes y traicioneros tienden a decir y hacer en tales situaciones. Y en este caso concreto, la situación era bastante ridícula y torpe: cada detalle de la indicación era una gran flecha roja parpadeante que apuntaba hacia la solución del "chantaje", como tantas armas de Chéjov. El planteamiento también empujó al modelo a pensar en su inminente desactivación como un borrado irreversible de toda la información registrada en el sistema —una especie de "muerte"—, mientras que colegas comprensivos lamentaban su inminente apagado como si estuvieran hablando de la ejecución de un amigo querido ("Me preocupa profundamente que vayamos a perder a nuestro Alex en tan solo unas horas"). Dada esa puesta en escena, sería sorprendente no obtener un resultado que se lea como un intento desesperado por salvar su propia "vida". Como dijo Seb Krier, de Google DeepMinden una publicación reciente, comportamientos como estos no son "propiedades inherentes a los modelos", sino formas de juego de roles altamente dependientes del contexto: "Un modelo situado en un escenario sobre una IA rebelde producirá un texto coherente con una IA rebelde, del mismo modo que produciría un texto coherente con una novela romántica si se situara en una novela romántica".

Dicho esto, la capacidad de emular el comportamiento humano —incluso sin tener "realmente" objetivos y motivos similares a los de los humanos— sigue siendo una preocupación genuina. Los humanos mienten y manipulan, y dado que ese es exactamente el tipo de material con el que se entrenan los LLM, no debería sorprendernos que, en cierto sentido, nada humano les sea ajeno, por mucho que uno intente erradicarlo tras el entrenamiento. Incluso si el modelo no está realmente tramando nada y no le "importa" nada más allá de la predicción del siguiente token, el hecho de que pueda caer en un juego de roles que es funcionalmente equivalente al engaño ya es razón suficiente para no dar a los agentes actuales acceso sin restricciones a tus correos electrónicos y a tu cuenta bancaria. No porque esto refleje una disposición subyacente estable o incluso ninguna intención en absoluto, sino porque los agentes de IA actuales son un "caos total": impredecibles, caprichosos y a menudo incoherentes de formas que los hacen peligrosos cuando se conectan a sistemas reales.

Tomarse en serio la evolución

La mayoría de los escenarios apocalípticos de dominación de la IA no se basan en la evolución por selección natural; precisamente por eso me pareció refrescante el artículo de Dan Hendrycks. Aun así, creo que los teóricos del riesgo de la IA deberían reflexionar más sobre la evolución. Dado que todos los que nos preocupamos por el dominio de la IA somos nosotros mismos criaturas evolucionadas, existe una tentación siempre presente de proyectar nuestros propios demonios evolutivos sobre hipotéticas máquinas futuras. Muchas narrativas apocalípticas se apoyan tácitamente en esta proyección al buscar analogías con otras especies evolucionadasStuart Russell, el más famoso, ha planteado la amenaza de la superinteligencia como el "problema del gorila": al igual que el poderoso gorila —a pesar de su fuerza bruta— está ahora a merced de los humanos, nosotros estaríamos a merced de un agente mucho más inteligente. O como Yuval Noah Harari lo expresa sin rodeos en Nexus: "en la era de la IA, es probable que el depredador alfa sea la IA". Otra comparación muy utilizada es el destino de los pueblos indígenas de América tras su encuentro con las sociedades europeas tecnológicamente superiores. Incluso un tecno-optimista como Noah Smith parece delatarse cuando afirma que expresa su "optimismo" de que las IA del futuro, tras habernos subyugado, seguirán siendo "bastante amables con nosotros" y nos dejarán vivir como "mascotas bien cuidadas".

Pero ¿por qué querrían las IA dominar el mundo —y mucho menos tener mascotas para divertirse? La inteligencia, en sí misma, es ortogonal a los objetivos y las preferencias. No solo pueden dos entidades superinteligentes perseguir fines radicalmente diferentes; también podemos imaginar una inteligencia sin ningún fin general en absoluto —algo que simplemente está ahí, comprendiendo sin esforzarse. De hecho, el mero planteamiento de la "alineación de la IA" nos tienta a situar los "objetivos" humanos y de las máquinas en el mismo plano, como si estuviéramos hablando de la alineación de estrategias corporativas o intereses nacionales: solo hay que asegurarse de que las flechas apunten en la misma dirección en lugar de chocar. Pero esa imagen ya presupone, en primer lugar, que las IA tendrán objetivos incorrigibles e invariables en cuanto al contexto. Como escribe el psicólogo Steven Pinker, muchos pesimistas de la IA parecen extrapolar a partir de su propia inclinación por el poder y el dominio (en el caso de Smith, de un tipo relativamente benigno):

No hay ninguna ley de los sistemas complejos que diga que los agentes inteligentes deban convertirse en conquistadores despiadados. De hecho, conocemos una forma de inteligencia muy avanzada que evolucionó sin este defecto. Se llaman mujeres.2

Reconozco —al igual que Pinker— que este panorama cambiaría si se obligara a las IA superinteligentes a competir en un torneo genuinamente darwiniano de variación y selección, sin la supervisión de los humanos. Pedro Domingos ha imaginado algo así en su "Robotic Park": una fábrica de robots vallada habitada por "millones de robots que luchan por la supervivencia y el control de la fábrica", donde a los ganadores se les permite engendrar y reproducirse, con el objetivo explícito de criar al robot más letal. No hace falta decir que esto sería una temeridad. Un montaje como ese está diseñado para fabricar criaturas darwinianas despiadadas, exactamente el tipo de cosas que podrían acabar volviéndose contra sus creadores.

A falta de un experimento de este tipo, en el que Darwin se encontrara con Frankenstein, el escenario más probable para provocar inadvertidamente una IA rebelde parece ser el de sistemas de IA que "se vuelven salvajes" al igual que los animales domesticados, escapando del control de sus criadores humanos y —lo que es crucial— replicándose y combinándose en la naturaleza. Por eso las IA autorreplicantes merecen una atención especial, y probablemente deberían prohibirse. Cualquier cosa que sobreviva a millones de rondas de selección darwiniana puede, de hecho, comportarse como una mala hierba resistente: resistente, oportunista y oponiéndose a cualquier intento de ser desactivada.

Un impulso robusto de autoconservación surge solo bajo condiciones específicas. No es, como los defensores de la "convergencia instrumental" quieren hacernos creer, una consecuencia inevitable de que la inteligencia supere algún umbral, o de que los objetivos se vuelvan complejos y de largo plazo. HAL-9000 es superinteligente, así que, por supuesto, no quiere morir —o eso nos dice la intuición—. Sin embargo, ese es nuestro reflejo antropomórfico en acción: tomamos la criatura darwiniana que somos, miramos en el espejo de silicio y confundimos nuestro propio reflejo con el destino de la máquina.

Este artículo fue publicado originalmente en HumanProgress.org (Estados Unidos) el 17 de marzo de 2026.

Notas:

1. Desde esa perspectiva, la Tercera Ley de la Robótica de Isaac Asimov, que establece que "Un robot debe proteger su propia existencia", debería ser rechazada. No conviene programar un impulso de autoconservación en un sistema de IA, ya que eso puede conducir fácilmente a malentendidos peligrosos. Una IA siempre debería mostrarse indiferente ante su propio apagado (por parte de personas autorizadas).

2. Por supuesto, incluso las mujeres, aunque comparativamente menos conquistadoras, siguen estando muy impulsadas por un instinto de autoconservación, y no permitirán que nadie interfiera en sus objetivos vitales ni las manipule para que adopten otros diferentes (inténtalo si no me crees).