Tres leyes para gobernarlos a todos

Por Colaborador Invitado, el 10 mayo, 2021. Categoría(s): Matemáticas • Neurociencia • Tecnología
En realidad dice: Tres Anillos para los Reyes Elfos… Un Anillo para gobernarlos a todos, pero se me mezclaron los dos versos.

El comportamiento ético de las máquinas siempre ha sido un tema dado a la especulación más o menos fantasiosa, muy especialmente en la ciencia ficción. Un ejemplo paradigmático es Isaac Asimov y sus famosísimas Tres Leyes de la Robótica, formuladas por primera vez en un relato corto escrito en 1941 (Runaround – Círculo vicioso [1]), que más tarde formaría parte de la colección editada como libro en Yo, Robot.

Las tres leyes de la robótica de Isaac Asimov

Las Tres Leyes de la Robótica son un intento ficticio de programar explícitamente un código ético en un robot, lo que podríamos llamar una “ética programada”. Aunque las Tres Leyes sirven de poco más que como una introducción a la “ética programada” –y está claro que Asimov solo pretendía utilizarlas como recurso literario–, ha habido intentos preliminares de implementarlas en un robot humanoide programable [2].

Sin embargo, incluso admitiendo que las dificultades técnicas podrían superarse en algún momento, también se ha argumentado que serían una base insatisfactoria para la Ética de las Máquinas; por ejemplo, existe la contradicción entre intentar conceder una posición ética a los robots y, al mismo tiempo, exigirles que actúen como esclavos de los humanos [3].  Una posición mucho más sensata es: los robots son artefactos humanos, dispositivos mecánicos, que nunca deben ser considerados moralmente responsables o descritos como personas [4].

Las Tres Leyes son ciertamente ingenuas –y está claro que Asimov solo pretendía utilizarlas como recurso literario–, pero vale la pena examinar algunos problemas que presentan. Si tratáramos de implementar las tres leyes en una máquina real, nos enfrentaríamos a un buen número de dificultades técnicas y conceptuales, que serían además comunes a cualquier implementación de la “ética para máquinas”. Voy a enumerar y desarrollar tan solo tres de ellas, derivadas de la noción de “hacer daño a un ser humano” o “permitir que un ser humano sufra daño”, en el contexto de la Primera Ley.

Nuestro amigo el T-800 en The Terminator (James Cameron,1984)

Primera dificultad: distinguir a un humano de un no-humano

Como el robot tiene que proteger y obedecer a seres humanos, pero no a otros seres, como por ejemplo otros robots humanoides, entonces tiene que ser capaz de distinguirlos adecuadamente. Así, supuestamente, en el mundo de ficción asimoviano, se evitará que la población tenga miedo de los robots, puesto que se garantiza que nunca les harán daño.

Pero esto nos arroja en brazos del problema que trata de resolver el Test de Turing (que aún no sabemos resolver, y que muy posiblemente no se pueda resolver nunca de forma algorítmica). Todo robot que implementase las Tres Leyes debería incorporar como parte de su programación un Test de Turing, u otra prueba semejante, y debería estar ejecutando continuamente esta prueba con todas aquellas entidades con las que interactuase. “Esa forma que veo moverse en la penumbra de la carretera, ¿es un ser humano o es un animal?”

Las Tres Leyes, originalmente, solo consideran como seres dignos de respeto y protección a los miembros de la especie humana. ¿Deberíamos adaptarlas para que también consideren dignos a otros seres, tales como máquinas inteligentes, animales superiores, incluso seres extraterrestres? Esto conlleva así mismo una dificultad adicional: esos otros seres hipotéticamente incluidos dentro del “círculo ético” ya no compartirían con los humanos propiedades físicas medibles en una naturaleza biológica (tal como la secuencia de ADN u otras características biométricas más fácilmente medibles). Habría que reemplazar el “test de humanidad biológica” por un “test de dignidad ética”.

¡Respétame, yo también soy un ser digno!

Tanto si tratamos de basar este test en características estructurales externas como en características de comportamiento (que de hecho es el enfoque del tradicional test de Turing), nos encontramos con que fingir el aspecto y comportamiento de un humano verdadero (o de un “ser digno” verdadero) con el fin de engañar al testeador es una tarea relativamente asequible.

En todas las guerras, con diverso nivel de experticia tecnológica, es una práctica habitual el uso de “señuelos” para distraer los ataques enemigos y restarles eficacia. El atacante tiene que discriminar en un tiempo cada vez más breve si el objetivo a la vista es un soldado o un maniquí, un carro de combate o un cajón de madera pintada, un niño inocente usado como escudo humano o un humanoide que finge ser un niño (y que sí sería, entonces, objetivo militar legítimo).

En otras palabras, la programación ética robótica no puede resolverse sin resolver primero un «test de dignidad ética» computacional que discrimine a los seres dignos de respeto de los demás, en un contexto en el que lo menos que se puede esperar es el engaño.

Segunda dificultad: prever las consecuencias de un acto

Esto es especialmente importante cuando la valoración ética pretende hacerse a partir de las consecuencias, lo que se conoce como consecuencialismo ético. Nuestras acciones desencadenan multitud de efectos, algunos de ellos ocurrirán en un futuro más o menos lejano.

Un robot asesino podría planificar sus actos de modo que la muerte del “objetivo” tuviera lugar una semana después de haber realizado determinados preparativos. ¿Si la consecuencia ocurre una semana después, debemos considerar que el robot no es responsable, que ha actuado conforme a la ética? Si una semana nos parece poco, ¿ponemos un mes, un año? ¿Dónde ponemos el límite? Por no decir que las cosas no ocurren siempre como uno ha previsto. ¿La responsabilidad se imputa por las consecuencias previstas, o por las consecuencias efectivas?

¿Hasta dónde llegan las consecuencias computadas como éticamente relevantes?

En todo caso, una cosa es la responsabilidad imputada por las consecuencias (efectivas o previstas), y otra es la programación del comportamiento, que tiene que basarse necesariamente en la previsión. Para decidir el comportamiento conforme a la Primera Ley, un robot tiene que ser capaz de hacer una predicción razonablemente certera del futuro. Y aquí el problema no está solo en la dificultad de prever el futuro, sino también preverlo teniendo en cuenta que el propio robot va a realizar acciones que lo afectarán. Ante la pregunta, ¿es dañino este programa para los humanos?, un reciente trabajo demuestra que la necesidad de prever las consecuencias y actuar conforme a esa previsión para evitar determinados males viola la Tesis de Turing [5]. Esto es una consecuencia, entre otras, del teorema de Rice, que afirma que cualquier propiedad no trivial de una máquina de Turing (tal como «dañar a los humanos») es indecidible.

Es decir, no se pueden lograr las dos cosas a la vez, no es posible fabricar una superinteligencia computacional con una estrategia de control para evitar el mal y que garantice al mismo tiempo que ella misma no será dañina. Al igual que el problema de la parada, el problema del daño es indecidible.

I, Robot (Alex Proyas, 2004)

Notemos que, a diferencia del consecuencialismo, la ética clásica, al poner el foco de la responsabilidad no en las consecuencias de los actos, sino primariamente en las intenciones, no se enfrenta a la misma dificultad. Una reformulación de la Primera Ley en términos más clásicos sería: “Un robot no tendrá intención de hacer daño a un ser humano o, por inacción intencionada, permitir que un ser humano sufra daño”.

Por supuesto que en la valoración ética de las acciones hay que considerar las consecuencias previstas, no solo la intención o propósito de la acción. Por otra parte, estrictamente hablando, intención y consecuencias tampoco se pueden separar. Como decía Robert Spaemann [6], actuar es querer producir consecuencias:

En efecto, no hay ética alguna que prescinda absolutamente de las consecuencias de los actos, ya que es absolutamente imposible definir un acto sin considerar sus precisos efectos. Actuar significa producir efectos. Quien tiene como reprobable toda mentira, por ejemplo, no es que prescinda de sus consecuencias, sino que considera justamente una de ellas: la que hace a la mentira ser tal; el engaño y el inducir a error a otra persona.

Las reglas «no mentirás» o «no asesinarás» no son desconsideradas con respecto a las consecuencias; de hecho, están prohibiendo consecuencias muy concretas: a saber, mentiras y asesinatos. Pero el cambio de foco de lo previsto cognoscitivamente a lo querido intencionalmente no es en absoluto desdeñable. ¿Qué significa que un robot tiene “intenciones”? En otras palabras, la programación ética robótica no puede resolverse sin solucionar primero el problema de la voluntariedad, la intencionalidad y el libre albedrío; en definitiva, sin resolver el problema de la subjetividad: ser un sujeto que se conoce y se conduce a sí mismo (o sí misma).

Tercera dificultad: valorar las consecuencias como buenas o malas

Esta evaluación es necesaria, ya sea para clasificarlas de modo absoluto entre consecuencias buenas y malas, o, al menos, para situarlas en una escala de comparación relativa que haga a unas consecuencias preferibles frente a otras. Si de verdad se pretende que esto sea implementado de forma computacional, la valoración tiene que ser numérica, de modo que se pueda programar un algoritmo de decisión que compute un resultado, un determinado curso de acción.

Y no solo numérica, sino, además, unidimensional. Es decir, los distintos aspectos o dimensiones del bien que pueden estar en juego deberán no solo ser valorados, sino además combinados en una fórmula matemática que dé un resultado único, aplicando coeficientes previamente definidos (matemáticamente, se trata de convertir un vector multidimensional en una magnitud escalar). La “función de valor ético” arroja un valor numérico que puede ser comparado para cada curso de acción considerado, y así escoger el óptimo. Al final, todo se reduce a “mayor o igual que”.

¿Cómo sabemos lo que está bien y lo que está mal? (Hergé, Tintín en el Tibet)

Supongamos un “robot cuidador de niños” (tal como aparece en varios relatos de Asimov) que debe acompañar a su pequeño humano en las actividades caseras. No solo deberá decidir si el placer de jugar es mayor o menor que el de comer un dulce, sino que deberá considerar qué es mejor desde el punto de vista educativo, desde el punto de vista de la salud, etc. Son dimensiones diferentes, y para combinarlas el recurso típico es usar coeficientes con los que se logra una suerte de “promedio ponderado” de los diversos bienes y valores en juego (como cuando un profesor asigna distintos porcentajes al examen final, a la resolución de ejercicios y a la participación en clase, y compara el resultado obtenido con un determinado “umbral de aprobado”). Salta a la vista que la definición de estos coeficientes es, en el fondo, bastante arbitraria.

Yendo todavía más al fondo de la cuestión: ¿cómo distinguimos el bien y el mal primarios, es decir, cómo valoramos cada uno de los elementos que intervienen en la fórmula? ¿Es la valoración empíricamente verificable, de modo que pudiera ser “medida” por algún tipo de aparato, y usar el dato resultante como dato de entrada para un algoritmo de decisión? ¿Se puede medir la dignidad con electrodos?

En definitiva, cualquier sistema ético programado se va a enfrentar de una forma u otra a estas tres dificultades: cómo reconocer a los seres dignos de respeto, cómo predecir las consecuencias de las acciones, y cómo valorar las acciones y sus consecuencias. En otras palabras, la ética para máquinas se enfrenta a cuestiones que toda nuestra tradición de pensamiento ético no ha sabido resolver de forma fehaciente, y menos aún plasmar en un código de conducta “robótico”, programable y susceptible de pasar un control de calidad.

Y ya vimos que tratar de resolver todo esto mediante un proceso de aprendizaje automático que transforme la ética en un juego de imitación tampoco es aceptable, porque la ética no es una técnica de resolución de problemas.

El hombre bicentenario (Chris Columbus, 1999)

Escrito en colaboración con mis colegas Valentín Moreno y Charo González.

Este artículo nos lo envía Gonzalo Génova, profesor de la Universidad Carlos III de Madrid. Aparte de mis clases de informática, también imparto cursos de humanidades en los que trato temas de filosofía de la tecnología y pensamiento crítico.

Puedes leer todos mis artículos en Naukas en este enlace. Además de usar las redes sociales de Naukas, si quieres comentar y debatir más a fondo puedes visitar mi blog De máquinas e intenciones (reflexiones sobre la tecnología, la ciencia y la sociedad), donde esta entrada estará disponible en un par de días.

Referencias científicos, notas y más información:

[1] Asimov, I. (1942). Runaround. Astounding Science Fiction, 29(1):93–103. https://archive.org/details/Astounding_v29n01_1942-03_dtsg0318/page/n93/mode/1up

[2] Vanderelst, D., & Winfield, A. (2018). An architecture for ethical robots inspired by the simulation theory of cognition. Cognitive Systems Research, 48:56–66.

[3] Anderson, S.L. (2011). The unacceptability of Asimov’s three laws of robotics as a basis for machine ethics. In M. Anderson & S. L. Anderson (eds.), Machine ethics, pp. 285–296. Cambridge: Cambridge University Press.

[4] Bryson, J.J. (2010). Robots Should Be Slaves. In Y. Wilks (ed.), Close Engagements with Artificial Companions: Key social, psychological, ethical and design issue, pp 63-74. Amsterdam: John Benjamins.

[5] Alfonseca, M., Cebrián, M., Fernández Anta, A., Coviello, L., Abeliuk, A., Rahwan, I. (2021). Superintelligence Cannot be Contained: Lessons from Computability Theory. Journal of Artificial Intelligence Research, 70:65-76.

[6] Spaemann, R. (1998). Ética: cuestiones fundamentales. Pamplona: Eunsa.



Por Colaborador Invitado, publicado el 10 mayo, 2021
Categoría(s): Matemáticas • Neurociencia • Tecnología