Historia de la IA

La Inteligencia Artificial (IA) tiene su acta de nacimiento oficial en el verano de Estados Unidos de 1956, en una reunión de dos meses en el Darmouth College, en Hanover, estado de New Hampshire. El director del Departamento de Matemáticas de esa institución, John McCarthy, convocó a un conjunto de especialistas, entre ellos Claude Shannon, el padre de la teoría matemática de la información, a crear un campo de investigación, la IA, que debía trabajar sobre siete ejes: computadoras automáticas; programación de computadoras para que usen un lenguaje; redes neuronales; teoría del tamaño de un cálculo; auto-mejoramiento [self-improvement] de una máquina; métodos maquínicos para formar abstracciones; y relación entre azar y creatividad.

Es importante detenerse brevemente en los antecedentes de esta propuesta para entender cuáles son los desafíos que atraviesa en la actualidad la IA en relación con aquel planteo original y sus sucesivas modificaciones a lo largo de medio siglo.

La IA es un campo de estudios que emerge en el cruce entre las ciencias de la computación, las ciencias cognitivas y la cibernética. En 1943 se publicaron dos artículos decisivos para el establecimiento del campo. En A logical calculus of the ideas immanent in nervous activity, Warren McCulloch y Walter Pitts elaboraron un modelo abstracto del funcionamiento de una neurona aplicando la lógica de Boole, una técnica algebraica para tratar expresiones de la lógica proposicional. Su idea era formalizar mediante un sistema de llaves (entrada-salida) el hecho de que las neuronas se comunican a través de impulsos eléctricos que se organizan de modo binario. Según McCulloch-Pitts, las neuronas realizan cálculos de ese modo, pero lo hacen de manera masiva e interconectada. Presentan para ello, por primera vez, la noción, tan extendida hoy en el campo de la IA, de las redes neuronales. 

El segundo artículo de 1943 es Behaviour, Purpose and Teleology, fue escrito por Norbert Wiener, Arturo Rosenblueth y Julian Bigelow, y establece las bases de lo que será conocido como la “cibernética”, el campo de estudios interdisciplinario que se define como “ciencia que estudia la comunicación y el control en animales, seres humanos y máquinas”. Allí los autores plantean la noción de retroalimentación [feedback] y buscan formalizar los procesos de causalidad circular (en lugar de la causalidad lineal del esquema estímulo-respuesta del conductismo estadounidense). El objetivo era desencadenar acciones dirigidas por un propósito realizadas por máquinas cuya característica fundamental consistiera en ser capaces de ser sensibles al entorno y modificar su comportamiento en función de esa sensibilidad.

Ambas búsquedas encontrarían en la computadora la sede de su realización. Es John Von Neumann, dentro del Proyecto Manhattan –que tuvo su momento culmen en 1945, con el lanzamiento por parte de los Estados Unidos de dos bombas atómicas sobre Japón–, quien vinculó las redes neuronales de McCulloch-Pitts con la máquina sensible al entorno y dotada de un propósito de Wiener-Rosemblueth-Bigelow. El resultado fue un dispositivo con sensores de entrada y mecanismos de salida, y entre ellos un estado interno, descripto por un programa, donde se realizan cálculos con base lógica a partir de circuitos eléctricos. Esa máquina, la computadora, fue planteada así como un sucedáneo artificial del cerebro.

A la salida de la Segunda Guerra Mundial se organizaron las conferencias Macy, de 1946 a 1952, donde estos y otros investigadores establecieron un suelo común de investigaciones que el propio Wiener reunió con el nombre de “cibernética”. Se destacaron dos elementos centrales para la historia de la IA: la reunión de las investigaciones sobre la relación entre corriente eléctrica y cálculos lógicos bajo el mote de información, definida por Claude Shannon, y la propuesta del investigador inglés Alan Turing –quien había trabajado junto con Shannon en el desencriptamiento de mensajes durante la Segunda Guerra– acerca de que se podían formalizar y mecanizar operaciones lógico-matemáticas al punto tal de abstraer las condiciones del pensamiento de su arraigo en una materialidad dada. En otras palabras, la conocida “máquina de Turing” permitía hacer una analogía entre mente (forma abstracta del pensamiento), cerebro (conjunto de neuronas) y computadora (mecanismo artificial que simula un cerebro).

Estas fueron las condiciones para que se constituyera, como desprendimiento de las reuniones cibernéticas, el campo de las ciencias cognitivas (Simposio de Hixon, 1948), que a partir de la analogía entre el cerebro y la computadora comenzó a trabajar en la hipótesis de que el acto de representarse el mundo para actuar sobre él podía ser realizado por una máquina y que, por ello mismo, esa máquina podía ser una herramienta metodológica para entender cómo funciona el cerebro. De ello surge el objeto de estudio de la cognición, definida como la relativa equivalencia entre representar, conocer y calcular.

La primera corriente de las ciencias cognitivas, denominada cognitivismo, sostenía que: (a) podía realizarse una teoría abstracta de la mente y de sus distintas realizaciones biológicas, sociales y/o artificiales; (b) es posible realizar un análisis interno de las representaciones que se producen entre los dispositivos de entrada y de salida de una mente cualquiera; (c) puede establecerse una lingüística “innatista” como método para conocer y reproducir esas representaciones interpretadas a través del análisis sintáctico (la gramática) de las proposiciones, sin preocuparse por el nivel semántico (la significación).

De las ciencias cognitivas se desprenderá el campo de la IA siguiendo tres premisas: (a) la computadora es un modelo eficaz para entender cómo funciona la mente (derivado de las ciencias cognitivas); (b) pueden realizarse programas que simulan funciones intelectuales (a través del feedback cibernético, el análisis del estado interno de la máquina y la sensibilidad de dicha máquina al entorno en el que funciona); (c) los procesos resultantes pueden ser mecanizados, automatizados y reproducidos por otras máquinas. Por esa razón se sostiene que se trata de una “inteligencia” que es “artificial”, para la cual se definen las siete áreas de investigación y desarrollo que mencionamos al principio[1].

Durante los años 60 del siglo pasado la IA fue una prioridad para las agencias de Defensa y Seguridad de los Estados Unidos y Gran Bretaña, especialmente, donde había surgido y se había desarrollado la cibernética. A fines de la década de 1950 el equipo de Frank Rosenblatt diseñó el Perceptrón en el Cornell Aeronautical Laboratory como una realización práctica de las redes neuronales de McCulloch-Pitts. El Perceptrón es uno de los antecedentes de los algoritmos diseñados para aprendizaje supervisado, que hoy se conoce como machine learning. Entre 1964 y 1966 el equipo de Joseph Weizembaum en el Massachusetts Institute of Technology (MIT) puso a punto un bot conversacional llamado Eliza, que es el antecedente directo de los sistemas de procesamiento de lenguaje natural bajo modelo de diálogo como el actual chatGPT. Además, en esos años los fondos de estas agencias estaban dirigidos a la creación de sistemas de reconocimiento de patrones en imagen y en sonido. Finalmente, otra de las áreas de desarrollo de la IA fue la generación de sistemas expertos que simularan el razonamiento en un área específica para ayudar a la toma de decisiones en ámbitos como la medicina.

El desarrollo de estas cuatro áreas –redes neuronales, sistemas expertos, modelos de diálogo “natural” y sistemas de reconocimiento de patrones–, que son las mismas que originaron la explosión actual de la IA, impulsó la delimitación de dos interpretaciones básicas de las perspectivas del campo. Una se denominó IA débil, que sostenía que la computadora simulaba actividades humanas pero no se confundía con ellas, de acuerdo a los aspectos nodales de los sistemas expertos y los modelos de diálogo “natural”. La segunda se denominó IA fuerte, y postulaba que, en tanto realización de la mente, la IA es semejante a la mente humana, básicamente a partir del funcionamiento masivo de las redes neuronales.

Esta distinción entre simulación y semejanza se establecía sobre la base de ciertos límites en el desarrollo de las computadoras, pues aún no existían los microprocesadores ni los circuitos integrados, ni la generalización del silicio como materia prima de la industria informática. Esto provocó que, por un lado, surgiera una impugnación epistemológica al cognitivismo, el llamado conexionismo, que enfatizaba la superioridad material del cerebro biológico y la plasticidad de sus interconexiones para “procesar más información” que cualquier computadora sobre la misma base del modelo de las redes neuronales. Y por el otro, que asomaran dudas sobre los resultados de las investigaciones en las áreas mencionadas. Hacia fines de los años 60, para contrarrestar estas críticas, una de las figuras centrales de la IA, Marvin Minsky, sostenía que los límites de la IA no eran del orden de lo artificial, ni de su contrastación con la dotación biológica del cerebro, sino del orden de lo social, pues en el momento en el que las computadoras fueran situadas en un entorno tan complejo como la sociedad misma, en lugar de los laboratorios de computación, mostrarían todo su potencial.

La argumentación de Minsky sirvió de poco para convencer a las agencias de Defensa y Seguridad que sostenían a la IA, y así fue como, en la primera mitad de la década de 1970, este campo de investigación se congeló en el denominado “invierno de la IA”. En coincidencia con la crisis del petróleo en las economías occidentales, la Agencia estadounidense de Proyectos de Investigación Avanzados de Defensa (DARPA) suspendió el financiamiento de varios proyectos, algunos referidos a sistemas de reconocimiento del habla, mientras en Gran Bretaña el Informe Lighthill era lapidario respecto de las posibilidades futuras de la IA en ese país.

En la década de 1980, y hasta la constitución de internet en su variante comercial hacia mediados de los años 90, las computadoras evolucionaron en miniaturización de componentes, velocidad de procesamiento y capacidad de almacenamiento, pero eso no se tradujo en cambios significativos en el campo de la IA. Sin embargo, la arquitectura  reticular de nodos de internet permitió que muchas computadoras pasaran a compartir datos y, a partir de las mejoras en los protocolos de comunicación entre ellas y en los sistemas comunes de codificación, a incluso procesar información de manera conjunta. Como consecuencia de esta transformación, y de la actividad comercial de internet, tanto la informática como la IA lograron atraer la inversión privada en los países más desarrollados, especialmente Estados Unidos, frente a la merma de la inversión directa de los agentes estatales.

A principios de los años 2000 comenzó el proceso que desemboca en los desafíos y preocupaciones actuales respecto de los dominios donde la IA “reemplaza” a los seres humanos y cuáles serían las consecuencias económicas, sociales, políticas y éticas. En el campo específico de la IA, la mayor velocidad de procesamiento y el acceso a grandes volúmenes de datos creó la posibilidad de elaborar modelos pre-entrenados [pre-trained models], como el actual chat GPT en sus diferentes variantes, esto es, un modelo o red de modelos que son automáticamente entrenados por grupos de datos para resolver determinados problemas; una suerte de auto-programación de los modelos computacionales, hasta entonces limitados, por un lado, a una provisión de datos más “artesanal” y, por el otro, a un tipo de programación ligada casi exclusivamente a secuencias lógicas equiparables a sistemas de lenguaje. Así fue como volvió a ganar importancia la tesis de las redes neuronales y del conexionismo como lógica de funcionamiento de red.

DE LA IA AL SISTEMA DAP

Ahora bien, esta transformación de la IA vino de la mano de la reticulación de los nodos de internet, de manera que esos modelos pre-entrenados comenzaron a ser alimentados constantemente y de manera automática por grandes volúmenes de datos (big data). Y esto, a su vez, potenció a las corporaciones de software, que comenzaron a encontrar en los datos y la automatización de los procesos algorítmicos la clave para un nuevo modelo de negocios cuyo caso emblemático es Google, que ofrece una gran cantidad de datos y de productos digitalizados de la cultura (videos, música, imágenes) a cambio de controlar el entorno de los intercambios producidos en internet a través del sistema Android, para capturar cada vez más datos. En el seno de este modelo, que se conoce como modelo de plataformas, surgieron las redes sociales, desde Youtube hasta Instagram, pasando por Facebook, que no sólo aumentaron exponencialmente la comunicación y con ello la posibilidad de digitalizar grandes porciones de la vida social global, sino que también generaron incentivos para que las corporaciones lideraran la investigación y el desarrollo de la IA, en sentido contrario a lo que ocurría en los años 1960 y 1970.

Esta situación provocó transformaciones en diferentes planos. Ante todo, la IA encontró una salida a los dilemas de aquellos años: no se trata de que la inteligencia tenga mejores raíces biológicas que artificiales, sino de que las computadoras, como sede de la IA, se conecten directamente con lo social, confirmando en cierta manera las presunciones de Minsky sobre los niveles de complejidad que pueden alcanzar las máquinas “inteligentes” en entornos diferentes a los de un laboratorio. Luego, la opción más decidida por las tesis de las redes neuronales (sostenidas inclusive por algunos de los firmantes de la carta de abril de 2023 que aboga por una pausa de al menos seis meses y una reflexión sobre las consecuencias de la IA, como Geoffrey Hinton), basadas en mayor procesamiento y mayor volumen de datos, permitió justamente “desbloquear” las áreas que hacia 1970 ya habían experimentado límites en su desarrollo: los modelos de lenguaje natural y los sistemas de reconocimiento de patrones en sonidos, en voces especialmente, y en imágenes. Esto generó y genera un feedback “cibernético”, porque la automatización de los patrones de generación y reconocimiento de sonidos e imágenes acelera la capacidad de los modelos pre-entrenados para optimizar nuevos modelos y predecir patrones a una escala prácticamente no humana. Entre 2009 y 2012, por ejemplo, los sistemas de IA consolidaron el reconocimiento de fonemas y de una amplia variedad de objetos artificiales y naturales, lo que permitió aumentar exponencialmente la capacidad de generar sonidos e imágenes a partir de patrones dinámicos y generar diversas aplicaciones en las tecnologías de uso cotidiano, que tienden así a “reproducir” en entornos digitales casi cualquier aspecto de la vida social.

De ello se desprende que la división anterior entre una IA débil (simulación de la mente humana) y una IA fuerte (una mente artificial similar a la humana) se reconstituya en torno a una tripartició, que describió Raymond Kurzweil en su libro La Singularidad está cerca (2005): una IA estrecha [narrow AI], que se especializa en tareas limitadas según el modelo de los sistemas expertos (juegos, transacciones financieras, geolocalización, etc.), una IA general [general AI], que aspira a un desarrollo similar al de la mente humana en diferentes aspectos y actividades; y una Super IA [Super AI o Singularity] que se plantea como una inteligencia que ya no tiene como referencia a la inteligencia humana porque la supera tanto en velocidad de procesamiento como en cantidad de datos procesados. Se trataría de una inteligencia de la cual no conocemos sus rasgos fundamentales porque no tiene una escala antropométrica.

En esta visión, de acuerdo a los aspectos que hemos delineado hasta aquí de la historia de la IA, los sistemas informáticos como base de la IA ya no buscan simular o asemejarse a una mente humana, sino que calculan algo para ella incalculable, y por ende, siguiendo a McCulloch y Pitts, también representan algo no representado ni representable por ella. La IA hoy puede crear, inventar, y sobre todo operar sobre el mundo humano sin tener ya como referencia a un ser humano aislado, como ocurría en los años 1960, sino estando inmersa en la vida social, cultural y política de millones de seres humanos. De acuerdo a las analogías con las ciencias del lenguaje que acompañan a la IA desde sus inicios, ya no hace falta concentrarse en el nivel sintáctico (las reglas gramaticales, más próximas a las reglas lógicas y a la idea tradicional de cálculos), ni discutir qué ocurre con el nivel semántico (si la IA tiene conciencia de ser una inteligencia a partir del seguimiento de esas reglas, si comprende lo que hace), sino que la IA opera en el nivel pragmático, en el uso concreto y social de la lengua y el habla, por la mera posibilidad de procesar automáticamente miles de millones de expresiones humanas de diversa índole en nanosegundos.

De este modo se “cumplen” los siete ejes que dieron inicio al campo de la IA: las computadoras funcionan automáticamente, hacen uso del lenguaje a través de redes neuronales que amplían sin cesar la capacidad de cálculo e introducen mejoras en ese funcionamiento, y no sólo logran formar abstracciones semejantes a un “pensamiento humano”, sino que también expresarían algún grado de creatividad. Sin embargo, difícilmente los impulsores iniciales de la IA hubieran imaginado el escenario actual.

BIBLIOGRAFÍA DE REFERENCIA

Ansermet, François y Magistretti, Pierre (2007). Plasticidad neuronal e inconsciente. Buenos Aires, Katz.

Böstrom, Nick (2014). Superinteligencia. Caminos, peligros, estrategias. Madrid, Teell.Coeckelbergh, Mark (2022). The Political Philosophy of IA. An introduction. Cambridge, Polity Press.

Crawford, Kate (2022). Atlas de inteligencia artificial. Poder, política y costos planetarios. Buenos Aires, Fondo de Cultura Económica.

Cheney-Lippold, John (2017). We are Data: Algorithms and The Making of Our Digital Selves. Nueva York, New York University Press.

Couldry, Nick y Mejías, Ulises (2019). The Costs of Connection. How Data Is Colonizing Human Life and Appropriating it for Capitalism. Stanford University Press.

Dupuy, Jean-Pierre (1999). Aux origines des sciences cognitives. Paris, La Découverte.

Gardner, Howard (1987). La nueva ciencia de la mente. Historia de la revolución cognitiva. Buenos Aires, Paidós.

Heims, Steve Joshua (1991). The Cybernetics Group. Cambridge, MIT Press.

Hinton, Geoffrey (2023). «Las máquinas serán más inteligentes que las personas en casi todo». Fundación BBVA. https://www.youtube.com/watch?v=ag9YIHlncbM

Kurzweil, Ray ([2005] 2012). La Singularidad está cerca. Cuando los humanos transcendamos la biología. Berlín, Lola Books.

Lafontaine, Céline (2004). L’empire cybernétique. Des machines à penser à la pensée machine. Paris, Éditions du Seuil.

Maturana, Humberto, y Varela, Francisco (2003). El árbol del conocimiento. Las bases biológicas del entendimiento humano. Buenos Aires, Lumen / Editorial Universitaria.

Minsky, Marvin (1974). “Inteligencia artificial”. En Carnap, Rudolf y otros. Matemáticas en las ciencias del comportamiento. Madrid, Alianza.

Malik, Momim (2020). “A hierarchy of limitations in machine learning”. arXiv:2002.05193 (cs, econ, math, stat). En Internet: http://arxiv.org/abs/2002.05193.

Pasquale, Frank (2015). The Black Box Society. The Secret Algorithms that Control Money and Information. Cambridge (EE.UU.), Harvard University Press.

Pasquinelli, Matteo; Joler, Vladan (2021). “El nooscopio de manifiesto. La inteligencia artificial como instrumento del extractivismo cognitivo”, en revista La Fuga. https://lafuga.cl/el-nooscopio-de-manifiesto/1053.

Penrose, Roger (1996). La mente nueva del emperador. En torno a la cibernética, la mente y las leyes de la física. México, Fondo de Cultura Económica.

Simon, Herbert y Newell, Allen (1975). “Proceso de la información en el computador y en el hombre”. En Pylyschyn, Zenon (comp.). Perspectivas de la revolución de los computadores. Madrid, Alianza.

Srnicek, Nick (2018). Capitalismo de plataformas. Buenos Aires, Caja Negra Editora.

Urban, Tim (2015). “The AI Revolution: The Road to Superintelligence”, dos partes, en Internet: https://waitbutwhy.com/2015/01/artificial-intelligence-revolution-1.htmlVan Dijck, José; Poell, Thomas y De Waal, Martijn (2018). The Platform Society. Public Values in a Connective World. Oxfo9rd, Oxford University Press.

Weizembaum, Joseph (1978). Las fronteras entre el ordenador y la mente. Madrid, Pirámide.

Zuboff, Shoshana (2020). La era del capitalismo de la vigilancia. Barcelona, Paidós.


[1] Computadoras automáticas; programación de computadoras para que usen un lenguaje; redes neuronales; teoría del tamaño de un cálculo; auto-mejoramiento [self-improvement] de una máquina; métodos maquínicos para formar abstracciones, y relación entre azar y creatividad.

Historia de la IA, Universidad de Stanford

La documentación de las Bibliotecas de Stanford sobre la historia de la inteligencia artificial incluye importantes recursos cinematográficos, de vídeo y de audio, así como materiales impresos y antiguos archivos informáticos. Estos materiales se capturaron en formatos no digitales, como películas, cintas de audio y texto, así como en archivos digitales del Laboratorio de Inteligencia Artificial de Stanford y del proyecto Medical Experimental Computer Resource (SUMEX) de la Universidad de Stanford. El acceso a versiones transmitidas de grabaciones de audio y video fue posible convirtiendo y codificando recientemente el contenido, que también está disponible en medios originales conservados en el Departamento de Colecciones Especiales y Archivos Universitarios.