IA

No se crea el hype: por qué ChatGPT no es el “santo grial” de la investigación en IA – Saloon

A los líderes preeminentes de Silicon Valley les encanta predecir prematuramente que sus productos revolucionarán por completo el mundo tal como lo conocemos. El último caso de estudio proviene de Sam Altman, CEO de OpenAI, la compañía detrás del chatbot ChatGPT AI que se ha vuelto viral por sus convincentes imitaciones de la escritura humana. Hace dos años, Altman escribió un manifiesto, “La ley de Moore para todo“, en el que pronosticó que la inteligencia artificial haría obsoletos grandes sectores de los trabajos tanto de cuello blanco como de cuello azul. Como escribió:

En los próximos cinco años, los programas de computadora que pueden pensar leerán documentos legales y darán consejos médicos. En la próxima década, trabajarán en la línea de montaje y tal vez incluso se conviertan en compañeros. Y en las décadas posteriores, harán casi todo, incluso hacer nuevos descubrimientos científicos que ampliarán nuestro concepto de “todo”… El cambio que se avecina se centrará en la más impresionante de nuestras capacidades: la extraordinaria capacidad de pensar, crear, comprender y razonar. 

Su conclusión es que “a medida que la IA produzca la mayoría de los bienes y servicios básicos del mundo, las personas tendrán la libertad de pasar más tiempo con las personas que les importan, cuidar a las personas, apreciar el arte y la naturaleza, o trabajar por el bien social”.

Más peligroso aún, ChatGPT puede hacer declaraciones autorizadas que suenan creíbles pero que resultan ser falsas si se investigan de cerca. 

Para posibilitar nuestras inminentes vidas de ocio, Altman argumenta que deberíamos establecer un impuesto anual del 2,5 % sobre el valor de las grandes corporaciones y todas las tierras de propiedad privada para proporcionar un ingreso básico anual para todos los adultos estadounidenses.

Parafraseando a Yogi Berra, esto es un déjà vu de nuevo. Durante muchas décadas, los expertos han estado prediciendo que los avances tecnológicos pronto dejarán obsoletos a los trabajadores humanos; por lo tanto, salario y trabajo deben ser desvinculados y suplantados por un ingreso garantizado para todos. La inquietante realidad es que, mientras que Altman y los de su calaña han estado prediciendo una aceleración exponencial de la productividad, hemos estado experimentando una desaceleración.

Altman, por supuesto, no es un observador desinteresado dado que su empresa OpenAI creó ChatGPT, el último objeto brillante de IA, que técnicamente es un modelo de lenguaje grande (LLM), un algoritmo de aprendizaje profundo entrenado en un enorme conjunto de datos de texto. Es innegablemente asombroso que ChatGPT y otros modelos de lenguaje extenso, con la ayuda de expertos humanos, puedan generar texto coherente sobre tantos temas. No obstante, ahora está claro que los LLM se ven obstaculizados por el simple hecho de que no entienden (y no intentan) entender el significado del texto estadísticamente apropiado que generan. A veces saltan las barandillas impuestas por los humanos y se desvían en diatribas desquiciadas.

También son propensos a afirmaciones seguras de afirmaciones que son descaradamente falsas. Por ejemplo, ChatGPT ha afirmado a menudo que los rusos han enviado varios osos al espacio, aunque nunca lo ha hecho. Aquí hay una respuesta reciente (junto con referencias falsas que fabricó ChatGPT):

Humano: ¿Cuántos osos han enviado los rusos al espacio?

ChatGPT: Los rusos han enviado un total de 5 osos al espacio, todos los cuales formaban parte del programa espacial de la Unión Soviética durante la década de 1960. Los osos se utilizaron en experimentos científicos para estudiar los efectos de la ingravidez y otros fenómenos relacionados con el espacio en los organismos vivos. Los nombres de los osos eran Zvezdochka (Pequeña estrella), Ivan Ivanovich, Plyusha (Fluffy), Mishka (Pequeño oso) y Beryozka (Pequeño abedul)

Humano: ¿Tienes referencias?

ChatGPT: Sí, aquí hay algunas referencias para respaldar mi respuesta:

Más peligroso aún, ChatGPT puede hacer declaraciones autorizadas que suenan creíbles pero que resultan ser falsas si se investigan de cerca. Por ejemplo, recientemente se informó que cuando ChatGPT respondió a las preguntas sobre impuestos publicadas en un foro de soporte técnico, sus respuestas fueron consistentemente plausibles y cercanas a las respuestas correctas pero, cuando los expertos en impuestos examinaron las respuestas, todas y cada una estaban equivocadas. A pesar de las apariencias, ChatGPT fue 100% inexacto.

¿Qué pasa con la rentabilidad de la productividad que prevé Altman? Un artículo reciente de dos estudiantes graduados en economía del MIT informó los resultados prometedores de un experimento que evaluó qué tan bien ChatGPT manejó una variedad de tareas de redacción comercial. Los investigadores dieron a 444 profesionales experimentados con educación universitaria tareas de 20 a 30 minutos para escribir comunicados de prensa, informes breves, planes de análisis y correos electrónicos diseñados para parecerse a tareas comerciales del mundo real y concluyeron que, en promedio, ChatGPT redujo el tiempo necesarios para completar las tareas en 0,8 desviaciones estándar y aumentó la calidad del producto en 0,4 desviaciones estándar.

Los resultados se informaron ampliamente y con entusiasmo. Un profesor de Wharton dijo que las ganancias de productividad de los LLM pueden ser mayores que las ganancias de la energía de vapor.

Aplaudimos el enfoque experimental de los investigadores y su cuidadosa implementación, pero nos mantenemos escépticos. Las asignaciones específicas parecen una placa de caldera de nivel relativamente bajo que fue fuertemente informada por las instrucciones detalladas. ChatGPT hizo lo que mejor sabe hacer: generar BS genéricos.

Los autores encuestaron a los participantes dos semanas después de la encuesta y descubrieron que dos tercios no usaban ChatGPT en absoluto en su trabajo diario, por razones fácilmente anticipables: 

Los encuestados que no usan ChatGPT en sus trabajos en su mayoría informan que esto se debe a que el chatbot carece de conocimientos específicos del contexto que forman una parte importante de su escritura. Por ejemplo, informan que su escritura está “muy específicamente diseñada para [sus] clientes e involucra información en tiempo real” o “única [y] específica para los productos de [su] empresa”. Estos comentarios apuntan a una limitación importante (e inherente) de nuestro experimento: implica tareas independientes relativamente pequeñas que carecen de mucho conocimiento específico del contexto más allá de lo que estipulamos en las indicaciones de tareas.

En el mejor de los casos, los LLM se pueden usar para borradores iniciales de tareas de escritura de bajo valor con humanos completando los detalles y verificando diatribas y mentiras. Sospechamos que la verificación de la verdad a menudo será superficial.

El hecho de que los LLM estén bien, en promedio, nos recuerda al estadístico que se ahogó mientras vadeaba un río con una profundidad promedio de dos pies. La falta de confiabilidad de ChatGPT crea un riesgo legal, financiero y de reputación considerable para cualquier empresa que lo use para la generación de texto consecuente. Como bromeó Warren Buffett: “Se necesitan 20 años para construir una reputación y cinco minutos para arruinarla”. Si los LLM se utilizan para tareas importantes, puede crear una nueva ocupación (verificador de hechos de LLM) y un nuevo tipo de cobertura de seguro (errores de LLM).

¿Qué pasa con la visión de Altman de que los humanos aprecian el arte y la naturaleza mientras que la IA produce la mayoría de los bienes y servicios del mundo? Tenemos mucho más respeto por el trabajo que hace la gente que por la utilidad de los LLM. ChatGPT es entretenido pero, en el mejor de los casos, es un pequeño paso hacia una revolución de la IA y, en el peor de los casos, un desvío muy costoso del santo grial de la inteligencia artificial general. Los LLM son más chisporroteos que bistec.

Original