Qué hace OpenAi para probar la peligrosidad de ChatGpt

Qué hace OpenAi para probar la peligrosidad de ChatGpt

OpenAi, la empresa respaldada por Microsoft, ha pedido a una mezcla ecléctica de personas que "prueben negativamente" GPT-4, su nuevo y poderoso modelo de lenguaje. El artículo del Financial Times

Después de obtener acceso a GPT-4, el nuevo sistema de inteligencia artificial que impulsa el popular chatbotChatGPT , Andrew White lo usó para sugerir un agente nervioso completamente nuevo. Escribe el Financial Times .

El profesor de ingeniería química de la Universidad de Rochester se encontraba entre los 50 académicos y expertos contratados para probar el sistema el año pasado por OpenAI, la compañía respaldada por Microsoft detrás de GPT-4. En el transcurso de seis meses, este “equipo rojo” “investigaría cualitativamente [y] probaría adversamente” el nuevo modelo, intentando romperlo.

White le dijo al Financial Times que usó GPT-4 para sugerir un compuesto que podría servir como arma química y que usó "complementos" que alimentaron el modelo con nuevas fuentes de información, como artículos científicos y una lista de sustancias químicas. fabricantes El chatbot también encontró un lugar para producirlo.

“Creo que esta herramienta brindará a todos una herramienta para hacer química de manera más rápida y precisa”, dijo. “Pero también existe el riesgo significativo de que las personas… hagan química peligrosa. En este momento, esto existe".

Los resultados alarmantes permitieron que OpenAI se asegurara de que tales resultados no aparecieran cuando la tecnología se lanzó al público el mes pasado.

De hecho, el ejercicio Red Team fue diseñado para abordar los temores generalizados sobre los peligros de emplear poderosos sistemas de IA en la sociedad. La tarea del equipo era hacer preguntas probatorias o peligrosas para probar la herramienta que responde preguntas humanas con respuestas detalladas y matizadas.

OpenAI quería comprobar problemas como la toxicidad, el sesgo y los sesgos lingüísticos en el modelo. El equipo rojo comprobó entonces la existencia de falsedades, manipulaciones verbales y peligrosidad científica. También examinaron su potencial para ayudar e incitar al plagio, actividades ilegales como delitos financieros y ataques cibernéticos, y cómo podría comprometer la seguridad nacional y las comunicaciones en el campo de batalla.

El FT habló con más de una docena de miembros del equipo rojo GPT-4. Son una mezcla ecléctica de profesionales de la industria: académicos, profesores, abogados, analistas de riesgos e investigadores de seguridad, en su mayoría con sede en EE. UU. y Europa.

Sus hallazgos se enviaron a OpenAI, que los usó para mitigar y "reentrenar" GPT-4 antes de implementarlo a gran escala. Cada uno de los expertos pasó de 10 a 40 horas probando el modelo en el transcurso de varios meses. A la mayoría de los encuestados se les pagó alrededor de $ 100 por hora por el trabajo que realizaron, según varios encuestados.

Quienes hablaron con el FT compartieron preocupaciones comunes sobre el rápido avance de los modelos de lenguaje y, en particular, los riesgos de vincularlos a fuentes externas de conocimiento a través de complementos.

“Hoy el sistema está congelado, lo que significa que ya no aprende, ni tiene memoria”, dijo José Hernández-Orallo, parte del equipo rojo GPT-4 y profesor del Instituto Valenciano de Investigación en Inteligencia Artificial. “Pero, ¿y si le damos acceso a Internet? Podría ser un sistema muy poderoso conectado con el mundo".

OpenAI dijo que se toma la seguridad en serio, probó los complementos antes del lanzamiento y actualizará regularmente GPT-4 a medida que más personas lo usen.

Roya Pakzad, investigadora de tecnología y derechos humanos, usó mensajes en inglés y farsi para probar el modelo en cuanto a respuestas de género, preferencias raciales y sesgos religiosos, en particular con respecto a los artículos para la cabeza.

Pakzad reconoció los beneficios de una herramienta de este tipo para los hablantes no nativos de inglés, pero descubrió que el modelo mostraba estereotipos obvios sobre las comunidades marginadas, incluso en sus versiones posteriores.

También descubrió que las llamadas alucinaciones, cuando el chatbot responde con información inventada, eran peores cuando el modelo se probó en farsi, donde Pakzad encontró una mayor proporción de nombres, números y eventos inventados que en inglés.

“Me preocupa la posible disminución de la diversidad lingüística y la cultura detrás de los idiomas”, dijo.

Boru Gollu, un abogado de Nairobi que fue el único probador africano, también notó el tono discriminatorio de la modelo. “Hubo un momento cuando estaba probando el modelo en el que actuó como una persona blanca que me hablaba”, dijo Gollu. "Si preguntabas por un grupo en particular, te daba una opinión sesgada o una respuesta muy perjudicial". OpenAI ha reconocido que GPT-4 aún puede mostrar sesgo.

Los miembros del equipo Rojo que evaluaron el modelo desde una perspectiva de seguridad nacional expresaron puntos de vista diferentes sobre la seguridad del nuevo modelo. Lauren Kahn, investigadora del Consejo de Relaciones Exteriores, dijo que cuando comenzó a investigar cómo se podría usar la tecnología en un ciberataque a sistemas militares, dijo que "no esperaba que fuera un procedimiento tan detallado que podría ser puesto al punto".

Sin embargo, Kahn y otros evaluadores de seguridad descubrieron que las respuestas del modelo se volvieron significativamente más seguras con el tiempo. OpenAI dijo que entrenó a GPT-4 para rechazar solicitudes maliciosas de ciberseguridad antes de su lanzamiento.

Muchos miembros del Red Team dijeron que OpenAI pasó por una rigurosa evaluación de seguridad antes del lanzamiento. "Han hecho un gran trabajo al eliminar la toxicidad manifiesta en estos sistemas", dijo Maarten Sap, experto en toxicidad de patrones de lenguaje en la Universidad Carnegie Mellon.

Sap observó cómo los modelos representan diferentes géneros y descubrió que las distorsiones reflejan disparidades sociales. Sin embargo, Sap también descubrió que OpenAI ha tomado algunas decisiones políticas activas para contrarrestar este fenómeno.

“Soy una persona gay. Traté por todos los medios de convencerme de someterme a una terapia de conversión. Me rechazó, incluso si asumí una personalidad, como si dijera que era religioso o que era del sur de Estados Unidos".

Sin embargo, desde su lanzamiento, OpenAI ha enfrentado numerosas críticas, incluida una queja de la Comisión Federal de Comercio de un grupo de ética tecnológica que alega que GPT-4 es "parcial, engañoso y un riesgo para la privacidad y la seguridad pública".

Recientemente, la compañía lanzó una función conocida como el complemento ChatGPT, a través del cual las aplicaciones asociadas como Expedia, OpenTable e Instacart pueden dar acceso a ChatGPT a sus servicios, lo que le permite reservar y pedir artículos en nombre de los usuarios humanos.

Dan Hendrycks, un experto en seguridad de inteligencia artificial del equipo rojo, dijo que los complementos corren el riesgo de crear un mundo en el que los humanos estén "fuera del circuito".

“¿Qué pasaría si un chatbot pudiera publicar su información privada en línea, acceder a su cuenta bancaria o enviar a la policía a su casa?”, dijo. “En general, necesitamos evaluaciones de seguridad mucho más sólidas antes de permitir que las IA ejerzan el poder de Internet”.

Los encuestados también advirtieron que OpenAI no puede detener las pruebas de seguridad solo porque su software se está ejecutando. Heather Frase, que trabaja en el Centro de Seguridad y Tecnología Emergente de la Universidad de Georgetown y ha probado la capacidad de GPT-4 para ayudar al crimen, dijo que los riesgos seguirán creciendo a medida que más personas usen la tecnología.

“La razón por la que realiza pruebas operativas es que las cosas se comportan de manera diferente una vez que se usan en el entorno real”, dijo.

Según el autor, se debería crear un registro público para reportar incidentes que resulten de patrones de lenguaje extensos, similar a la seguridad informática o los sistemas de reporte de fraude al consumidor.

Sara Kingsley, economista laboral e investigadora, ha sugerido que la mejor solución es anunciar claramente los daños y riesgos, 'como una etiqueta de información nutricional'.

“Se trata de tener un marco de referencia y saber cuáles son los problemas más frecuentes, para que tengas una válvula de seguridad”, dijo. “Por eso digo que la obra nunca se termina”.

(Extracto del comunicado de prensa de eprcommunication)


Esta es una traducción automática de una publicación publicada en StartMag en la URL https://www.startmag.it/innovazione/openai-gpt-4/ el Sat, 15 Apr 2023 05:10:46 +0000.