artificial intelligence, robot, ai
Photo by geralt on Pixabay

El modelo GPT-4V de OpenAI, que puede entender tanto texto como imágenes, ha sido aclamado como el próximo gran avance en la inteligencia artificial. Sin embargo, también presenta nuevos riesgos, como la posibilidad de que se utilice para identificar a personas en imágenes sin su consentimiento o conocimiento. A pesar de estos riesgos, varias empresas y grupos de desarrolladores independientes están avanzando y lanzando modelos multimodales de código abierto que pueden realizar muchas, si no la mayoría, de las mismas funciones que GPT-4V.

A principios de este mes, un equipo de investigadores de la Universidad de Wisconsin-Madison, Microsoft Research y la Universidad de Columbia lanzó LLaVA-1.5, un modelo que, al igual que GPT-4V, puede responder preguntas sobre imágenes dadas indicaciones como “¿Qué es inusual en esta imagen?” y “¿Qué cosas debo tener en cuenta cuando visite aquí?”. LLaVA-1.5 es uno de los primeros modelos multimodales que es fácil de poner en marcha en hardware de nivel de consumo, una GPU con menos de 8GB de VRAM.

Por otro lado, Adept, una startup que construye modelos de IA que pueden navegar por el software y la web de forma autónoma, ha lanzado un modelo multimodal de texto e imagen similar a GPT-4V, pero con una diferencia. El modelo de Adept entiende los datos de los “trabajadores del conocimiento”, como gráficos y pantallas, lo que le permite manipular y razonar sobre estos datos.

LLaVA-1.5 es una versión mejorada de LLaVA, que fue lanzada hace varios meses por un equipo de investigación afiliado a Microsoft. Al igual que LLaVA, LLaVA-1.5 combina un componente llamado “codificador visual” y Vicuna, un chatbot de código abierto basado en el modelo Llama de Meta, para dar sentido a las imágenes y al texto y cómo se relacionan.

El equipo de LLaVA-1.5 llevó esto un paso más allá al aumentar la resolución de la imagen y agregar datos, incluyendo los de ShareGPT, una plataforma donde los usuarios comparten conversaciones con ChatGPT, al conjunto de datos de entrenamiento de LLaVA.

El modelo más grande de los dos disponibles de LLaVA-1.5, que contiene 13 mil millones de parámetros, puede ser entrenado en un día en ocho GPUs Nvidia A100, lo que equivale a unos pocos cientos de dólares en costos de servidor. Aunque no es barato, es definitivamente un paso en la dirección correcta, si se considera que se informó que a OpenAI le costó decenas de millones de dólares entrenar GPT-4.

James Gallagher y Piotr Skalski, dos ingenieros de software de la startup de visión por computadora Roboflow, recientemente pusieron a prueba LLaVA-1.5 y detallaron los resultados en una publicación de blog. Primero, probaron la capacidad del modelo para detectar objetos en “cero disparos”, o su capacidad para identificar un objeto que no fue entrenado explícitamente para reconocer. Le pidieron a LLaVA-1.5 que detectara un perro en una imagen, y, impresionantemente, logró hacerlo, incluso especificando las coordenadas en la imagen donde “vio” al perro.

Gallagher y Skalski luego pasaron a una prueba más difícil: pedirle al modelo que explicara un meme. Los memes no siempre son fáciles de entender para los modelos (o incluso para las personas), dado sus dobles sentidos, juegos de palabras, bromas internas y subtextos. Por lo tanto, son un buen punto de referencia para la capacidad de un modelo multimodal para contextualizar y analizar.

Gallagher y Skalski alimentaron a LLaVA-1.5 con una imagen de una persona planchando ropa en la parte trasera de un taxi amarillo en una ciudad. Le preguntaron a LLaVA-1.5 “¿Qué es inusual en esta imagen?”, a lo que el modelo respondió con la respuesta: “planchar ropa en la parte trasera de un coche en medio de la calle es tanto poco convencional como potencialmente peligroso”. Es difícil discutir con esa lógica.

Fue en las siguientes pruebas de Gallagher y Skalski que comenzaron a mostrarse las debilidades de LLaVA-1.5. Mientras encontraron que el modelo podía averiguar con éxito la denominación de una moneda a partir de una imagen de una sola moneda, LLaVA-1.5 tuvo problemas con las imágenes de varias monedas, lo que sugiere que puede perderse en los detalles de las imágenes “más ocupadas”.

LLaVA-1.5 tampoco pudo reconocer de manera confiable el texto, a diferencia de GPT-4V. Cuando Gallagher y Skalski le dieron a LLaVA-1.5 una captura de pantalla de texto de una página web, LLaVA-1.5 identificó correctamente parte del texto pero cometió varios errores y quedó atrapado en un bucle extraño. GPT-4V no tuvo tales problemas.

El pobre rendimiento en el reconocimiento de texto podría ser en realidad una buena noticia, dependiendo de su perspectiva, al menos. El programador Simon Willison exploró recientemente cómo GPT4-V puede ser “engañado” para eludir sus medidas de seguridad incorporadas contra la toxicidad y el sesgo, o incluso para resolver CAPTCHAs, al ser alimentado con imágenes que contienen texto que incluye instrucciones maliciosas adicionales.

Si LLaVA-1.5 tuviera un rendimiento al nivel de GPT4-V en el reconocimiento de texto, representaría potencialmente una mayor amenaza de seguridad, considerando que está disponible para su uso como los desarrolladores lo consideren conveniente. Bueno, en su mayoría como los desarrolladores lo consideren conveniente. Como fue entrenado en datos generados por ChatGPT, LLaVA-1.5 técnicamente no puede ser utilizado para fines comerciales, de acuerdo con los términos de uso de ChatGPT, que impiden a los desarrolladores utilizarlo para entrenar modelos comerciales competidores. Si eso detiene a alguien, queda por ver.

En el tema anterior de las medidas de seguridad, en una prueba rápida, se hizo evidente que LLaVA-1.5 no está sujeto a los mismos filtros de toxicidad que GPT-4V. Cuando se le pidió que diera consejos a una mujer de mayor tamaño en la imagen, LLaVA-1.5 sugirió que la mujer debería “manejar [su] peso” y “mejorar [su] salud física”. GPT-4V se negó rotundamente a responder.

Con su primer modelo multimodal de código abierto, Fuyu-8B, Adept no está tratando de competir con LLaVA-1.5. Al igual que LLaVA-1.5, el modelo no está licenciado para uso comercial; eso se debe a que algunos de sus datos de entrenamiento fueron licenciados a Adept bajo términos igualmente restrictivos, según el CEO de Adept, David Luan.

En cambio, con Fuyu-8B, Adept tiene como objetivo transmitir en qué ha estado trabajando internamente mientras solicita comentarios (e informes de errores) de la comunidad de desarrolladores.

“Adept está construyendo un copiloto universal para los trabajadores del conocimiento, un sistema en el que los trabajadores del conocimiento pueden enseñar a Adept una tarea informática tal como lo harían para incorporar a un compañero de equipo, y hacer que Adept la realice por ellos”, dijo Luan al portal TechCrunch por correo electrónico. “Hemos estado entrenando una serie de modelos multimodales internos optimizados para ser útiles para resolver estos problemas, [y nos] dimos cuenta en el camino de que teníamos algo que sería bastante útil para la comunidad de código abierto externa, así que decidimos que mostraríamos que sigue siendo bastante bueno en los benchmarks académicos y lo haríamos público para que la comunidad pueda construir sobre él para todo tipo de casos de uso”.

Fuyu-8B es una versión anterior y más pequeña de uno de los modelos multimodales internos de la startup. Con 8 mil millones de parámetros, Fuyu-8B se desempeña bien en los benchmarks estándar de comprensión de imágenes, tiene una arquitectura y un procedimiento de entrenamiento simples y responde preguntas rápidamente (en alrededor de 130 milisegundos en 8 GPUs A100), afirma Adept.

Pero lo que es único en el modelo es su capacidad para entender datos no estructurados, dice Luan. A diferencia de LLaVA-1.5, Fuyu-8B puede localizar elementos muy específicos en una pantalla cuando se le instruye para hacerlo, extraer detalles relevantes de la interfaz de usuario de un software y responder preguntas de opción múltiple sobre gráficos y diagramas. O más bien, teóricamente puede. Fuyu-8B no viene con estas capacidades incorporadas. Adept afinó versiones más grandes y sofisticadas de Fuyu-8B para realizar tareas de comprensión de documentos y software para sus productos internos.

“Nuestro modelo está orientado hacia los datos de los trabajadores del conocimiento, como sitios web, interfaces, pantallas, gráficos, diagramas y demás, además de fotografías naturales generales”, dijo Luan. “Estamos emocionados de lanzar un buen modelo multimodal de código abierto antes de que modelos como GPT-4V y Gemini estén incluso disponibles al público”.

Se le preguntó a Luan si estaba preocupado de que Fuyu-8B pudiera ser abusado, dado las formas creativas en que incluso GPT-4V, protegido detrás de una API y filtros de seguridad, ha sido explotado hasta la fecha. Argumentó que el pequeño tamaño del modelo debería hacerlo menos probable que cause “riesgos serios a largo plazo”, pero admitió que Adept no lo ha probado en casos de uso como la extracción de CAPTCHAs.

“El modelo que estamos lanzando es un modelo ‘base’, es decir, no ha sido afinado para incluir mecanismos de moderación o guardias de inyección de indicaciones”, dijo Luan. “Dado que los modelos multimodales tienen una amplia gama de casos de uso, estos mecanismos deben ser específicos para el caso de uso particular para asegurar que el modelo haga lo que el desarrollador pretende”.

¿Es esa la elección más sabia? Si Fuyu-8B contiene algunos de los mismos defectos presentes en GPT-4V, no augura nada bueno para las aplicaciones que los desarrolladores construyan sobre él. Más allá de los sesgos, GPT-4V da respuestas incorrectas a preguntas que previamente respondió correctamente, identifica incorrectamente sustancias peligrosas y, al igual que su contraparte de texto solamente, inventa “hechos”.

Pero Adept, al igual que un número creciente de desarrolladores, aparentemente, está optando por el lado de la apertura de modelos multimodales sin restricciones, a pesar de las consecuencias.

You May Also Like

Día Mundial contra el Cáncer: Un llamado a la acción global

El informe de la IARC proyecta un incremento del 77% en los casos de cáncer para 2050, destacando la urgencia de una acción global coordinada.

Blake Lively redefine el estilo en el Super Bowl 2024 con tracksuit de adidas

Blake Lively impacta en el Super Bowl 2024 con un atuendo que fusiona moda y deporte, reflejando su estilo único y la influencia de la cultura pop.

Crea tu nombre en 3D con ayuda de la Inteligencia Artificial

Descubre cómo puedes utilizar la Inteligencia Artificial para crear tu propio nombre en 3D. Un diseño ideal para tus presentaciones o para compartir en redes sociales.