Educación con las TICs: febrero 2024

martes, 27 de febrero de 2024

OpenIA presenta SORA Modelo de IA

Centro Educativo Madre Teresa de Calcuta

Informática Educativa

OpenIA presenta

SORA

Modelo de Inteligencia Artificial (IA)

Sora puede generar videos de hasta un minuto de duración manteniendo la calidad visual y el cumplimiento de las indicaciones del usuario.

Sora es un modelo de difusión que genera un vídeo comenzando con uno que parece ruido estático y lo transforma gradualmente eliminando el ruido en muchos pasos.

Sora es capaz de generar vídeos completos de una sola vez o ampliar los vídeos generados para hacerlos más largos. Al darle al modelo previsión de muchos fotogramas a la vez, hemos resuelto el difícil problema de garantizar que un sujeto permanezca igual incluso cuando se pierde de vista temporalmente.

Estamos enseñando a la IA a comprender y simular el mundo físico en movimiento, con el objetivo de entrenar modelos que ayuden a las personas a resolver problemas que requieren interacción con el mundo real.

Presentamos Sora, nuestro modelo de texto a video. Sora puede generar videos de hasta un minuto de duración manteniendo la calidad visual y el cumplimiento de las indicaciones del usuario.

Hoy en día, Sora está disponible para los miembros del equipo rojo para evaluar áreas críticas en busca de daños o riesgos. También estamos otorgando acceso a una serie de artistas visuales, diseñadores y cineastas para obtener comentarios sobre cómo hacer avanzar el modelo para que sea más útil para los profesionales creativos.

Estamos compartiendo el progreso de nuestra investigación desde el principio para comenzar a trabajar y recibir comentarios de personas ajenas a OpenAI y para brindarle al público una idea de las capacidades de IA que hay en el horizonte.

Sora es capaz de generar escenas complejas con múltiples personajes, tipos específicos de movimiento y detalles precisos del sujeto y el fondo. El modelo comprende no sólo lo que el usuario ha pedido en el mensaje, sino también cómo existen esas cosas en el mundo físico.

El modelo tiene un profundo conocimiento del lenguaje, lo que le permite interpretar indicaciones con precisión y generar personajes convincentes que expresan emociones vibrantes. Sora también puede crear múltiples tomas dentro de un solo video generado que persisten con precisión los personajes y el estilo visual.

El modelo actual tiene debilidades. Puede tener dificultades para simular con precisión la física de una escena compleja y es posible que no comprenda casos específicos de causa y efecto. Por ejemplo, una persona puede darle un mordisco a una galleta, pero después, es posible que la galleta no tenga la marca del mordisco.

El modelo también puede confundir los detalles espaciales de un mensaje, por ejemplo, mezclando izquierda y derecha, y puede tener dificultades con descripciones precisas de eventos que tienen lugar a lo largo del tiempo, como seguir una trayectoria de cámara específica.

Seguridad

Tomaremos varias medidas de seguridad importantes antes de que Sora esté disponible en los productos de OpenAI. Estamos trabajando con los miembros del equipo rojo (expertos en áreas como desinformación, contenido que incita al odio y prejuicios) que probarán el modelo de manera adversa.

También estamos creando herramientas para ayudar a detectar contenido engañoso, como un clasificador de detección que puede indicar cuándo Sora generó un video. Planeamos incluir metadatos de C2PA en el futuro si implementamos el modelo en un producto OpenAI.

Además de desarrollar nuevas técnicas para prepararnos para el despliegue, estamos aprovechando los métodos de seguridad existentes que creamos para nuestros productos que utilizan DALL·E 3, que también son aplicables a Sora.

Por ejemplo, una vez en un producto OpenAI, nuestro clasificador de texto verificará y rechazará las solicitudes de ingreso de texto que infrinjan nuestras políticas de uso, como aquellas que solicitan violencia extrema, contenido sexual, imágenes de odio, imágenes de celebridades o la IP de otros. También hemos desarrollado clasificadores de imágenes sólidos que se utilizan para revisar los fotogramas de cada video generado para ayudar a garantizar que cumpla con nuestras políticas de uso, antes de mostrarlo al usuario.

Involucraremos a formuladores de políticas, educadores y artistas de todo el mundo para comprender sus preocupaciones e identificar casos de uso positivos para esta nueva tecnología. A pesar de investigaciones y pruebas exhaustivas, no podemos predecir todas las formas beneficiosas en que las personas utilizarán nuestra tecnología, ni todas las formas en que abusarán de ella. Es por eso que creemos que aprender del uso en el mundo real es un componente crítico para crear y lanzar sistemas de IA cada vez más seguros con el tiempo.

Técnicas de investigación

Sora es un modelo de difusión que genera un vídeo comenzando con uno que parece ruido estático y lo transforma gradualmente eliminando el ruido en muchos pasos.

Al igual que los modelos GPT, Sora utiliza una arquitectura de transformador, lo que desbloquea un rendimiento de escalado superior.

Representamos videos e imágenes como colecciones de unidades de datos más pequeñas llamadas parches, cada una de las cuales es similar a un token en GPT. Al unificar la forma en que representamos los datos, podemos entrenar transformadores de difusión en una gama más amplia de datos visuales de lo que era posible antes, abarcando diferentes duraciones, resoluciones y relaciones de aspecto.

Sora se basa en investigaciones anteriores sobre los modelos DALL·E y GPT. Utiliza la técnica de recaptioning de DALL·E 3, que implica generar subtítulos altamente descriptivos para los datos de entrenamiento visual. Como resultado, el modelo puede seguir más fielmente las instrucciones de texto del usuario en el vídeo generado.

Además de poder generar un vídeo únicamente a partir de instrucciones de texto, el modelo puede tomar una imagen fija existente y generar un vídeo a partir de ella, animando el contenido de la imagen con precisión y atención al pequeño detalle. El modelo también puede tomar un vídeo existente y ampliarlo o completar los fotogramas faltantes. Obtenga más información en nuestro informe técnico .

Sora sirve como base para modelos que pueden comprender y simular el mundo real, una capacidad que creemos será un hito importante para lograr AGI.

Fuente Bibliográfica:

https://openai.com/sora

https://cdn.openai.com/sora/videos/tokyo-walk.mp4

https://cdn.openai.com/sora/videos/closeup-man-in-glasses.mp4

https://cdn.openai.com/sora/videos/wooly-mammoth.mp4

https://cdn.openai.com/sora/videos/vlogger-corgi.mp4

https://www.youtube.com/watch?v=HK6y8DAPN_0

SORA y GEMINI Proyectos Distintos de IA

Centro Educativo Madre Teresa de Calcuta

Informática Educativa

SORA y GEMINI

Proyectos De Inteligencia Artificial (IA)

Distintos con Grandes Potenciales

Sora

Gemini

Google y OpenAI mostraron sus últimas innovaciones en inteligencia artificial. Primero fue Google con Gemini 1.5, su modelo de IA con un millón de tokens para aventajar a GPT-4 Turbo. Inmediatamente después OpenAI contraatacó con Sora, su modelo de texto a vídeo para generar clips de hasta 60 segundos.

Y las reacciones de la comunidad no han podido ser más distintas. La nueva versión de Gemini es muy prometedora y apunta altísimo, pero hay una diferencia clara con Sora. Mientras Google nos da cifras de vértigo, OpenAI nos enseña vídeos. Si una imagen vale más que mil palabras, en este caso un vídeo vale más que mil cifras.

Son dos estrategias muy distintas, pero parece claro cuál está generando más atención. Del anuncio de Gemini 1.5 nos quedamos con que mientras GPT-4 Turbo tiene 128.000 tokens, Gemini llega a un millón. Estos tokens son un indicativo de la capacidad de la IA de recibir mucha información a la vez. Es decir, Gemini es capaz de leer una mayor cantidad de libros a la vez o de procesar una mayor cantidad de tiempo de vídeo. En resumen: es más rápida y eficiente. Hasta ahí bien.

Lo que ocurre es que esta promesa de un mayor rendimiento no sirve de mucho si no tenemos presente ejemplos llamativos. Tras probar Gemini en el móvil, nuestra experiencia ha sido más o menos buena pero no revolucionaria.

Cifras versus ejemplos

Si uno mira el comunicado de Gemini 1.5 de Sundar Pichai y Demis Hassabis veremos un texto con muchos ejemplos y muchísimas cifras. Tokens, arquitectura, tiempos de ejecución y líneas de código. ¿En qué se traduce eso en nuestras vidas diarias? Difícil determinarlo en el corto plazo.

Con Sora ha sido muy distinto. En primer lugar, la página de Sora viene con múltiples ejemplos de vídeos. El resultado es impresionante, con un realismo no visto hasta ahora. Pero es que incluso si leemos el texto técnico está plagado de ejemplos gráficos.

Lógicamente la comparativa no es justa. Sora es una herramienta de vídeo y Gemini es un modelo de IA. Son dos proyectos muy distintos, pero precisamente por ello la reacción que generan es diferente. OpenAI sabe que su mayor baza está en lo llamativo que pueden llegar a ser la IA, para Google la IA parece que sea un impulso a optimizar su gran engranaje.

Todavía cuesta encontrar ejemplos en Gemini que no se puedan hacer desde hace tiempo en ChatGPT. Unos y otros consiguen mejores resultados en función del prompt pero de manera general, están bastante a la par. Pero los movimientos de OpenAI dejan claro de un vistazo que están un paso por delante.

Gabor Cselle, ex directivo de Google, publica una comparativa entre el vídeo generado por Sora y lo que ofrecen alternativas como Pika, RunwayML o Stable Video y su conclusión es que Sora es un paso adelante claro, sobre todo en consistencia y duración. "Revolucionario", describe.

Sora no está disponible al público todavía, pero ya ha enseñado decenas de ejemplos. Vídeos tan sorprendentes que no hace falta mucha más explicación para saber que estamos ante un salto importante. Algo que Google todavía no ha logrado.

Fuente Bibliográfica:

https://www.xataka.com/robotica-e-ia/google-sigue-atascada-gemini-sora-demuestra-quien-va-muchos-pasos-delante-ia-openai

https://cdn.openai.com/sora/videos/closeup-man-in-glasses.mp4

lunes, 26 de febrero de 2024

SORA Inteligencia Artificial de OpenIA

Centro Educativo Madre Teresa de Calcuta

Informática Educativa

SORA Modelo de Inteligencia Artificial de OpenIA

Sora, es el nuevo sistema de inteligencia artificial creado por OpenAI. Se trata de una nueva revolución de inteligencia artificial que viene de la mano de los creadores de ChatGPT y DALL-E, que vuelven a innovar en el sector.

Así como ChatGPT genera texto y DALL-E genera imágenes a partir de texto, lo que hace Sora es generar vídeos a partir de nuestros comandos textuales. De momento, este modelo no es accesible para todos, solo para investigadores de la empresa, pero promete ser la próxima gran revolución.

Sora es un sistema de inteligencia artificial creado por OpenAI, la misma empresa que ha creado otros sistemas conocidos como ChatGPT o DALL-E. En este caso, es una IA que genera vídeos a partir de texto, de forma que tú le escribes lo que quieres ver mediante un prompt o comando textual, y la generará de la nada.

Esta inteligencia artificial es muy similar a los modelos que crean imágenes a partir de texto, y que a la vez se basa en parte de la tecnología de modelos de lenguaje como GPT. Este sistema es capaz de entender lo que le pides con un lenguaje natural, ya que ha sido entrenada para entender la manera en las que solemos hablar y cómo nos expresamos para pedir o preguntar algo.

Después de entender lo que le has pedido en un prompt, Sora podrá generar vídeos en los que se vea en movimiento lo que le has pedido, lo que supone un enorme paso más con respecto a simplemente crear imágenes.

Esto lo ha conseguido porque es un modelo entrenado con una enorme biblioteca de vídeos, de forma que sabe reconocer movimientos, descripciones y cualquier cosa que le pidas, y será capaz de recrearlos en vídeo. Sabrá a lo que te refieres cuando le hables de tipos de personas, de vestimenta, de accesorios o de efectos visuales.

Sora es capaz de generar escenas complejas en las que aparezcan varios personajes, y también puedes especificar el tipo de movimiento que quieras que realice. También puedes detallar el entorno, y Sora sabrá interpretar lo que le dices y cómo son las cosas en el mundo físico.

Mira por ejemplo el vídeo que te vamos a enseñar a continuación. En él, se ha utilizado un prompt en el que se le ha dicho que cree a una mujer elegante caminando por una calle de Tokyo llena de neones, y con señalizaciones urbanas. En el prompt que se utilizó, también se describió la vestimenta al detalle, así como sus gafas de sol o pintalabios.

Por lo tanto, es capaz de generar con precisión a la persona y de reflejar cómo le has pedido que esté vestida. Además, también refleja otros detalles que se le han pedido como que la calle esté húmeda y haya reflejos con efecto espejo. A continuación, te dejamos el vídeo, y debajo de él la traducción del prompt utilizado.

"Una mujer elegante camina por una calle de Tokio llena de cálidos neones brillantes y animada señalización urbana. Lleva una chaqueta de cuero negra, un vestido largo rojo, botas negras y un bolso negro. Lleva gafas de sol y pintalabios rojo. Camina con seguridad y despreocupación. La calle está húmeda y es reflectante, lo que crea un efecto espejo de las luces de colores. Muchos peatones pasean".

Esto te puede servir como un ejemplo para que veas las calidades y la fiabilidad a la hora de reflejar lo que le has pedido. También entiende contextos, y al ser en Tokyo ha hecho que la mujer tenga rasgos orientales. Además de todo esto, Sora también te permite especificar rasgos como su edad o su vestimenta, o algunos otros atributos físicos y los movimientos que está realizando.

Como suele ser habitual, las capacidades de Sora también dependerán de la habilidad de cada uno para crear prompts complejos en los que hacer las mejores descripciones con las que obtener resultados a medida. Cuanto más detallada sea la descripción del prompt, más detallada será la imagen que se muestre con respecto a lo que quieras obtener.

De momento, este modelo de inteligencia artificial está en una fase temprana de su desarrollo, y genera vídeos de hasta 60 segundos. Además, la empresa advierte que puede tener algunos problemas a la hora de recrear con exactitud algunas físicas.

Cuándo llegará Sora

De momento este modelo está en una fase de prueba, y solo pueden acceder investigadores de OpenAI. Por lo tanto, está todavía limitada a pruebas de laboratorio, con las que se está probando su funcionamiento.

Aquí, OpenAI asegura que Sora se acabará incorporando al catálogo de productos de la empresa, pero todavía no ha dado ninguna fecha concreta para ello. De momento, dicen que primero deben tomar medidas para garantizar la seguridad de los usuarios.

Fuente Bibliográfica:

https://www.xataka.com/basics/que-sora-como-funciona-que-se-puede-hacer-inteligencia-artificial-para-generar-videos-openai

https://www.youtube.com/watch?v=HK6y8DAPN_0

https://www.youtube.com/watch?v=SPBn9gwgIsI

https://www.youtube.com/watch?v=ESfMSGuGa_Q

miércoles, 21 de febrero de 2024

GEMINI Inteligencia Artificial de Google

Centro Educativo Madre Teresa de Calcuta

Informática Educativa

GEMINI Inteligencia Artificial de Google

Gemini IA de Google, centrándonos en la versión web que está accesible para todos. Vamos a usar la versión gratis de Gemini, que por dentro lleva el modelo de inteligencia artificial Gemini Pro comprable o semejante al GPT-3.5 que usa ChatGPT.

Google Gemini es el nuevo nombre de la IA que conocíamos como Google Bard hasta ahora. Lo que ha pasado es que le han cambiado el modelo de inteligencia artificial que usaba por otro más potente, y Google ha aprovechado para cambiar también su nombre. Todavía no ofrece todas las opciones que la empresa del buscador pretende, pero como verás sí que ofrece las suficientes para darte mucho juego.

Google Gemini te va a responder siempre en el mismo idioma en el que le escribas. Si eres un usuario de habla hispana, podrás hablarle en español y te responderá en el mismo, y cuando lo prefieras podrás saltar a otro idioma para hacer peticiones concretas.

Por ejemplo, puedes estar utilizándolo en español, y cuando quieras puedes pedirle que te responda en inglés. Esto podrás hacerlo escribiendo tu prompt en inglés o simplemente diciéndole en el prompt en español que quieres el resultado en inglés. Aquí, simplemente debes saber que puedes usarlo en idiomas muy hablados como inglés, francés, español, alemán, portugués, etcétera, pero no en otros idiomas menos hablados como Euskera, Gallego o Catalán.

Gemini IA, te ofrece las opciones de calificar las respuestas que te ofrece. Cuando Gemini te diga una respuesta, debajo de ella aparecerán varios botones. Los dos primeros servirán para calificar la calidad de la respuesta, pudiéndole dar una nota positiva o negativa. Así, los desarrolladores de esta IA podrán saber qué respuestas son mejores o peores, y trabajar en mejorarlas.

Si calificas la respuesta como mala, entonces vas a tener la opción de explicarle a Google por qué la consideras mala. Podrás etiquetarla como ofensiva, decir que tiene datos incorrectos o añadir otra razón, y también tendrás un campo de escritura en el que especificar todo lo que quieras tu mala calificación.

Otra de las opciones que ofrece Gemini es la de modificar las respuestas de forma rápida y sin necesidad de pedírselo mediante un prompt. Para eso, tienes varias opciones rápidas que te aparecen con el botón de ajustes justo debajo de cada una de las respuestas.

Con estas opciones vas a poder hacer las respuestas más cortas o más largas, también podrás cambiar el tono de la escritura para que sea más sencillo, más informal o más profesional. Estos cambios también los puedes hacer pidiéndoselos por escrito, e incluso hacer otro tipo de cambios en el tono de escritura, pero estas son opciones rápidas para que puedas hacerlo de forma más sencilla.

La IA te permite mediante expresiones de Prompts, que te redacte el texto acorde a lo que le estas solicitando. Por ejemplo; Como te hemos dicho en el punto anterior, puedes pedirle manualmente a Gemini que te escriba respuestas de maneras distintas. Una de las más útiles es pedirle que te explique algo como si tuvieras cinco años. Así, podrás obtener explicaciones mucho más básicas y sencillas. Aquí, hay dos maneras de proceder. Puedes pedirle que te lo explique como un niño de cinco años después de que te dé una respuesta, o directamente pedirle que te explique algo de esa manera desde el principio.

A Gemini IA de Google, puedes hacerle cualquier tipo de consulta, preguntarle cualquier cosa que quieras saber para que te de la información. Cuando lo hagas, la IA te enviará la respuesta al momento.

Aquí, debes saber que la gran diferencia de Gemini frente a alternativas como ChatGPT es que las respuestas las genera con resultados de Internet. Esto quiere decir que van a estar siempre actualizadas, y que el conocimiento no llegará solo hasta una fecha determinada.

Como Google Gemini obtiene parte de la información de sus respuestas de Internet, vas a tener la opción de revisar de dónde ha sacado algo para poder comprobar su veracidad. Para eso, tienes un botón Comprobar respuestas con el icono de Google debajo de cada una de ellas, con esto, los fragmentos extraídos de alguna web quedarán subrayados para que los puedas distinguir.

Aquí, cuando un fragmento quede subrayado podrás pulsar en él para que Gemini te enseñe de qué web ha sacado la información. Podrás consultar directamente la web para poder comprobar su veracidad y saber si es una página fiable o no.

Es posible que cuando le hagas una petición a Gemini, la inteligencia artificial no acierte a la primera. No quiero decir que te de malos resultados, sino que quizá simplemente no lo hace expresándose de la manera que quieres. Para no tener que volver a escribir el mismo prompt, Gemini te ofrece tres respuestas distintas para que puedas alternar entre ellas.

Para verlas, entre tu prompt y la respuesta de Gemini puedes pulsar en Mostrar versiones. Al hacerlo, se abrirá una ventana donde puedes ver las tres versiones de respuestas que te ha generado, y tienes también un botón de recargar para volver a generar otras distintas.

Arriba a la derecha de cada respuesta, tienes un botón con el icono de un altavoz. Si pulsas sobre él, Gemini leerá tu respuesta para que puedas escucharla. Esto puede servirte si en algún momento no quieres pararte a leer y te es más cómodo escucharlo.

Gemini ha sido entrenada como una inteligencia artificial multimodal. Esto quiere decir que es capaz de entender tu voz además de tu texto. De hecho, ya en su página web tienes el icono de un micrófono para poder activar el dictado.

Aquí, vas a necesitar darle al navegador web que utilices permiso para poder utilizar el micrófono, y evidentemente también necesitas tener un micrófono en el dispositivo desde el que vayas a usarlo. Entonces, mantén pulsado el botón y habla.

Gemini IA de Google, también puedes subir una foto y Gemini te reconocer la foto y te dirá lo que está leyendo o reconociendo que posee esa foto. Por eso, a la derecha del cuadro de texto tienes un icono para subir fotografías desde tu dispositivo. Una vez subas la foto, puedes enviarla junto a algún prompt o petición. Por ejemplo, puedes preguntarle lo que aparece en la foto, y Gemini te dirá lo que ve dentro de la fotografía incluyendo los textos que aparecen en ella con pasmosa precisión. Vas a poder hacerle cualquier pregunta relacionada con la fotografía y su contenido, y Gemini te responderá. Incluso vas a poder hacerle preguntas relacionadas con los datos EXIF que pueda tener la foto, como la fecha y la hora en la que fue tomada.

Cuando le hagas cualquier consulta a Gemini, vas a poder generar un enlace para compartir la respuesta. Para eso, en la serie de iconos que tienes justo debajo de las respuestas verás uno que es precisamente para compartir.

Vas a tener dos opciones. Por una parte, vas a poder compartir solo una petición su correspondiente respuesta, y por otra parte podrás compartir toda la conversación y todo lo que has hablado con Gemini en ella. Puedes incluso generar nuevas respuestas antes de compartirla, y todo ello se compartirá con un enlace público.

Con Gemini IA de Google, puedes hacer muchísimas cosas más, como: que te redacte un email, que te escriba un código HTML para crear una página web, que te redacte cualquier fórmulas de Excel, para funciones específicas que necesites, que te escriba guiones de redes sociales, redacte pequeños escritos, redacte artículos, crear exámenes, crear estructura para un texto, mejorar los textos, como por ejemplo de la Prompt "mejórame el estilo de este texto para hacerlo más claro:", Cuando obtengas el resultado, Gemini te dará una lista con las mejoras que ha realizado, e incluso te añadirá otras sugerencias para añadir al texto y hacerlo más atractivo, teniendo en cuenta el tipo de texto que haya visto que es.

Puedes también, crear poemas, o letras de canciones, análisis descriptivo de un dispositivo X tecnológico, guía de compras, crear menús y recetas, te sugiere películas, series, juegos, libros, juegos (en textos, por ejemplo; juego de preguntas y respuestas), crear frases y chistes, organizar tus vacaciones, y muchas cosas más…

Fuente Bibliográfica:

https://www.xataka.com/basics/36-funciones-cosas-que-puedes-hacer-google-gemini

viernes, 16 de febrero de 2024

Gemini 1.5 Inteligencia Artificial

Centro Educativo Madre Teresa de Calcuta

Informática Educativa

Google Lanza Gemini 1.5 Modelo de Inteligencia Artificial Más Grande

Hace poco más de dos meses asistimos al lanzamiento Gemini, el modelo de inteligencia artificial “más grande y capaz de Google”. Este movimiento se produjo en medio de una feroz competencia entre el gigante del buscador y la compañía de IA respaldada por Microsoft, OpenAI, que impulsa el famosísimo ChatGPT.

Ahora, el propio Sundar Pichai ha anunciado la próxima generación de su modelo de lenguaje. Estamos hablando de Gemini 1.5, una propuesta que promete dar un salto significativo en sus capacidades con el claro objetivo de ponerse a la altura del modelo más famoso de la actualidad, GPT-4. Veamos sus novedades.

Google se entusiasma en la carrera por liderar la IA

No es ningún secreto que Google no lo está teniendo nada fácil en la carrera por liderar el mundo de la inteligencia artificial. Si bien la compañía de Mountain View tiene bajo su paraguas a algunos de los laboratorios de investigación de este sector más reputados, sus intentos por posicionarse no parecen estar dando los resultados esperados.

Gemini 1.5, aparentemente, busca llevar lo mejor de Google en este campo tan competitivo a usuarios, desarrolladores y empresas. El modelo está llegando inicialmente a estos dos últimos grupos, con un lanzamiento previsto para dentro de poco tiempo para el público en general. Esto quiere decir que pronto podríamos utilizarlo.

Cuando hablamos de Gemini, en cualquiera de sus versiones, nos encontramos con tres ediciones diferentes. Nano, que ha sido diseñada para ejecutarse localmente dentro de un dispositivo; Pro, que es la versión gratuita disponible para todos los usuarios, y Ultra, que se presenta como Gemini Advance y se accede a ella pagando.

Una de las mejoras más notables de Gemini 1.5 es que su edición Pro está a la altura de edición Ultra de Gemini 1.0 (la más avanzada hasta hace minutos). En otras palabras, los usuarios tendremos a nuestra disposición un modelo avanzado cuya barrera de acceso era la suscripción Google One AI Premium de 19,99 dólares al mes.

Gemini 1.5, al igual que la versión anterior, es multimodal. Esto quiere decir que tiene capacidades que van más allá de lo simplemente textual. Puede, por ejemplo, entender imágenes. Ahora bien, este modelo llega con una arquitectura mejorada denominada Mixture-of-Experts (MoE), como la que anteriormente hemos visto en el modelo Mixtral de Mistral AI.

La principal ventaja de los MoE es que adoptan un enfoque mucho más eficiente para modelos grandes de lenguaje. Con el enfoque anterior, cuando había una pregunta, en líneas generales, todo el modelo se ponía a trabajar para brindarnos una respuesta. Ahora, Gemini 1.5 tiene “expertos” que se activan según el tipo de consulta que hagamos.

Así que, si estamos haciendo consultas relacionadas a temas literarios, solo se activarán los expertos literarios del modelo. Otros expertos, como los que están especializados en la programación, el reconocimiento de imágenes y demás tareas no estarán activos. Esto supone un ahorro importante a nivel de inferencia y promete ser mucho más rápido para los usuarios.

Otra de las mejoras notables que llegan con Gemini 1.5 es su ventana de contexto. El nuevo modelo de Google llega con una ventana de contexto estándar de 128.000 tokens, aunque “un grupo limitado de desarrolladores y clientes empresariales” tendrán acceso a una ventana de contexto de 1 millón de tokens a través de las herramientas AI Studio y Vertex AI.

Si comparamos esto con la propuesta de OpenAI identificamos una mejora notable. La versión estándar de GPT-4 ofrece una ventana de contexto de 8.000 tokens, aunque también hay una versión especial de 32.000 tokens y la llamada GPT-4 Turbo de 128.000 tokens. Estas últimas también limitadas a desarrolladores o clientes empresariales de pago.

Los tokens son la forma que tenemos de medir la cantidad de información que el modelo de inteligencia artificial puede recibir de una vez, algo así como leer varias páginas de un libro al instante. A mayor cantidad de tokens, mayor cantidad de datos podremos suministrar. 1 millón de tokens, según Google, equivale a 1 hora de vídeo, 11 horas de audio o 700.00 palabras de texto.

Fuente Bibliográfica:

https://www.xataka.com/robotica-e-ia/google-anuncia-gemini-1-5-nueva-arquitectura-ventana-contexto-descomunal-mayor-eficiencia-para-destronar-a-gpt-4

viernes, 9 de febrero de 2024

Día Internacional del Internet Sano y Seguro 2024

Centro Educativo Madre Teresa de Calcuta

Informática Educativa

Día Internacional del Internet Sano y Seguro 2024

Coordinador TIC Adan Edison Ureña Almonte M.A.

Cerrando la semana con actividades realizadas con los estudiantes del Centro Educativo Madre Teresa de Calcuta en alusión al Día Internacional del Internet Sano y Seguro 2024.

El objetivo de esta, es concientizar sobre los beneficios y los riegos de la internet y la prevención a tomar al navegar en la web. #SID2024 #DISTRITO1101SID2024