Apple desafía a GPT-4 con un modelo de IA propio sin GPU

Apple introduce por primera vez su IA desarrollada internamente en el iPhone, publicando un artículo técnico de 47 páginas que detalla su modelo de lenguaje grande. El modelo supera a GPT-4 en varias evaluaciones, marcando un avance significativo de Apple en el campo de la IA.

La primera versión de Apple Intelligence y el informe técnico de 47 páginas sobre el modelo de lenguaje de gran escala desarrollado por Apple han sido lanzados.

La primera versión de Apple Intelligence ha incorporado las siguientes funciones de IA:

1. Actualización de Siri. Siri ahora tiene un efecto de iluminación en el borde de la pantalla al activarse, puede entender instrucciones expresadas de manera poco fluida por el usuario y puede responder preguntas relacionadas con la solución de problemas de productos Apple.

2. Actualización de herramientas de escritura. La nueva versión de iOS proporciona servicios de generación de texto de Apple; también admite funciones de generación de correos electrónicos y mensajes con IA, resúmenes de transcripciones de voz, etc.

3. Actualización de herramientas visuales. Esta versión ofrece búsqueda de imágenes más inteligente y funciones de creación de recuerdos de películas.

Muchas de las funciones de IA anunciadas por Apple en junio aún no aparecen en la versión beta para desarrolladores de iOS 18.1. Apple dice que planea lanzarlas el próximo año, incluyendo:

1. Otras mejoras de Siri, como análisis de información personal y ejecución de tareas en aplicaciones externas.

2. Funciones de generación de imágenes y visión, incluyendo la generación de emojis y capacidades relacionadas con la vista como la limpieza automática de fotos.

3. Integración de ChatGPT de OpenAI, entre otros.

iPadOS 18.1 y macOS Sequoia 15.1 también han incorporado nuevas funciones de Apple Intelligence, aunque actualmente solo están disponibles para desarrolladores de Apple registrados que pagan $99 al año.

En el documento publicado hoy, Apple reveló sus ### dos modelos de fundación de Apple (Apple Foundation Model, abreviado como "AFM").

Enlace al documento: https://machinelearning.apple.com/papers/apple_intelligence_foundation_language_models.pdf

Uno es el ### modelo de dispositivo de 3 mil millones de parámetros ### AFM-on-device, optimizado para funcionar eficientemente en iPhones y otros dispositivos; el otro es el modelo de servidor ### AFM-server, cuyos parámetros aún no se han revelado.

El informe interpreta por primera vez la ### arquitectura del modelo, datos de entrenamiento, proceso de entrenamiento, optimización de inferencia y resultados de evaluación de AFM, y menciona que el entrenamiento del modelo detrás utilizó un total de ### 10240 TPUs de Google, sin mencionar las GPUs de NVIDIA.

Según la descripción del documento, el modelo de gran escala desarrollado por Apple ### supera a GPT-4 en pruebas de ### seguimiento de instrucciones y resumen de texto.

I. Debut de la IA de Apple: Siri se "transforma", escritura con un clic para pulir

En esta ocasión, las funciones de Apple Intelligence lanzadas en la versión beta para desarrolladores de iOS 18.1 cubren principalmente Siri, herramientas de escritura, resúmenes de correo electrónico, búsqueda de fotos en lenguaje natural, etc.

1. Toda la pantalla se ilumina, Siri se transforma

El cambio de Siri comienza con una nueva apariencia, reemplazando el punto de luz circular anterior en la pantalla con una luz brillante que rodea la pantalla para indicar que el asistente está activo.

Cuando los desarrolladores no quieren hablar en voz alta con Siri, pueden cambiar de comandos de voz a escritura: simplemente haciendo doble clic en la parte inferior de la pantalla del iPhone o iPad para abrir el teclado para ingresar consultas y comandos de Siri.

Siri ahora puede entender el contexto de múltiples instrucciones. Por ejemplo, los desarrolladores pueden pedirle a Siri que cree un horario y luego pedirle que cree un recordatorio sin repetir lo que se dijo antes.

2. Herramientas de escritura en línea, pulido de oraciones, resúmenes de correo electrónico

Las herramientas de escritura son un gran punto de venta de Apple Intelligence, permitiendo a los desarrolladores hacer sugerencias sobre tono y redacción, corregir texto y resumir puntos clave.

La función de transcripción de grabaciones de voz ya está disponible para experimentar, con la aplicación Notas de voz y la aplicación Notas en la versión beta para desarrolladores de iOS 18.1 que ya tienen incorporada la función de transcripción de grabaciones de voz.

Las funciones de escritura están disponibles tanto para las aplicaciones integradas de los dispositivos Apple como para aplicaciones de terceros que utilizan el sistema de entrada de texto estándar.

La aplicación de correo electrónico ahora identifica inteligentemente los correos electrónicos prioritarios y mostrará una ventana emergente de recordatorio en la parte superior de la bandeja de entrada para recordar a los desarrolladores fechas límite específicas o evitar olvidar algunos elementos de acción importantes.

Además, la nueva versión también admite un modo de enfoque llamado "Reducir interrupciones", que utilizará IA para identificar y filtrar notificaciones importantes.

3. Búsqueda de fotos con interacción en lenguaje natural, generación de videos cortos con IA

Los desarrolladores ya pueden usar lenguaje natural para buscar videos y fotos. Por ejemplo, al buscar "fotos de mi hija comiendo una hamburguesa con queso", Apple proporcionará los resultados de búsqueda correspondientes. Debería ser más fácil encontrar imágenes específicas o momentos exactos en videos sin usar palabras clave más genéricas.

La nueva función de recuerdos de películas (Movie memories) permite a los desarrolladores ingresar indicaciones específicas para crear películas utilizando fotos y videos almacenados en la aplicación Fotos.

Los desarrolladores pueden ingresar sus propias indicaciones o usar las sugeridas por Apple Intelligence para obtener películas generadas inteligentemente con capítulos y temas claros.

Estas funciones de Apple Intelligence que ya están en línea aún tienen algunas limitaciones de uso.

Actualmente, Apple Intelligence solo está abierto a desarrolladores registrados de Apple que pagan $99 al año, incluyendo tres versiones para iOS, iPad y Mac. Los desarrolladores deben configurar la región del dispositivo como Estados Unidos y el idioma como inglés estadounidense.

Además, los informes anteriores de junio mencionaron que Apple Intelligence requiere que los dispositivos sean iPhone 15 Pro, iPhone 15 Pro Max o iPad y Mac con M1 o superior.

II. Documento de 47 páginas interpreta el modelo de gran escala de Apple, superando a GPT-4 en pruebas de resumen de texto, etc.

En comparación con los teléfonos inteligentes con IA actuales, una característica importante del modelo desarrollado por Apple es el lanzamiento de un modelo de dispositivo que se ejecuta en el dispositivo.

Según el documento más reciente publicado por Apple hoy, este modelo de dispositivo se llama AFM-on-device y contiene aproximadamente 3 mil millones de parámetros, mucho menos que los cientos de miles de millones de parámetros de los modelos de OpenAI y Meta.

Para realizar tareas más complejas, Apple también ha desarrollado un modelo de servidor llamado AFM-server. Aunque el tamaño específico aún no se ha revelado, está diseñado para ejecutarse en la infraestructura en la nube de Apple utilizando un sistema llamado "Computación en la nube privada" para proteger los datos del usuario.

Como se muestra en la imagen a continuación, AFM-on-device supera a los modelos de código abierto como Phi-3-mini, Mistral-7B y Gemma-2B en pruebas humanas, acercándose al nivel de Llama-3-8B.

AFM-server supera a modelos cerrados como Llama-3-70B, Mixtral-8x22B y GPT-3.5 en pruebas humanas, acercándose a las capacidades de GPT-4.

Al mismo tiempo, en términos de seguimiento de instrucciones, AFM-server supera a GPT-4 en pruebas, mientras que AFM-on-device supera a modelos de código abierto como Llama-3-8B y Phi-3-mini.