Maçã desafia GPT-4 com modelo de IA próprio sem GPU

A primeira versão da Apple Intelligence e o relatório técnico de 47 páginas sobre o modelo de IA próprio da Apple são lançados.

A primeira versão da Apple Intelligence lançou as seguintes funcionalidades de IA:

1. Atualização da Siri. A Siri agora tem um efeito de brilho na borda da tela ao ser ativada, pode entender comandos expressos de forma não fluente pelo usuário e pode responder a perguntas sobre solução de problemas de produtos Apple.

2. Atualização das ferramentas de escrita. A nova versão do iOS oferece serviços de geração de texto da Apple; também suporta geração de e-mails e mensagens por IA, transcrição de voz e resumo, entre outras funções.

3. Atualização das ferramentas visuais. Esta versão oferece busca de imagens mais inteligente e funcionalidade de criação de memórias de filmes.

Muitas das funcionalidades de IA anunciadas pela Apple em junho ainda não apareceram na versão beta para desenvolvedores do iOS 18.1. A Apple afirma que planeja lançá-las no próximo ano, incluindo:

1. Outras melhorias na Siri, incluindo análise de informações pessoais e execução de tarefas em aplicativos externos.

2. Funcionalidades de geração de imagens e visão, incluindo geração de emojis e capacidades relacionadas à visualização, como limpeza automática de fotos.

3. Integração com o ChatGPT da OpenAI, entre outros.

O iPadOS 18.1 e o macOS Sequoia 15.1 também incorporaram novas funcionalidades da Apple Intelligence, mas atualmente estão disponíveis apenas para desenvolvedores Apple registrados que pagam $99 por ano.

No artigo publicado hoje, a Apple revelou seus ### dois modelos de base Apple (Apple Foundation Model, abreviado como "AFM").

Link do artigo: https://machinelearning.apple.com/papers/apple_intelligence_foundation_language_models.pdf

Um é o ### modelo de dispositivo com 3 bilhões de parâmetros ### AFM-on-device, otimizado para funcionar eficientemente em iPhones e outros dispositivos; o outro é o modelo de servidor ### AFM-server, cujos parâmetros ainda não foram divulgados.

O relatório pela primeira vez interpreta a ### arquitetura do modelo, dados de treinamento, processo de treinamento, otimização de inferência e resultados de avaliação do AFM, e menciona que o treinamento do modelo por trás usou um total de ### 10.240 TPUs do Google, sem mencionar GPUs da NVIDIA.

De acordo com a descrição do artigo, o modelo de IA próprio da Apple ### supera o GPT-4 em testes de ### seguimento de instruções e resumo de texto.

I. Estreia da IA da Apple: Siri "transformada", escrita aprimorada com um clique

Desta vez, as funcionalidades da Apple Intelligence lançadas na versão beta para desenvolvedores do iOS 18.1 cobrem principalmente Siri, ferramentas de escrita, resumo de e-mails, busca de fotos em linguagem natural e outros aspectos.

1. Toda a tela acende com um halo, Siri se transforma

A mudança na Siri começa com uma nova aparência, substituindo o ponto de luz circular anterior na tela por uma luz brilhante ao redor da tela para indicar que o assistente está ativo.

Quando os desenvolvedores não querem falar em voz alta com a Siri, podem alternar de comandos de voz para digitação: basta tocar duas vezes na parte inferior da tela do iPhone ou iPad para abrir o teclado para inserir consultas e comandos da Siri.

A Siri agora pode entender o contexto de múltiplos comandos. Por exemplo, os desenvolvedores podem pedir à Siri para criar um evento e depois pedir para criar um lembrete sem repetir o que foi dito anteriormente.

2. Ferramentas de escrita lançadas, aprimoramento de frases, resumo de e-mails

As ferramentas de escrita são um grande destaque da Apple Intelligence, permitindo que os desenvolvedores recebam sugestões sobre tom e fraseologia, corrijam textos e resumam pontos principais.

A funcionalidade de transcrição de áudio também já pode ser experimentada, com transcrição de áudio integrada no aplicativo Notas de Voz e no aplicativo Notas na versão beta para desenvolvedores do iOS 18.1.

As funcionalidades de escrita estão disponíveis tanto para aplicativos integrados dos dispositivos Apple quanto para aplicativos de terceiros que usam o sistema padrão de entrada de texto.

O aplicativo de e-mail agora identifica inteligentemente e-mails prioritários e exibirá uma janela flutuante de lembrete no topo da caixa de entrada para lembrar os desenvolvedores de prazos específicos ou evitar que esqueçam itens de ação importantes.

Além disso, a nova versão suporta um modo de foco chamado "Reduzir Interrupções", que usará IA para identificar e filtrar notificações importantes.

3. Busca de fotos por linguagem natural, geração de vídeos curtos por IA

Os desenvolvedores já podem usar linguagem natural para encontrar vídeos e fotos. Por exemplo, ao consultar "fotos da minha filha comendo um cheeseburger", a Apple fornecerá os resultados de busca correspondentes. Isso deve facilitar a localização de imagens específicas ou momentos exatos em vídeos, sem a necessidade de usar palavras-chave mais genéricas.

A nova funcionalidade de memórias de filmes permite que os desenvolvedores insiram prompts específicos para criar filmes usando fotos e vídeos armazenados no aplicativo Fotos.

Os desenvolvedores podem inserir seus próprios prompts ou usar prompts sugeridos pela Apple Intelligence para gerar filmes inteligentes com capítulos e temas claros.

Essas funcionalidades da Apple Intelligence que já foram lançadas ainda têm algumas limitações de uso.

Atualmente, a Apple Intelligence está disponível apenas para desenvolvedores Apple registrados que pagam $99 por ano, incluindo três versões para iOS, iPad e Mac. Os desenvolvedores precisam definir a região do dispositivo para os Estados Unidos e o idioma para inglês americano.

Além disso, relatórios anteriores de junho mencionaram que a Apple Intelligence requer dispositivos com iPhone 15 Pro, iPhone 15 Pro Max ou iPad e Mac com M1 ou configurações superiores.

II. Artigo de 47 páginas interpreta o modelo de IA da Apple, superando o GPT-4 em testes de resumo de texto e outros

Comparado aos telefones com IA atuais de várias empresas, uma grande característica do modelo próprio da Apple é o lançamento de um modelo de dispositivo que funciona no próprio aparelho.

De acordo com o artigo mais recente publicado pela Apple hoje, esse modelo de dispositivo é chamado AFM-on-device e contém cerca de 3 bilhões de parâmetros, muito menor que os modelos de centenas de bilhões de parâmetros de empresas como OpenAI e Meta.

Para executar tarefas mais complexas, a Apple também desenvolveu um modelo de servidor chamado AFM-server. Embora o tamanho específico ainda não tenha sido revelado, ele visa funcionar na infraestrutura de nuvem da Apple usando um sistema chamado "Computação em Nuvem Privada" para proteger os dados dos usuários.

Como mostrado na imagem abaixo, o AFM-on-device superou modelos de código aberto como Phi-3-mini, Mistral-7B e Gemma-2B em testes humanos, aproximando-se do nível do Llama-3-8B.

O AFM-server superou modelos de código fechado como Llama-3-70B, Mixtral-8x22B e GPT-3.5 em testes humanos, aproximando-se das capacidades do GPT-4.

Ao mesmo tempo, em termos de seguimento de instruções, o AFM-server superou o GPT-4 em testes, enquanto o AFM-on-device superou modelos de código aberto como Llama-3-8B e Phi-3-mini.