Modelos Espaciais Grandes: O Impulso Crucial para Robôs Universais - Análise do Relatório Coatue

A tendência de corporificação da IA está em ascensão, inaugurando uma nova era para os robôs inteligentes.

O fundo de hedge global de topo Coatue lançou recentemente um importante relatório sobre "inteligência incorporada", intitulado "O Caminho para Robôs de Propósito Geral".

A Coatue acredita que os robôs de IA são uma força disruptiva e têm o potencial de se tornar uma das maiores ondas tecnológicas da história humana, merecendo muita atenção.

Este relatório tem muitos destaques, não apenas analisando detalhadamente os desafios enfrentados pelos robôs de IA no estágio atual, mas também fazendo previsões razoáveis sobre o desenvolvimento da indústria e oferecendo opiniões profissionais do ponto de vista do investimento. Seja você um investidor em tecnologia, um profissional de IA ou alguém interessado em robótica, vale a pena ler.

Abaixo, vou interpretar este grande relatório para vocês. O link para o relatório está no final do texto, e os interessados são bem-vindos para ler o original.

(1) O ideal é abundante, a realidade é crua

A indústria robótica pode ser uma das indústrias com a maior diferença entre demonstração e realidade.

Em 1961, o primeiro robô industrial nasceu na GM, usado na linha de produção de automóveis.

Após mais de 50 anos de desenvolvimento, as formas dos robôs se tornaram cada vez mais diversificadas, e os cenários funcionais também se enriqueceram, incluindo robôs aspiradores, robôs quadrúpedes, robôs humanoides, etc.

Historicamente, a taxa de penetração dos robôs tem aumentado linearmente.

Tomando os robôs industriais como exemplo, o número de robôs por 10.000 funcionários da manufatura aumentou de 53 em 2013 para 151 em 2022, com um CAGR de 12%.

Embora o desenvolvimento geral da indústria robótica seja estável e positivo, o desempenho de empresas específicas não tem sido tão satisfatório.

As empresas de robótica geralmente enfrentam dificuldades de comercialização, além de enormes despesas de capital iniciais, levando muitas empresas de robótica à falência em 2022-2023.

(2) Inteligência espacial, tornando possíveis robôs de propósito geral

A geração anterior de robôs era mais focada em executar certas tarefas únicas, como robôs aspiradores apenas para limpar, drones agrícolas apenas para irrigar campos, robôs industriais apenas para soldagem mecânica, etc.

Mas com o surgimento da inteligência generalizada de IA, a próxima geração de robôs tem o potencial de se tornar "robôs de propósito geral", capazes de lidar com uma variedade de tarefas e ambientes.

Assim como os modelos de linguagem grandes tornaram o raciocínio linguístico uma realidade, os modelos espaciais grandes têm o potencial de quebrar a quarta parede, permitindo que a IA realmente entenda o mundo físico e interaja com ele.

(3) O desafio central enfrentado pelos robôs: falta de dados de treinamento

Tarefas que são simples para os humanos podem não ser fáceis para os robôs.

Coatue deu três exemplos específicos.

Destreza:

Capacidade de percepção espacial:

Capacidade de recuperação de equilíbrio:

Para superar esses problemas, é necessário treinar com grandes quantidades de dados para tornar os robôs mais inteligentes.

Mas a robótica é um campo muito novo, com uma grave falta de acumulação de dados de treinamento.

Comparando os maiores conjuntos de dados em diferentes modalidades, a modalidade de texto tem cerca de 15T tokens, a modalidade de imagem tem 6B pares de imagem-texto, a modalidade de vídeo tem 2,6B características audiovisuais.

No entanto, a modalidade robótica tem apenas 2,4 milhões de segmentos de dados, o que é muito menos em comparação com outras modalidades.

(4) Quatro métodos de coleta de dados de treinamento para robôs

Dado que os dados são o gargalo central para o desenvolvimento de robôs, quais métodos podem ser usados para acumular rapidamente dados de treinamento para robôs?

Nos últimos anos, a pesquisa nesta área tem sido abundante, gradualmente formando quatro escolas de pensamento.

Método 1 de coleta de dados robóticos: Teleoperação

Como o nome sugere, os experimentadores operam controles mecânicos para controlar remotamente os robôs para fazer os mesmos movimentos, acumulando assim dados.

Método 2 de coleta de dados robóticos: RA

Em um estudo chamado "Treinamento e Cooperação Humano-Robô Explicável com Realidade Aumentada", os pesquisadores usaram tecnologia de RA (Realidade Aumentada) para tornar o processo de interação humano-robô mais explicável, acumulando assim dados.

Método 3 de coleta de dados robóticos: Simulação

Através de cálculos de simulação massivos usando poder computacional, conjuntos de dados de treinamento robótico massivos são calculados.

A simulação pode ser atualmente o caminho mais provável para a geração de dados em escala, exigindo enorme poder computacional de suporte.

Atualmente, a equipe de Jim Fan da Nvidia está seguindo este caminho tecnológico.

Método 4 de coleta de dados robóticos: Aprendizagem por vídeo

Através de modelos multimodais grandes, os robôs aprendem diretamente ações humanas através de vídeos, acumulando assim dados de treinamento.

(5) O cruzamento dourado entre o custo dos robôs e os salários humanos

Com a queda no custo das GPUs, o custo de treinamento de grandes modelos diminuiu significativamente.

No último ano, o preço de aluguel da placa gráfica A100 na plataforma Azure Cloud caiu de 6 dólares por hora para 1,5 dólares por hora, uma redução de 75%.