A Physical Intelligence, uma startup de robótica de San Francisco, anunciou que seu mais recente modelo de inteligência artificial (IA) permite que robôs executem tarefas para as quais não foram especificamente treinados. A empresa, que tem atraído grande atenção no Vale do Silício, publicou uma pesquisa demonstrando essa nova capacidade, que surpreendeu até mesmo seus próprios pesquisadores.
π0.7: Um passo rumo à IA robótica generalista
O novo modelo, denominado π0.7, representa um avanço significativo em direção ao objetivo de criar um cérebro robótico de uso geral. Esse sistema pode ser direcionado para tarefas desconhecidas, receber instruções em linguagem natural e executá-las com sucesso. Os resultados sugerem que a IA robótica pode estar atingindo um ponto de inflexão, semelhante ao que ocorreu com os modelos de linguagem, onde as capacidades se expandem de forma exponencial.
Generalização composicional: A chave para a inovação
A principal alegação da pesquisa é a generalização composicional, ou seja, a capacidade de combinar habilidades aprendidas em diferentes contextos para resolver problemas inéditos. Até agora, o treinamento de robôs se baseava na memorização de tarefas específicas, com modelos especializados para cada função. O π0.7 rompe com esse padrão, permitindo que os robôs adaptem seus conhecimentos para novas situações.
Escalabilidade promissora
Sergey Levine, cofundador da Physical Intelligence e professor da UC Berkeley, destaca que a capacidade do modelo de combinar habilidades de diferentes contextos resulta em uma escalabilidade mais favorável, semelhante ao que se observa em áreas como linguagem e visão.
Testando o modelo com uma fritadeira de ar
Uma demonstração notável envolveu o uso de uma fritadeira de ar, um aparelho com o qual o modelo tinha pouquíssimo contato durante o treinamento. A equipe de pesquisa encontrou apenas dois episódios relevantes no conjunto de dados: um em que um robô fechava a fritadeira e outro em que um robô colocava uma garrafa de plástico dentro dela. Apesar disso, o modelo conseguiu sintetizar essas informações, juntamente com dados da web, para compreender o funcionamento do aparelho.
Instruções verbais: Aprimorando o desempenho
Com instruções verbais passo a passo, o modelo conseguiu cozinhar uma batata doce na fritadeira de ar. Essa capacidade de receber instruções é crucial, pois permite que os robôs sejam utilizados em novos ambientes e aprimorados em tempo real, sem a necessidade de coletar dados adicionais ou retreinar o modelo.
Limitações e desafios
Os pesquisadores da Physical Intelligence reconhecem as limitações do modelo, como a dificuldade em executar tarefas complexas de várias etapas de forma autônoma. Eles também apontam a importância da qualidade das instruções fornecidas ao modelo, destacando que aprimorar a forma como a tarefa é explicada pode aumentar significativamente a taxa de sucesso.
Superando modelos especializados
A empresa comparou o desempenho do π0.7 com modelos especializados anteriores, que eram treinados para tarefas individuais. Os resultados mostraram que o modelo generalista conseguiu igualar o desempenho dos modelos especializados em diversas tarefas, como fazer café, dobrar roupa e montar caixas.
Surpresa com as capacidades do modelo
Um dos aspectos mais notáveis da pesquisa é a surpresa dos próprios pesquisadores com as capacidades do modelo. Ashwin Balakrishna, cientista da Physical Intelligence, relatou ter ficado genuinamente surpreso ao ver o robô realizar tarefas inesperadas, como girar um conjunto de engrenagens aleatório.
Investimento e avaliação da Physical Intelligence
A Physical Intelligence já levantou mais de US$ 1 bilhão em financiamento e foi avaliada em US$ 5,6 bilhões. A empresa está em negociações para uma nova rodada de financiamento que quase dobraria sua avaliação para US$ 11 bilhões, refletindo o grande interesse no potencial de sua tecnologia.
O desenvolvimento de um robô capaz de aprender e executar tarefas sem treinamento específico representa um avanço significativo na área da robótica e da inteligência artificial, abrindo caminho para aplicações mais versáteis e adaptáveis em diversos setores.


Deixe uma resposta