0

NVIDIA Research acelerou um novo mecanismo de deep learning que cria modelos de objetos 3D a partir de imagens 2D padrão e pode fazer carros icônicos, como o KITT com tecnologia fornecida por IA de A Super Máquina, se tornarem realidade no NVIDIA Omniverse.

Desenvolvida pelo NVIDIA Toronto Artificial Intelligence Lab, a aplicação GANverse3D converte imagens planas em modelos 3D realistas que podem ser visualizados e controlados em ambientes virtuais. O recurso pode ajudar arquitetos, criadores, desenvolvedores de games e designers a adicionarem novos objetos a maquetes com facilidade sem precisar de experiência em modelagem 3D ou um orçamento grande para gastar em renderizações.

É possível, por exemplo, transformar uma única foto de um carro em um modelo 3D funcional em uma cena virtual, com faróis, luzes traseiras e setas realistas.

Os pesquisadores usaram uma rede generativa adversarial (GAN — Generative Adversarial Network) para sintetizar imagens que mostram o mesmo objeto de várias perspectivas, como um fotógrafo que tira fotos de um automóvel estacionado de diferentes ângulos, e assim gerar um conjunto de dados para treinamento. Essas imagens de vários ângulos foram conectadas a um framework de renderização para gráficos inversos, o processo de inferência de modelos de malha 3D a partir de imagens 2D.

Depois de treinada com as imagens, a GANverse3D só precisa de uma imagem 2D para prever um modelo de malha 3D. O modelo pode ser usado com um renderizador neural 3D que oferece aos desenvolvedores o poder de personalizar objetos e trocar o plano de fundo.

Usada como uma extensão na plataforma NVIDIA Omniverse e executada em GPUs NVIDIA RTX, a GANverse3D pode ser usada para recriar imagens 2D em 3D, como o adorado carro de combate ao crime KITT, da famosa série de TV de 1980, A Super Máquina.

Os modelos anteriores para gráficos inversos usavam formas 3D como dados de treinamento. Em vez disso, “sem a ajuda de materiais 3D, transformamos um modelo de GAN em um gerador de dados muito eficiente para criar objetos 3D a partir de imagens 2D da Web”, afirma Wenzheng Chen, cientista de pesquisa da NVIDIA e principal responsável pelo projeto.

“Como o treinamento foi feito com imagens reais, diferentemente do pipeline comum, que se baseia em dados sintéticos, o modelo de IA generaliza melhor as aplicações reais”, declara Jun Gao, pesquisador da NVIDIA e um dos responsáveis pelo projeto.

“A cada inovação, percebemos novas possibilidades de uso para a IA que, no fim, irão facilitar o dia a dia dos seres humanos em tarefas operacionais que nós muitas vezes não temos capacidade de realizar em grande volume. Tornar imagens 2D em modelos 3D deixa a criação mais acessível e otimiza o tempo dos profissionais especializados, que poderão focar em outras questões”, explica Marcio Aguiar, diretor de NVIDIA Enterprise para América Latina.

pesquisa por trás da GANverse3D será apresentada em duas conferências futuras: a International Conference on Learning Representations, em maio, e a Conference on Computer Vision and Pattern Recognition, em junho.

Do pneu furado ao KITT de corrida

Criadores dos setores de games, arquitetura e design usam ambientes virtuais, como a plataforma de simulação e colaboração NVIDIA Omniverse, para testar novas ideias e visualizar protótipos antes de criar os produtos finais. Com os Omniverse Conectors, os desenvolvedores podem usar suas aplicações 3D favoritas no Omniverse para simular mundos virtuais complexos com ray tracing.

O problema é que nem todos os criadores têm tempo e recursos para criar modelos 3D de cada objeto esboçado. O custo de reunir um número suficiente de imagens de vários ângulos para renderizar o equivalente a uma frota inteira de carros ou a uma rua cheia de edifícios pode ser exorbitante. É aí que entram as aplicações treinadas, como a GANverse3D. Elas convertem imagens-padrão de um carro, de um prédio ou até mesmo de um cavalo em uma figura 3D que pode ser personalizada e animada no Omniverse.

Para recriar o KITT, os pesquisadores só precisaram inserir uma imagem do carro no modelo treinado, e a GANverse3D gerou uma malha com textura 3D correspondente, além de outras partes do automóvel, como rodas e faróis. Depois, eles usaram as ferramentas NVIDIA Omniverse Kit e NVIDIA PhysX para converter a textura gerada em materiais de alta qualidade que conferem ao KITT uma aparência mais realista e colocaram-na em uma sequência dinâmica de condução com outros carros.

“Com o Omniverse, os pesquisadores podem oferecer descobertas interessantes e de ponta diretamente para criadores e usuários finais. O uso da GANverse3D como extensão no Omniverse ajuda os profissionais a criar mundos virtuais mais sofisticados para o desenvolvimento de games, o planejamento de cidades ou até mesmo o treinamento de outros modelos de machine learning”, comenta Jean-Francois Lafleche, engenheiro de deep learning da NVIDIA.

GANs promovem mudança radical

Como os conjuntos de dados reais que capturam o mesmo objeto de ângulos diferentes são raros, a maioria das ferramentas de IA que convertem imagens 2D em 3D são treinadas com conjuntos de dados 3D sintéticos, como o ShapeNet.

Para obter imagens de várias perspectivas a partir de dados reais, como imagens de carros disponíveis publicamente na Web, os pesquisadores da NVIDIA recorreram a um modelo de GAN, manipulando as camadas da rede neural dele para transformá-lo em um gerador de dados.

A equipe observou que, quando abria as 4 primeiras camadas da rede neural e suspendia as outras 12, a GAN renderizava imagens do mesmo objeto de perspectivas diferentes. Já quando suspendiam as 4 primeiras camadas e variavam as outras 12, a rede neural gerava imagens diferentes a partir do mesmo ponto de vista. Ao atribuir manualmente ângulos-padrão, com automóveis retratados a uma elevação e uma distância da câmera específicas, os pesquisadores conseguiram gerar rapidamente um conjunto de dados de várias perspectivas a partir de imagens 2D individuais.

O modelo final, treinado com 55 mil imagens de carros geradas pela GAN, superou o desempenho de uma rede de gráficos inversos treinada com o famoso conjunto de dados Pascal3D.

Os interessados podem conferir o artigo completo da ICLR, escrito por Wenzheng Chen, Jun Gao e Huan Ling, pesquisadores da NVIDIA; Sanja Fidler, diretora do NVIDIA Toronto Artificial Intelligence Lab; Yuxuan Zhang, estudante da Universidade de Waterloo; Yinan Zhang, estudante da Universidade de Stanford; e Antonio Torralba, professor do MIT. Também contribuíram para a escrita do artigo da CVPR Jean-Francois Lafleche, o pesquisador da NVIDIA Kangxue Yin e Adela Barriuso.

A equipe de pesquisa na NVIDIA é formada por mais de 200 cientistas de todo o mundo especializados em áreas como IA, visão computacional, automóveis autônomos, robótica e gráficos.

Confira a apresentação do CEO da NVIDIA, Jensen Huang, no GPU Technology Conference, que ocorreu recentemente.

Knight Rider ©1982 Universal Television Enterprises, Inc. Fonte: Universal Studios Licensing LLC.

Sobre a NVIDIA

Com a invenção da GPU pela NVIDIA (NASDAQ: NVDA), em 1999, redefinimos os gráficos de computadores modernos e revolucionamos a computação paralela.

Mais recentemente, o deep learning com base em GPU deu início à inteligência artificial moderna — a próxima era da computação — com a GPU atuando como o cérebro dos computadores, robôs e carros autônomos que podem perceber e compreender o mundo. Saiba mais em http://nvidianews.nvidia.com/

Redação
Equipe de Redação

Investimento em hardware seminovo é alternativa sustentável para PMEs

Artigo Anterior

Golpes antigos que voltaram a crescer com o PIX; Saiba como se proteger!

Próximo Artigo

Veja também

Mais sobre Tecnologia