segunda-feira, 18 de junho de 2018

Nvidia cria tecnologia de vídeo em câmera lenta surpreendentemente suave


   O vídeo em câmera lenta é um pouco difícil de alcançar na maioria das câmeras comuns no mercado. Alguns telefones emblemáticos oferecem esse recurso , mas geralmente são limitados em tamanho, resolução ou taxa de quadros, e também são prejudicados pelo armazenamento limitado de dispositivos móveis para arquivos tão grandes.

   Por outro lado, a aplicação de efeitos de câmera lenta a vídeos gravados anteriormente geralmente produzirá resultados desagradáveis, com movimentos não naturais, como resultado do software tentando preencher os quadros do vídeo original. No entanto, a Nvidia, junto com pesquisadores da Universidade de Massachusetts e da Universidade da Califórnia, criou uma solução que poderia tornar possível transformar qualquer vídeo em um vídeo em câmera lenta sem sacrificar a suavidade da reprodução.



   A tecnologia, que será apresentada na edição deste ano da conferência Computer Vision e Pattern Referencing - que ocorre esta semana - conta com duas redes neurais convolucionais (CNN) que trabalham em conjunto para determinar onde os objetos estão se movendo entre os quadros e a posição. em que eles estarão nos quadros intermediários. VentureBeat descreve como as duas CNNs trabalham juntas:

  Uma rede neural convolucional (CNN) estima o fluxo ótico - o padrão de movimento dos objetos, superfícies e arestas na cena - tanto para frente quanto para trás na linha do tempo entre os dois quadros de entrada. Em seguida, ele prevê como os pixels se moverão de um quadro para outro, gerando o que é conhecido como um campo de fluxo - um vetor 2D de movimento previsto - para cada quadro, que se funde para aproximar um campo de fluxo para o quadro intermediário.

  Um segundo CNN então interpola o fluxo óptico, refinando o campo de fluxo aproximado e prevendo mapas de visibilidade para excluir pixels ocluídos por objetos no quadro e subsequentemente reduzir artefatos dentro e ao redor de objetos em movimento. Finalmente, o mapa de visibilidade é aplicado às duas imagens de entrada, e o campo de fluxo óptico intermediário é usado para distorcê-los de tal maneira que um quadro transite suavemente para o próximo.

   Os pesquisadores usaram as GPUs Nvidia Tesla V100 e a estrutura de aprendizagem profunda PyTorch acelerada pela cuDNN para treinar o sistema com 11.000 vídeos gravados a 240 quadros por segundo, após os quais ele poderia preencher os quadros ausentes no vídeo em câmera lenta.

   A tecnologia produz os resultados que você vê no vídeo acima, que parece surpreendentemente suave para um efeito gerado artificialmente, mesmo em vídeos com apenas 30 quadros por segundo. A empresa também trabalhou com o canal YouTube The Slow Mo Guys para testar a tecnologia em vídeos com altas taxas de quadros, como 240 quadros por segundo. Além disso, a tecnologia pode ser usada para reduzir a velocidade dos vídeos a qualquer momento, embora, presumivelmente, a desaceleração dos vídeos demore mais para preencher todos os quadros intermediários do vídeo.


   Por mais promissora que seja a tecnologia, a Nvidia não acredita que esteja pronta para o mercado consumidor, já que precisa de muita otimização antes de poder rodar em tempo real e, mesmo que chegue aos consumidores, a maior parte do processamento será tem que ser feito na nuvem. Com isso dito, a tecnologia é certamente interessante e poderia trazer vídeo em câmera lenta para muito mais pessoas em algum momento no futuro.