Models 3D de vista múltiple a partir de fotografies 2D
Un equip d'investigadors que treballa amb la divisió DeepMind de Google a Londres han desenvolupat el que descriuen com una Xarxa de Consulta de Generació (GQN), que permet que un ordinador creï un model 3-D d'una escena de fotografies en 2D i que es puguin veure des de diferents angles. En el seu article publicat a la revista Science, l'equip descriu el nou tipus de sistema de xarxa neuronal i el que representa. També ofereixen una anàlisi més personal del seu projecte en una publicació al seu lloc web. Matthias Zwicker, amb la Universitat de Maryland, ofereix una perspectiva sobre el treball realitzat per l'equip en el mateix número de la revista.
En informàtica, els grans salts en l'enginyeria de sistemes poden semblar petits a causa de la simplicitat aparent dels resultats: no és fins que algú aplica els resultats, quan el gran salt és veritablement reconegut. Aquest va ser el cas, per exemple, quan van començar a aparèixer els primers sistemes que es van poder escoltar, sobre el que una persona diu i el significat que s'extreu d'aquest.
En les aplicacions informàtiques tradicionals, incloses les xarxes del deep learning, una computadora s'ha d'alimentar amb moltes dades per comportar-se com si hagués après alguna cosa. Aquest no és el cas del GQN, que només aprèn des de l'observació, com els infants humans.
El sistema pot observar una escena del món real, com ara blocs posats sobre una taula, i després recrear un model capaç de mostrar l'escena des d'altres àngels. Només quan es planteja el que ha de fer el sistema per arribar a aquests nous angles, la potencia real del sistema es fa patent. Ha de mirar l'escenari i inferir les característiques dels objectes closos que no es poden observar utilitzant només la informació del 2-D proporcionada per les càmeres. No hi ha radar ni cercador de profunditat, o imatges de quins blocs se suposa que semblen emmagatzemats en els seus bancs de dades. Tot el que s'ha de treballar, són les poques fotografies que pren.