Réseau neuronal résidueldroite|vignette| Forme canonique d'un réseau neuronal résiduel. Une couche l − 1 est ignoré sur l'activation de l − 2. Un réseau neuronal résiduel ( ResNet ) est un réseau neuronal artificiel (ANN). Il s'agit d'une variante du HighwayNet , le premier réseau neuronal à action directe très profond avec des centaines de couches, beaucoup plus profond que les réseaux neuronaux précédents. Les sauts de connexion ou "raccourcis" sont utilisés pour passer par-dessus certaines couches ( les HighwayNets peuvent également avoir des poids pour les saut eux-mêmes, grâce à une matrice de poids supplémentaire pour leurs portes).
Réseau de neurones récurrentsUn réseau de neurones récurrents (RNN pour recurrent neural network en anglais) est un réseau de neurones artificiels présentant des connexions récurrentes. Un réseau de neurones récurrents est constitué d'unités (neurones) interconnectées interagissant non-linéairement et pour lequel il existe au moins un cycle dans la structure. Les unités sont reliées par des arcs (synapses) qui possèdent un poids. La sortie d'un neurone est une combinaison non linéaire de ses entrées.
Text-to-image modelA text-to-image model is a machine learning model which takes an input natural language description and produces an image matching that description. Such models began to be developed in the mid-2010s, as a result of advances in deep neural networks. In 2022, the output of state of the art text-to-image models, such as OpenAI's DALL-E 2, Google Brain's , StabilityAI's Stable Diffusion, and Midjourney began to approach the quality of real photographs and human-drawn art.
Recherche d'image par le contenuLa recherche d'image par le contenu (en anglais : content-based image retrieval ou CBIR) est une technique permettant de rechercher des images à partir de ses caractéristiques visuelles, c'est-à-dire induite de leurs pixels. Les images sont classiquement décrites comme rendant compte de leur texture, couleur, forme. Un cas typique d'utilisation est la recherche par l'exemple où l'on souhaite retrouver des images visuellement similaires à un exemple donné en requête.
Pose (computer vision)In the fields of computing and computer vision, pose (or spatial pose) represents the position and orientation of an object, usually in three dimensions. Poses are often stored internally as transformation matrices. The term “pose” is largely synonymous with the term “transform”, but a transform may often include scale, whereas pose does not. In computer vision, the pose of an object is often estimated from camera input by the process of pose estimation.
Texture filteringIn computer graphics, texture filtering or texture smoothing is the method used to determine the texture color for a texture mapped pixel, using the colors of nearby texels (pixels of the texture). There are two main categories of texture filtering, magnification filtering and minification filtering. Depending on the situation texture filtering is either a type of reconstruction filter where sparse data is interpolated to fill gaps (magnification), or a type of anti-aliasing (AA), where texture samples exist at a higher frequency than required for the sample frequency needed for texture fill (minification).
Tensor Processing Unitvignette|Un Tensor Processing Unit 3.0 datant de mai 2016 Un Tensor Processing Unit (TPU, unité de traitement de tenseur) est un circuit intégré spécifique pour une application (ASIC), développé par Google spécifiquement pour accélérer les systèmes d'intelligence artificielle par réseaux de neurones. Les TPU ont été annoncés en 2016 au Google I/O, lorsque la société a déclaré les utiliser dans leurs centres de données depuis plus d'un an.
Perception de la profondeurLa perception de la profondeur est la capacité visuelle à percevoir le monde en trois dimensions. La perception de la profondeur et du relief se base sur différents types d'indices visuels qu'il est possible de classer en trois catégories : en premier lieu ceux qui dépendent du mouvement ; parmi les autres, ceux qui requièrent la vision binoculaire ; enfin, ceux perçus avec un seul œil. Les objets de l'environnement présentent en général plusieurs indices convergents sur leur position dans la profondeur de l'espace.
ImageNetImageNet est une base de données d'images annotées produit par l'organisation du même nom, à destination des travaux de recherche en vision par ordinateur. En 2016, plus de dix millions d'URLs ont été annotées à la main pour indiquer quels objets sont représentés dans l'image ; plus d'un million d'images bénéficient en plus de boîtes englobantes autour des objets. La base de données d'annotations sur des URL d'images tierces est disponible librement, ImageNet ne possédant cependant pas les images elles-mêmes.
Texture (image de synthèse)Dans le domaine de la , une texture est une image en deux dimensions (2D) que l'on va appliquer sur une surface (2D) ou un volume en trois dimensions (3D) de manière à habiller cette surface ou ce volume. En simplifiant, on peut l'assimiler à un papier peint très plastique et déformable que l'on applique en 3D en spécifiant la transformation géométrique que subit chaque pixel du papier pour s'appliquer sur l'élément 3D. Le pixel ainsi manipulé en 3D est appelé texel.