Découvrez des millions d'e-books, de livres audio et bien plus encore avec un essai gratuit

Seulement $11.99/mois après la période d'essai. Annulez à tout moment.

Traitement d'image pyramidale: Explorer les profondeurs de l'analyse visuelle
Traitement d'image pyramidale: Explorer les profondeurs de l'analyse visuelle
Traitement d'image pyramidale: Explorer les profondeurs de l'analyse visuelle
Livre électronique136 pages1 heure

Traitement d'image pyramidale: Explorer les profondeurs de l'analyse visuelle

Évaluation : 0 sur 5 étoiles

()

Lire l'aperçu

À propos de ce livre électronique

Qu'est-ce que le traitement d'image pyramidal


La pyramide, ou représentation pyramidale, est un type de représentation de signal multi-échelle développé par les communautés de vision par ordinateur, de traitement d'image et de traitement du signal, dans lequel un signal ou une image est soumis à un lissage et un sous-échantillonnage répétés. La représentation pyramidale est un prédécesseur de la représentation à l'échelle de l'espace et de l'analyse multirésolution.


Comment vous en bénéficierez


(I) Informations et validations sur les sujets suivants :


Chapitre 1 : Pyramide (traitement d'image)


Chapitre 2 : Transformation de caractéristiques invariantes d'échelle


Chapitre 3 : Filtre de Gabor


Chapitre 4 : Espace à l'échelle


Chapitre 5 : Flou gaussien


Chapitre 6 : Caractéristique (vision par ordinateur)


Chapitre 7 : Différence des gaussiennes


Chapitre 8 : Détection des coins


Chapitre 9 : Tenseur de structure


Chapitre 10 : Décalage moyen


(II) Répondre aux principales questions du public sur le traitement d'images pyramidales .


(III) Exemples concrets d'utilisation du traitement d'images pyramidales dans de nombreux domaines.


À qui s'adresse ce livre


Professionnels, étudiants de premier cycle et des cycles supérieurs, passionnés, amateurs et ceux qui souhaitent aller au-delà des connaissances ou des informations de base pour tout type de traitement d'image pyramidal.


 


 

LangueFrançais
Date de sortie11 mai 2024
Traitement d'image pyramidale: Explorer les profondeurs de l'analyse visuelle

En savoir plus sur Fouad Sabry

Auteurs associés

Lié à Traitement d'image pyramidale

Titres dans cette série (100)

Voir plus

Livres électroniques liés

Intelligence (IA) et sémantique pour vous

Voir plus

Articles associés

Avis sur Traitement d'image pyramidale

Évaluation : 0 sur 5 étoiles
0 évaluation

0 notation0 avis

Qu'avez-vous pensé ?

Appuyer pour évaluer

L'avis doit comporter au moins 10 mots

    Aperçu du livre

    Traitement d'image pyramidale - Fouad Sabry

    Traitement d'image pyramidal

    Explorer les profondeurs de l'analyse visuelle

    Fouad Sabry est l'ancien responsable régional du développement commercial pour les applications chez Hewlett Packard pour l'Europe du Sud, le Moyen-Orient et l'Afrique. Fouad est titulaire d'un baccalauréat ès sciences des systèmes informatiques et du contrôle automatique, d'une double maîtrise, d'une maîtrise en administration des affaires et d'une maîtrise en gestion des technologies de l'information de l'Université de Melbourne en Australie. Fouad a plus de 25 ans d'expérience dans les technologies de l'information et de la communication, travaillant dans des entreprises locales, régionales et internationales, telles que Vodafone et des machines commerciales internationales. Actuellement, Fouad est un entrepreneur, auteur, futuriste, axé sur les technologies émergentes et les solutions industrielles, et fondateur de l'initiative One billion knowledge.

    Un milliard de connaissances

    Traitement d'image pyramidal

    Explorer les profondeurs de l'analyse visuelle

    Fouad Sabry

    Copyright

    Traitement d'image © pyramidal 2024 par Fouad Sabry. Tous droits réservés.

    Aucune partie de ce livre ne peut être reproduite sous quelque forme que ce soit ou par quelque moyen électronique ou mécanique que ce soit, y compris les systèmes de stockage et de récupération d'informations, sans l'autorisation écrite de l'auteur. La seule exception est celle d'un critique, qui peut citer de courts extraits dans une critique.

    Couverture conçue par Fouad Sabry.

    Bien que toutes les précautions aient été prises dans la préparation de ce livre, les auteurs et les éditeurs n'assument aucune responsabilité pour les erreurs ou omissions, ou pour les dommages résultant de l'utilisation des informations contenues dans ce livre.

    Table des matières

    Chapitre 1 : Pyramide (traitement d'image)

    Chapitre 2 : Transformation de caractéristique invariante à l'échelle

    Chapitre 3 : Filtre de Gabor

    Chapitre 4 : Espace de mise à l'échelle

    Chapitre 5 : Flou gaussien

    Chapitre 6 : Fonctionnalité (vision par ordinateur)

    Chapitre 7 : Différence des gaussiennes

    Chapitre 8 : Détection des coins

    Chapitre 9 : Tenseur de structure

    Chapitre 10 : Décalage moyen

    Appendice

    À propos de l'auteur

    Chapitre 1 : Pyramide (traitement d'image)

    La représentation pyramidale, ou pyramide en abrégé, est une sorte de représentation de signal multi-échelle mise au point par des chercheurs dans les domaines de la vision par ordinateur, du traitement d'images et du traitement du signal. Avant la représentation de l'espace d'échelle et l'analyse multirésolution, il y avait la représentation pyramidale.

    Les pyramides peuvent être divisées en deux grandes catégories : passe-bas et passe-bande.

    Après avoir appliqué le filtre de lissage nécessaire à l'image, une pyramide passe-bas est créée en sous-échantillonnant le résultat d'un facteur 2 dans les directions horizontale et verticale. L'image résultante est traitée de la même manière une fois de plus, et ce cycle est répété plusieurs fois. Après plusieurs itérations, la taille de l'image diminue, le lissage s'améliore, mais la densité d'échantillonnage spatial diminue (c'est-à-dire une résolution d'image réduite). Visuellement, la représentation globale multi-échelle ressemble à une pyramide, avec l'image originale à la base et les images plus petites produites par des cycles successifs superposées.

    Pour permettre le calcul des différences au pixel près, une pyramide passe-bande est construite en créant la différence entre les images à des niveaux consécutifs de la pyramide et en effectuant une interpolation d'image entre des niveaux de résolution adjacents.

    Pour la génération pyramidale, de nombreux noyaux de lissage ont été proposés. Les processeurs plus puissants d'aujourd'hui permettent d'utiliser des filtres gaussiens plus grands pris en charge comme noyaux de lissage dans les processus de création de pyramides.

    Les photos suivantes d'une pyramide gaussienne sont réduites et pondérées à l'aide d'une moyenne gaussienne (flou gaussien). Chaque pixel de voisinage dans les niveaux inférieurs de la pyramide est représenté par un pixel avec une moyenne locale. Cette méthode est largement utilisée dans le domaine de la synthèse de textures.

    Semblable à une pyramide gaussienne, une pyramide laplacienne stocke également l'image de différence entre chaque degré de flou. Afin de reconstruire l'image haute résolution à partir des photos différentes des niveaux supérieurs, seul le niveau le plus bas n'est pas une image différente. Les images peuvent être compressées à l'aide de cette méthode.

    Simoncelli et d'autres ont inventé la pyramide orientable, qui est une banque de filtres passe-bande multi-échelles et multi-orientations utilisée dans la compression d'images, la génération de textures et la détection d'objets. Elle est similaire à une pyramide laplacienne, mais au lieu d'utiliser un seul filtre laplacien ou gaussien à chaque niveau, une banque de filtres orientables est utilisée.

    Les pyramides étaient la principale représentation multi-échelle utilisée dans les débuts de la vision par ordinateur pour générer des attributs d'image multi-échelles à partir de données d'image brutes. Certains chercheurs privilégient la représentation de l'espace d'échelle en raison de son fondement théorique, de sa capacité à découpler l'étape de sous-échantillonnage de la représentation multi-échelle, d'outils d'analyse théorique plus robustes et de la capacité de calculer une représentation à n'importe quelle échelle souhaitée, évitant ainsi les problèmes algorithmiques de relier les représentations d'images à différentes résolutions. Les pyramides ne sont plus aussi populaires qu'elles l'étaient autrefois, mais elles sont néanmoins largement utilisées pour transmettre des approximations efficaces en termes de calcul à la représentation de l'espace d'échelle.

    Les pyramides laplaciennes permettent d'amplifier ou de réduire les détails à différentes échelles en ajoutant ou en supprimant des niveaux de l'image source. Cependant, il est bien connu que ce type de manipulation des détails entraîne souvent des erreurs de halo, ce qui incite à la création d'alternatives comme le filtre bilatéral.

    L'algorithme Adam7, ainsi que d'autres techniques d'entrelacement, est utilisé dans certains formats de fichiers de compression d'images. Ceux-ci peuvent être considérés comme une forme pyramidale pour les visuels. Un fichier peut prendre en charge plusieurs résolutions de visionneuse, plutôt que d'avoir à stocker ou à générer un fichier différent pour chaque résolution, grâce à la façon dont ces formats de fichiers stockent d'abord les caractéristiques « à grande échelle » et les détails fins plus tard dans le fichier. Cela permet à un spectateur spécifique affichant une petite « vignette » ou sur un petit écran de télécharger rapidement juste assez de l'image pour l'afficher dans les pixels disponibles.

    {Fin du chapitre 1}

    Chapitre 2 : Transformation de caractéristique invariante à l'échelle

    David Lowe a développé la transformation de caractéristiques invariantes à l'échelle (SIFT) en 1999 en tant qu'algorithme de vision par ordinateur pour localiser, caractériser et faire correspondre des caractéristiques locales dans des images. La reconnaissance d'objets, la cartographie et la navigation robotiques, l'assemblage d'images, la modélisation tridimensionnelle, la reconnaissance gestuelle, le suivi vidéo, l'identification individuelle de la faune et la mise en relation ne sont que quelques-unes des nombreuses utilisations possibles de cette technologie.

    Les points clés SIFT d'objet sont d'abord extraits d'un ensemble d'images d'entraînement.

    Il est possible de créer une « description de caractéristique » de n'importe quel objet d'une image en isolant les points clés de cet objet. Lorsque vous essayez de localiser un objet dans une image de test avec de nombreux autres objets, cette description peut être utilisée car elle a été extraite d'une image d'entraînement. Les caractéristiques extraites de l'image d'entraînement doivent être discernables malgré les variations d'échelle de l'image, du bruit et de l'éclairage si l'on veut obtenir une reconnaissance fiable. Ces taches se trouvent généralement sur les bords de l'image ou d'autres zones à contraste élevé.

    De plus, ces caractéristiques doivent conserver les mêmes positions relatives d'une image à l'autre, comme elles l'ont fait dans la scène originale. Si seuls les quatre coins d'une porte étaient utilisés comme caractéristiques, la reconnaissance réussirait, que la porte soit ouverte ou fermée. Cependant, si des points dans la base étaient également utilisés, la reconnaissance échouerait dans les deux cas. De même, s'il y a un changement

    Vous aimez cet aperçu ?
    Page 1 sur 1