Université Libre De Bruxelles

Université Libre de Bruxelles Faculté de Sciences appliquées Service des Systèmes Logiques et Numériques Implémentation des filtres non-linéaires de rang sur des architectures universelles et reconfigurables Dragomir Milojevic Promoteur : Prof. Philippe Van Ham Travail présenté en vue de l'obtention du titre de Docteur en Sciences Appliquées Année Académique 2003-2004 Remerciements Je tiens a` remercier plus particulièrement le Prof. Philippe Van Ham pour ses conseils, pour son soutien et surtout pour ce gout^ du savoir qu'il a réussi a` me faire partager. Un grand merci également au Prof. Nadine Warzée, pour son soutien, son efficacité et pour sa grande disponibilité. Je remercie également : Le Prof. Marc Acheroy et les membres du SIC de l'Ecole´ Royale Militaire avec lesquels j'ai eu l'opportunité de faire de la recherche appliquée dans un but huma- nitaire et de réaliser des expériences pas comme les autres. Le Prof. Eduardo Sanchez pour son accueil au sein du Laboratoire des Systèmes Logiques de l'EPFL et pour ce séjour inoubliable a` Lausanne. Les Prof. Pierre Mathys, Prof. Marcel Dotrimont, Prof. Patrick Merken pour avoir accepter de faire partie de mon jury. Un tout grand merci a` Frédéric Robert qui a pu trouver un moment pour me lire et pour m'encourager. Je tiens a` remercier aussi tous les membres de l'équipe du laboratoire des Systèmes Logiques et Numériques avec qui j'ai partagé beaucoup plus que le quotidien : prof. Jean Florine, Christophe De Hauwer (¸ca va être vite fait), Olivier Debeir (on va mettre encore une couje), Serge Joris (ma biche), Don Patrick Bischop (vive la Westmalle), Xavier Baele (le thé vert au jasmin est dans mon tiroir), Claude Verbeek (Led Zep a` 7h du matin annoncent une belle journée), Constant Hubert (il n'y a qu'un ampli a` lampes qui sonne bien), Denis Haumont, Laurent Mundeleer, Cédric Laugerotte, Thierry Leloup et tous les autres ... Merci a` Bill, Ella, Sarah, Billie, Isao, Eva, Patricia, et les autres de m'avoir accompagné a` tout moment. Enfin je tiens a` remercier ma Julie, pour son amour, pour sa patience et pour la volonté qu'elle a eue de corriger mon mauvais fran¸cais entre les bains de Dora et Sasha et ses dossiers des réfugiés Rwandais. Table des matières Résumé 1 Abstract 1 1 Introduction 5 1.1 Présentation générale . 5 1.2 Contenu et contributions . 8 1.2.1 Contenu . 8 1.2.2 Contributions . 9 1.3 Traitement . 10 1.3.1 Images et transformations . 10 1.3.1.1 Notations . 10 1.3.1.2 Transformations ponctuelles . 12 1.3.1.3 Transformations spatiales . 12 1.3.2 Filtres non-linéaires . 13 1.3.2.1 Classification . 13 1.3.2.2 Filtres non-linéaires de Classe I . 14 1.3.2.3 Filtres non-linéaires de Classe II . 18 1.3.2.4 Exemples d'application des filtres non-linéaires . 20 1.4 Machine . 23 1.4.1 Historique . 23 1.4.2 Classification des architectures . 27 1.4.2.1 Taxinomies des architectures universelles . 27 1.4.2.2 Taxinomies des architectures dédicacées . 31 1.4.2.3 Taxinomies des architectures selon la configurabilité . 32 1.5 Performance . 33 1.5.1 Performance du matériel . 33 1.5.1.1 Paramètres classiques . 34 1.5.1.2 Paramètre commun . 35 1.5.2 Performance d'une application . 37 1.5.2.1 Temps d'exécution . 37 1.5.2.2 Accélération . 37 1.5.2.3 Mesure spécifique pour le traitement d'images . 38 i Table des matières 2 Architecture universelle 39 2.1 Parallélisme des architectures universelles . 40 2.1.1 Parallélisme intra-processeur . 40 2.1.1.1 Parallélisme des instructions . 40 2.1.1.2 Problèmes liés a` l'exploitation du parallélisme des instructions 45 2.1.1.3 Parallélisme des données . 48 2.1.2 Parallélisme inter-processeur . 49 2.1.2.1 Parallélisme des systèmes a` mémoire partagée . 49 2.1.2.2 Parallélisme des systèmes a` mémoire repartie . 52 2.1.3 Processeurs actuels . 52 2.1.4 Architectures universelles ciblées . 53 2.1.4.1 Architecture standard . 53 2.1.4.2 Extensions . 55 2.1.4.3 Différences entre Pentium 2 et Pentium 4 . 57 2.1.4.4 Performance de la mémoire . 57 2.1.5 Exploitation des différents niveaux de parallélisme . 58 2.1.5.1 Accès au parallélisme intra-processeur . 58 2.1.5.2 Accès au parallélisme inter-processeur . 60 2.2 Exploitation de l'architecture standard . 62 2.2.1 Implémentation de filtre de rang généralisé . 63 2.2.1.1 Tri a` bulle (Bubble sort) . 63 2.2.1.2 Tri par sélection (Selection sort) . 63 2.2.1.3 Tri par insertion (Insertion sort) . 64 2.2.1.4 Tri rapide (Quicksort) . 64 2.2.1.5 Tri par fusion (Merge sort) . 66 2.2.1.6 Tri par tas (Heap Sort) . 67 2.2.1.7 Tri par classement (Bucket sort) . 67 2.2.2 Implémentation des filtres spécifiques . 70 2.2.3 Conclusion . 70 2.3 Exploitation de parallélisme intra-processeur . 73 2.3.1 Librairie de traitement des images Intel . 74 2.3.2 Programmation des extensions : filtres spécifiques Min/Max . 74 2.3.2.1 Description générale de l'algorithme . 74 2.3.2.2 Parcours horizontal . 80 2.3.2.3 Parcours vertical . 82 2.3.2.4 Analyse a` l'aide de VTune . 83 2.3.3 Programmation des extensions : filtre Médian . 85 2.3.4 Programmation des extensions : filtre d'un rang quelconque . 86 2.3.5 Filtres dérivés et/ou la cha^ıne de traitement . 86 2.3.6 Filtre de rang généralisé . 86 2.4 Exploitation du parallélisme inter-processeur . 88 2.4.1 Exécution sur deux processeurs . 88 2.5 Conclusion . 90 ii Table des matières 3 Architectures dédicacées 91 3.1 Circuits FPGAs . 92 3.1.1 Architecture . 92 3.1.1.1 Description générale . 92 3.1.1.2 Ressources typiques des FPGAs actuels . 93 3.1.2 Implémentation des circuits logiques dans les FPGA . 95 3.1.2.1 Processus d'implémentation . 95 3.1.2.2 Perspectives de la description des circuits . 97 3.1.2.3 Efficacité des outils actuels d'implémentation . 98 3.1.3 Applications des FPGAs . 100 3.2 Parallélisation du calcul des filtres non-linéaires . 101 3.2.1 Classification des algorithmes et des architectures existants . 101 3.2.2 Architectures matricielles . 104 3.2.2.1 Mode bit-série . 104 3.2.2.2 Mode bit-parallèle . 105 3.2.3 Réseaux de tri . 106 3.2.4 Architectures bit-série . 109 3.2.4.1 Algorithme pour le filtre de rang . 109 3.2.4.2 Cas particulier de filtre médian . 111 3.2.4.3 Généralisation de l'algorithme pour les filtres Min/Max . 114 3.2.4.4 Généralisation pour les autres filtres non-linéaires . 115 3.2.5 Architectures dédiées aux filtres de piles . 116 3.3 Conclusion . 118 3.3.1 Performance des systèmes dédicacés existants . 118 3.3.2 Remarques . 119 3.3.2.1 Remarques générales . 119 3.3.2.2 Remarques spécifiques a` l'architecture . 120 3.3.3 Objectifs . 122 4 Architecture reconfigurable 123 4.1 Description globale du système dédicacé reconfigurable . 126 4.1.1 Introduction . 126 4.1.2 Parties constitutives . 127 4.1.2.1 Partie traitement . 128 4.1.2.2 Mémoire globale . 129 4.1.2.3 Unité de contrôle . 131 4.1.3 Hypothèses de travail . 132 4.2 Mémoire locale des unités de traitement . 133 4.2.1 Description de la mémoire locale source . 133 4.2.2 Description de la mémoire locale destination . 138 4.2.3 Validation de la description . 139 4.2.4 Implémentation . 141 4.2.5 Discussion . 143 4.3 Unités de traitement . 144 4.3.1 Algorithmes . 144 4.3.1.1 Algorithme Max . 144 4.3.1.2 Algorithme Min . 146 iii Table des matières 4.3.1.3 Algorithme pour le filtre généralisé . 146 4.3.2 Description de l'unité de traitement pour les filtres Max/Min . 149 4.3.3 Description de l'unité de traitement pour le filtre de rang généralisé . 153 4.3.3.1 Algorithme d'élimination successives des maxima/minima lo- caux . 153 4.3.3.2 Algorithme de Danielsson . 154 4.3.4 Validation de la description . 156 4.3.5 Implémentation . ..

Université Libre De Bruxelles

Implementing Elliptic Curve Cryptography (A Narrow Survey)

Computer Architectures an Overview

2 the VIS Instruction Set Pdist Instruction

SIMD-Swift: Improving Performance of Swift Fault Detection

Ultrasparc T1™ Supplement to the Ultrasparc Architecture 2005

Idisa+: a Portable Model for High Performance Simd Programming

HPC-Event-Return-Of-Vector-20160801

Université Batna 2 – Mostefa Ben Boulaïd Thèse Doctorat En

10Th Gen Intel® Core™ Processor Families Datasheet, Vol. 1

SPARC Assembly Language Reference Manual

SPARC M7™ Supplement to the Oracle SPARC Architecture 2015

ASIC DESIGN of the OPENSPARC T1 PROCESSOR CORE By