A Neural Model of Early Vision: Contrast, Contours, Corners and Surfaces
Total Page:16
File Type:pdf, Size:1020Kb
A Neural Model of Early Vision: Contrast, Contours, Corners and Surfaces Contributions toward an Integrative Architecture of Form and Brightness Perception Thorsten Hansen A University of Ulm Faculty of Computer Science Dept. of Neural Information Processing A Neural Model of Early Vision: Contrast, Contours, Corners and Surfaces Contributions toward an Integrative Architecture of Form and Brightness Perception A Neural Model of Early Vision: Contrast, Contours, Corners and Surfaces Contributions toward an Integrative Architecture of Form and Brightness Perception Thorsten Hansen aus Leer Dissertation zur Erlangung des Doktorgrades Dr. rer. nat. 2003 A University of Ulm Faculty of Computer Science Dept. of Neural Information Processing Dekan: Prof. Dr. G¨unther Palm Erster Gutachter: Prof. Dr. Heiko Neumann Zweiter Gutachter: Prof. Dr. G¨unther Palm Tag der Promotion: 22. September 2002 Abstract The thesis is concerned with the functional modeling of information processing in early and mid- level vision. The mechanisms can be subdivided into two systems, a system for the processing of discontinuities (such as contrast, contours and corners), and a complementary system for the representation of homogeneous surface properties such as brightness. For the robust processing of oriented contrast signals, a mechanism of dominating opponent inhi- bition (DOI) is proposed and integrated into an existing nonlinear simple cell model. We demon- strate that the model with DOI can account for physiological data on luminance gradient reversal. For the processing of both natural and artificial images we show that the new mechanism results in a significant suppression of responses to noisy regions, largely independent of the noise level. This adaptive processing is further examined by a stochastic analysis and numerical evaluations. We also show that contrast-invariant orientation tuning can be achieved in a purely feedforward model based on inhibition. DOI results in a sharpening of the tuning width of model simple cells which are in accordance with empirical findings. The results lead to the proposal of a new functional role of the dominant inhibition as observed empirically, namely to sharpen the orientation tuning and to allow for robust contrast processing under suboptimal, noisy viewing conditions. For the processing of contours, a model of recurrent colinear long-range interaction in V1 is pro- posed. The key properties of the model are excitatory long-range interactions between cells with colinear receptive fields, inhibitory unoriented short-range interactions and modulating feedback. In the model, initial noisy feedforward responses which are part of a more global contour are enhanced, while other responses are suppressed. We show for a number of artificial and natural images that the recurrent long-range processing results in a selective enhancement of coherent activity at contour locations. The competencies of the model are further quantitatively evaluated using two measures of contour saliency and orientation significance. The model also qualita- tively reproduces empirical data on surround suppression and facilitation. We further suggest and examine a model variant using early feedback of grouped responses, showing an even stronger enhancement of contour saliency compared to the standard model. These results may suggest a functional role for the layout of different feedback projections in V1. Regions of intrinsically 2D structures such as corners and junctions are important for both bio- logical and artificial vision systems. We propose a novel scheme for the robust and reliable repre- sentation and detection of junction points, where junctions are characterized by high responses at multiple orientations within an model hypercolumn. The recurrent long-range interaction results in a robust extraction of orientation information. A measurement of circular variance is used to detect and localize junctions. We show for a number of artificial and natural images that localiza- tion accuracy and positive correctness of the junction detection is improved compared to a purely feedforward computation of contour orientations. We also use ROC analysis to compare the new scheme with two other junction detector schemes based on Gaussian curvature and the structure tensor, showing that the new approach performs superior to the standard schemes. Brightness surfaces are reconstructed by a diffusive spreading or filling-in of sparse contrast mea- surements, which is locally controlled by contour signals. A mechanism of confidence-based filling- in is proposed, where a confidence measure ensures a robust selection of sparse contrast signals. We show that the model with confidence-based filling-in can generate brightness surfaces which are invariant against size and shape transformations and can also generate smooth brightness sur- faces even from noisy contrast data, in contrast to standard filling-in. The model can also account for psychophysical data on human brightness perception. We further suggest a new approach for the reconstruction of reference levels, where sparse contrast signals are modulated to carry an additional luminance component. We show for a number of test stimuli that the newly proposed scheme can successfully predict human brightness perception. Overall, we show that basic tasks in early vision can be robustly and efficiently implemented by biologically motivated mechanisms. This leads to a deeper understanding of the functional role of the particular mechanisms and provides the basis for practical applications in technical vision systems. Zusammenfassung Die Dissertation behandelt die Modellierung der Informationsverarbeitung bei der fr¨uhenvisuellen Wahrnehmung. The verschiedenen Mechanismen lassen sich zwei Systemen zuordnen: ein System zur Verarbeitung von Diskontinuit¨aten(Kontraste, Konturen, Ecken) und ein komplement¨ares System zur Repr¨asentation homogener Bereiche (Oberfl¨achen). Im Bereich der Kontrastverarbeitung wird motiviert durch empirische Daten ein Mechanismus der dominanten opponenten Inhibition (DOI) vorschlagen und in ein bestehendes nichtlineares sim- ple cell Modell integriert. Der neue Mechanismus erlaubt die Simulation experimentell gemessener Antworten auf Hell-dunkel-Balken. Bei der Verarbeitung von nat¨urlichen und synthetischen Bildern f¨uhrtder Mechanismus zu einer signifikanten Unterdr¨uckung von Rauschen, weitgehend unabh¨an- gig von der H¨ohedes Rauschlevels. Diese adaptive Verarbeitung wird in einer stochastischen Ana- lyse und in umfangreichen numerischen Evaluationen ausf¨uhrlich untersucht. Weiter wird gezeigt das kontrast-invariantes Orientierungstuning durch eine reine feedforward Verarbeitung realisiert werden kann. DOI f¨uhrtdabei zu einer Versch¨arfungder Tuningkurven in Ubereinstimmung¨ mit empirischen Daten. Aufgrund der Ergebnisse wird als eine neue funktionelle Rolle der empirisch beobachteten dominanten Inhibition die Versch¨arfungdes Orientierungstunings und die robuste Verarbeitung von orientierten Kontrastsignalen vorgeschlagen. Die Konturverarbeitung wird realisiert durch ein rekurrentes Modell langreichweitiger, kolinearer Verbindungen im prim¨arenvisuellen Kortex. Wesentliche Mechanismen sind exzitatorische lang- reichweitige Interaktionen zwischen Zellen mit kolinearen rezeptiven Feldern, inhibitorische orien- tierungsunspezifische kurzreichweitige Interaktionen und modulatorisches Feedback. In dem Mo- dell werden initiale, verrauschte feedforward Messungen durch modulatorisches Feedback verst¨arkt, wenn sie Teil einer zusammenh¨angendenKontur sind, andernfalls abgeschw¨acht. Diese Verst¨arkung koh¨arenter Konturaktivit¨atwird f¨ureine Reihe von nat¨urlichen und synthetischen Bildern gezeigt. Zur quantitativen Evaluierung der Modelleigenschaften wird ein Maß f¨urSalienz und Orien- tierungsvarianz verwendet. Das Modell erlaubt ausserdem die Reproduktion empirischer Daten zu Kontexteffekten. Weiter wird eine Modellvariante vorgeschlagen und untersucht, bei der eine fr¨uheR¨uckkopplung der gruppierten Kontursignale verwendet wird, was zu einer noch gr¨oßeren Verst¨arkungder Salienz von Konturen f¨uhrt. Regionen mit intrinsisch zweidimensionaler Struktur wie Ecken und Kreuzungspunkte spielen eine wichtige Rolle f¨urbiologische und artifizielle Sehsysteme. Wir schlagen ein neues Schema f¨ur die robuste Repr¨asentation und Detektion von Ecken und Kreuzungspunkten vor, basierend auf starken Antworten f¨urmehrere Orientierungen an einem Ort, d. h. innerhalb einer kortikalen Hy- perkolumne. Diese Orientierungsinformation kann robust durch rekurrente langreichweitige In- teraktionen generiert werden. Ausgehend von dieser Repr¨asentation wird ein Maß f¨urdie Orien- tierungsvarianz zur Detektion und Lokalisation der Kreuzungspunkte verwendet. Wir zeigen f¨ur synthetische und nat¨urliche Bilder, dass die Lokalisation und die positive Korrektheit durch die langreichweitige Interaktion verbessert wird, verglichen mit einer reinen feedforward Verarbeitung. Eine ROC Analyse zeigt eine bessere Detektionsleistung des neuen Verfahrens im Vergleich mit zwei anderen Verfahren, basierend auf Gaußscher Kr¨ummung und dem Strukturtensor. Helligkeitsoberfl¨achen werden durch eine laterale Diffusion von sp¨arlichen Kontrastsignalen rekon- struiert, deren Ausbreitung lokal durch Kontursignale geblockt wird. Durch einen Mechanismus des konfidenzbasierten Filling-in werden Positionen, an denen keine Kontrastsignale vorliegen, nicht als Eingabe f¨urden Diffusionsprozess genutzt. Auf diese Weise kann auch bei sp¨arlichen Kontrasten