Implicit Sequence Learning in Recurrent Neural Networks

INSTITUT FUR¨ INFORMATIONS- UND KOMMUNIKATIONSTECHNIK (IIKT) Implicit Sequence Learning in Recurrent Neural Networks DISSERTATION zur Erlangung des akademischen Grades Doktoringenieur (Dr.-Ing.) von Dipl.-Ing. Stefan Gluge¨ geb. am 16.07.1982 in Magdeburg, Deutschland genehmigt durch die Fakultät für Elektrotechnik und Informationstechnik der Otto-von-Guericke-Universität Magdeburg Gutachter: Prof. Dr. rer. nat. Andreas Wendemuth Prof. Dr. Günther Palm Jun.-Prof. PD. Dr.-Ing. habil. Ayoub Al-Hamadi Promotionskolloquium am 11.10.2013 ii Ehrenerklärung Ich versichere hiermit, dass ich die vorliegende Arbeit ohne unzulässige Hilfe Dritter und ohne Benutzung anderer als der angegebenen Hilfsmittel angefertigt habe. Die Hilfe eines kommerziellen Promotionsberaters habe ich nicht in Anspruch genommen. Dritte haben von mir weder unmittelbar noch mittelbar geldwerte Leistungen fr Arbeiten erhalten, die im Zusammenhang mit dem Inhalt der vorgelegten Dissertation stehen. Verwendete fremde und eigene Quellen sind als solche kenntlich gemacht. Ich habe insbesondere nicht wissentlich: Ergebnisse erfunden oder widersprüchliche Ergebnisse verschwiegen, • statistische Verfahren absichtlich missbraucht, um Daten in ungerechtfertigter Weise • zu interpretieren, fremde Ergebnisse oder Veröffentlichungen plagiiert, • fremde Forschungsergebnisse verzerrt wiedergegeben. • Mir ist bekannt, dass Verstöße gegen das Urheberrecht Unterlassungs- und Schadenser- satzansprüche des Urhebers sowie eine strafrechtliche Ahndung durch die Strafverfol- gungsbehörden begründen kann. Ich erkläre mich damit einverstanden, dass die Dissertation ggf. mit Mitteln der elek- tronischen Datenverarbeitung auf Plagiate überprüft werden kann. Die Arbeit wurde bisher weder im Inland noch im Ausland in gleicher oder ähnlicher Form als Dissertation eingereicht und ist als Ganzes auch noch nicht veröffentlicht. Magdeburg, den 26.06.2013 Dipl.-Ing. Stefan Glüge Danksagung An dieser Stelle möchte ich mich bei all denjenigen bedanken, die mich in den letzten Jahren bei der Arbeit an meiner Dissertation unterstützt haben. Den größten Anteil hat sicherlich Prof. Dr. Andreas Wendemuth, der mich wissen- schaftlich betreut hat. Zusätzlich zu den Ideen und Anregungen bezüglich der wissen- schaftlichen Fragen, hat er mit seiner offenen Art für ein Klima gesorgt, in dem man gern arbeitet. Prof. Dr. Günther Palm danke ich vor allem für die Bereitschaft, trotz der Bergen von Arbeit auf seinem Schreibtisch, meine Dissertation zu begutachten. Dasselbe gilt für Prof. Dr. Ayoub Al-Hamadi, der sich ebenfalls bereit erklärt hat als Gutachter zu fungieren. Des Weiteren danke ich meinen Kollegen am Lehrstuhl für Kognitive Systeme an der Otto-von-Guericke Universität. Besonders erwähnen möchte ich die tolle Zusammenar- beit und die vielen interessanten Diskussionen und Projekte mit Ronald Böck. Der Otto-von-Guericke Universität und dem Land Sachsen-Anhalt danke ich für die finanzielle Unterstützung während der Promotion. Letztendlich gilt mein liebster und innigster Dank meiner Frau Jule und meiner Fam- ilie, die immer an mich glauben. Ohne ihre Unterstützung wäre diese Arbeit nicht möglich gewesen. iv Abstract This thesis investigates algorithmic models of implicit learning, and presents new meth- ods and related experiments in this field. Implicit learning is a common method of acquiring knowledge and therefore happens in childhood development and in everyday life. It can be shortly defined as incidental learning without awareness of the learned matter. As this is a highly desirable feature in machine learning, it has many applications in computational neuroscience, engineering applications and data analysis. The first part of this thesis is focused on cognitive modelling of implicit sequence learning as it was observed in behavioural experiments with human subjects. The ex- perimental setup is known as conditional associative learning scenario. Insights gained in this process are then used in the second part of this work. Here, the implicit learning of sequential information by recurrent neural networks is investigated in the context of machine learning. For cognitive modelling a Markov model is used to analyse the explicit part of the associative learning task which was given to the subjects. Thereafter, simple recurrent networks are applied to model the implicit learning of temporal dependencies that oc- curred in the experiments. Therefore, the development and storage of representations of temporal context in the networks is further investigated. Recurrent networks are a common tool in cognitive modelling, but even more an important method in the machine learning domain. Whenever it comes to sequence processing the capability of these networks is of great interest. One particular problem in that area of research is the learning of long-term dependencies, which can be traced back to the problem of vanishing error gradients in gradient based learning. In my thesis I investigate the capabilities of a hierarchical recurrent network architecture, the Segmented-Memory Recurrent Neural Network, to circumvent this problem. The architecture itself is inspired by the process of memorisation of long sequences observed in humans. An extended version of a common learning algorithm adapted to this architecture is introduced and compared to an existing one concerning computational complexity and learning capability. Further, an unsupervised pre-training procedure for the recurrent networks is introduced that is motivated by the research in the field of deep learning. The learning algorithm proposed in this thesis dramatically reduces the computational complexity of the network training. This advantage is paid with a reduction of the time span between inputs and outputs that my be bridged by the network. However, this loss can be compensated by the application of a pre-training procedure. In general, recurrent networks are of interest in cognitive modelling, but in fact, this leads to their application in rather technical sequence classification and prediction tasks. This work shows, how those networks learn task-irrelevant temporal dependencies implic- itly, and presents progress which is made to make them applicable to machine learning and information engineering problems. v Kurzfassung Diese Arbeit untersucht algorithmische Modelle des impliziten Lernens und präsentiert neue Methoden, sowie Experimente, auf diesem Feld. Implizites Lernen ist ein Weg des Wissenserwerbs und passiert im alltäglichen Leben, vor allem in der Kindheit. Es wird kurz als zufälliges Lernen, ohne Bewusstsein für das Gelernte, definiert. Diese Eigenschaft ist auch für technische Systeme interessant und findet unter anderem Anwendung in der Neuroinformatik, den Ingenieurswissenschaften und im Bereich der Datenanalyse. Der erste Teil dieser Arbeit befasst sich mit der kognitiven Modellierung von im- plizitem Lernen von Sequenzen, wie es in einem Verhaltensexperiment mit Versuchsper- sonen beobachtet wurde. Derartige Experimente werden in der Kognitionsbiologie zur Untersuchung von konditionellem assoziativen Lernen genutzt. Die durch die Model- lierung gewonnen Einsichten, werden im zweiten Teil der Arbeit weiter verwendet. Dort wird, im Kontext des maschinellen Lernens, das implizite Lernen von Zeitabhängigkeiten durch rekurrente neuronale Netze analysiert. Um den expliziten Teil der assoziativen Lernaufgabe zu analysieren, wird ein Markov Modell vorgeschlagen. Danach werden einfache rekurrente Netze (simple recurrent networks) genutzt, um den impliziten Teil des Lernens von Zeitabhängigkeiten, wie sie im Experiment auftraten, zu modellieren. Hierzu wird vor allem die Entwicklung und Speicherung von Repräsentationen des zeitlichen Kontextes in den Netzen untersucht. Rekurrente Netze sind ein gutes Werkzeug für die Modellierung kognitiver Prozesse, aber ein ebenso wichtiges Werkzeug im Bereich des maschinellen Lernens. Vor allem beim Verarbeiten von Informationssequenzen sind die Eigenschaften dieser Netze von großem Interesse. Ein bedeutendes Problem in dieser Domäne ist das Lernen von Langzeitab- hängigkeiten, welches auf das Abnehmen der Fehlergradienten beim gradientenbasierten Lernen (vanishing gradient problem) zurückgeführt werden kann. In meiner Arbeit unter- suche ich, in wie weit ein hierarchisches rekurrentes Netz (Segmented-Memory Recurrent Neural Network) das vanishing gradient problem umgehen kann. Die Netzarchitektur ist inspiriert durch die Art und weise, wie sich Menschen längere Sequenzen merken. Für die Architektur wird eine erweiterte Version eines bekannten Lernalgorithmus vorgeschlagen (BPTT), und bezüglich des Rechenaufwandes und der Fähigkeit Langzeitabhängigkei- ten zu lernen untersucht. Außerdem wird ein nicht überwachtes Vortraining beschrieben, welches durch die Forschung im Bereich der tiefen neuronalen Netze (deep learning) inspiriert ist. Der in dieser Arbeit vorgeschlagene Lernalgorithmus verringert den Rechenaufwand für das Netzwerktraining erheblich. Die Zeitspanne zwischen Ein- und Ausgangssignalen des Netzes, die überbrückt werden kann, ist jedoch kleiner als bei einem etablierten Algorithmus. Dieser Nachteil kann weitestgehend durch das Vortraining kompensiert werden. Im Allgemeinen haben rekurrente Netze interessante Eigenschaft für kognitive Mod- elle, aber im Speziellen werden diese oft in technischen Sequenzverarbeitungsaufgaben angewandt. Diese Arbeit zeigt, wie die Netze zeitliche Zusammenhänge implizit lernen und trägt dazu

Implicit Sequence Learning in Recurrent Neural Networks

A Distributed Computational Cognitive Model for Object Recognition

The Place of Modeling in Cognitive Science

A Bayesian Computational Cognitive Model ∗

Connectionist Models of Language Processing

Cognitive Psychology for Deep Neural Networks: a Shape Bias Case Study

Cognitive Modeling, Symbolic

Connectionist Models of Cognition Michael S. C. Thomas and James L

Artificial Intelligence and Cognitive Science Have the Same Problem

The Cognitive Neuroscience of Music

Models of Cognition: Neurological Possiblity Does Not Indicate Neurological Plausibility

Artificial Neural Nets

Why Digit Span Measures Long-Term Associative Learning