Implicit Sequence Learning in Recurrent Neural Networks
Total Page:16
File Type:pdf, Size:1020Kb
INSTITUT FUR¨ INFORMATIONS- UND KOMMUNIKATIONSTECHNIK (IIKT) Implicit Sequence Learning in Recurrent Neural Networks DISSERTATION zur Erlangung des akademischen Grades Doktoringenieur (Dr.-Ing.) von Dipl.-Ing. Stefan Gluge¨ geb. am 16.07.1982 in Magdeburg, Deutschland genehmigt durch die Fakult¨at f¨ur Elektrotechnik und Informationstechnik der Otto-von-Guericke-Universit¨at Magdeburg Gutachter: Prof. Dr. rer. nat. Andreas Wendemuth Prof. Dr. G¨unther Palm Jun.-Prof. PD. Dr.-Ing. habil. Ayoub Al-Hamadi Promotionskolloquium am 11.10.2013 ii Ehrenerkl¨arung Ich versichere hiermit, dass ich die vorliegende Arbeit ohne unzul¨assige Hilfe Dritter und ohne Benutzung anderer als der angegebenen Hilfsmittel angefertigt habe. Die Hilfe eines kommerziellen Promotionsberaters habe ich nicht in Anspruch genommen. Dritte haben von mir weder unmittelbar noch mittelbar geldwerte Leistungen fr Arbeiten erhalten, die im Zusammenhang mit dem Inhalt der vorgelegten Dissertation stehen. Verwendete fremde und eigene Quellen sind als solche kenntlich gemacht. Ich habe insbesondere nicht wissentlich: Ergebnisse erfunden oder widerspr¨uchliche Ergebnisse verschwiegen, • statistische Verfahren absichtlich missbraucht, um Daten in ungerechtfertigter Weise • zu interpretieren, fremde Ergebnisse oder Ver¨offentlichungen plagiiert, • fremde Forschungsergebnisse verzerrt wiedergegeben. • Mir ist bekannt, dass Verst¨oße gegen das Urheberrecht Unterlassungs- und Schadenser- satzanspr¨uche des Urhebers sowie eine strafrechtliche Ahndung durch die Strafverfol- gungsbeh¨orden begr¨unden kann. Ich erkl¨are mich damit einverstanden, dass die Dissertation ggf. mit Mitteln der elek- tronischen Datenverarbeitung auf Plagiate ¨uberpr¨uft werden kann. Die Arbeit wurde bisher weder im Inland noch im Ausland in gleicher oder ¨ahnlicher Form als Dissertation eingereicht und ist als Ganzes auch noch nicht ver¨offentlicht. Magdeburg, den 26.06.2013 Dipl.-Ing. Stefan Gl¨uge Danksagung An dieser Stelle m¨ochte ich mich bei all denjenigen bedanken, die mich in den letzten Jahren bei der Arbeit an meiner Dissertation unterst¨utzt haben. Den gr¨oßten Anteil hat sicherlich Prof. Dr. Andreas Wendemuth, der mich wissen- schaftlich betreut hat. Zus¨atzlich zu den Ideen und Anregungen bez¨uglich der wissen- schaftlichen Fragen, hat er mit seiner offenen Art f¨ur ein Klima gesorgt, in dem man gern arbeitet. Prof. Dr. G¨unther Palm danke ich vor allem f¨ur die Bereitschaft, trotz der Bergen von Arbeit auf seinem Schreibtisch, meine Dissertation zu begutachten. Dasselbe gilt f¨ur Prof. Dr. Ayoub Al-Hamadi, der sich ebenfalls bereit erkl¨art hat als Gutachter zu fungieren. Des Weiteren danke ich meinen Kollegen am Lehrstuhl f¨ur Kognitive Systeme an der Otto-von-Guericke Universit¨at. Besonders erw¨ahnen m¨ochte ich die tolle Zusammenar- beit und die vielen interessanten Diskussionen und Projekte mit Ronald B¨ock. Der Otto-von-Guericke Universit¨at und dem Land Sachsen-Anhalt danke ich f¨ur die finanzielle Unterst¨utzung w¨ahrend der Promotion. Letztendlich gilt mein liebster und innigster Dank meiner Frau Jule und meiner Fam- ilie, die immer an mich glauben. Ohne ihre Unterst¨utzung w¨are diese Arbeit nicht m¨oglich gewesen. iv Abstract This thesis investigates algorithmic models of implicit learning, and presents new meth- ods and related experiments in this field. Implicit learning is a common method of acquiring knowledge and therefore happens in childhood development and in everyday life. It can be shortly defined as incidental learning without awareness of the learned matter. As this is a highly desirable feature in machine learning, it has many applications in computational neuroscience, engineering applications and data analysis. The first part of this thesis is focused on cognitive modelling of implicit sequence learning as it was observed in behavioural experiments with human subjects. The ex- perimental setup is known as conditional associative learning scenario. Insights gained in this process are then used in the second part of this work. Here, the implicit learning of sequential information by recurrent neural networks is investigated in the context of machine learning. For cognitive modelling a Markov model is used to analyse the explicit part of the associative learning task which was given to the subjects. Thereafter, simple recurrent networks are applied to model the implicit learning of temporal dependencies that oc- curred in the experiments. Therefore, the development and storage of representations of temporal context in the networks is further investigated. Recurrent networks are a common tool in cognitive modelling, but even more an important method in the machine learning domain. Whenever it comes to sequence processing the capability of these networks is of great interest. One particular prob- lem in that area of research is the learning of long-term dependencies, which can be traced back to the problem of vanishing error gradients in gradient based learning. In my thesis I investigate the capabilities of a hierarchical recurrent network architecture, the Segmented-Memory Recurrent Neural Network, to circumvent this problem. The architecture itself is inspired by the process of memorisation of long sequences observed in humans. An extended version of a common learning algorithm adapted to this ar- chitecture is introduced and compared to an existing one concerning computational complexity and learning capability. Further, an unsupervised pre-training procedure for the recurrent networks is introduced that is motivated by the research in the field of deep learning. The learning algorithm proposed in this thesis dramatically reduces the computational complexity of the network training. This advantage is paid with a reduction of the time span between inputs and outputs that my be bridged by the network. However, this loss can be compensated by the application of a pre-training procedure. In general, recurrent networks are of interest in cognitive modelling, but in fact, this leads to their application in rather technical sequence classification and prediction tasks. This work shows, how those networks learn task-irrelevant temporal dependencies implic- itly, and presents progress which is made to make them applicable to machine learning and information engineering problems. v Kurzfassung Diese Arbeit untersucht algorithmische Modelle des impliziten Lernens und pr¨asentiert neue Methoden, sowie Experimente, auf diesem Feld. Implizites Lernen ist ein Weg des Wissenserwerbs und passiert im allt¨aglichen Leben, vor allem in der Kindheit. Es wird kurz als zuf¨alliges Lernen, ohne Bewusstsein f¨ur das Gelernte, definiert. Diese Eigenschaft ist auch f¨ur technische Systeme interessant und findet unter anderem Anwendung in der Neuroinformatik, den Ingenieurswissenschaften und im Bereich der Datenanalyse. Der erste Teil dieser Arbeit befasst sich mit der kognitiven Modellierung von im- plizitem Lernen von Sequenzen, wie es in einem Verhaltensexperiment mit Versuchsper- sonen beobachtet wurde. Derartige Experimente werden in der Kognitionsbiologie zur Untersuchung von konditionellem assoziativen Lernen genutzt. Die durch die Model- lierung gewonnen Einsichten, werden im zweiten Teil der Arbeit weiter verwendet. Dort wird, im Kontext des maschinellen Lernens, das implizite Lernen von Zeitabh¨angigkeiten durch rekurrente neuronale Netze analysiert. Um den expliziten Teil der assoziativen Lernaufgabe zu analysieren, wird ein Markov Modell vorgeschlagen. Danach werden einfache rekurrente Netze (simple recurrent net- works) genutzt, um den impliziten Teil des Lernens von Zeitabh¨angigkeiten, wie sie im Experiment auftraten, zu modellieren. Hierzu wird vor allem die Entwicklung und Speicherung von Repr¨asentationen des zeitlichen Kontextes in den Netzen untersucht. Rekurrente Netze sind ein gutes Werkzeug f¨ur die Modellierung kognitiver Prozesse, aber ein ebenso wichtiges Werkzeug im Bereich des maschinellen Lernens. Vor allem beim Verarbeiten von Informationssequenzen sind die Eigenschaften dieser Netze von großem Interesse. Ein bedeutendes Problem in dieser Dom¨ane ist das Lernen von Langzeitab- h¨angigkeiten, welches auf das Abnehmen der Fehlergradienten beim gradientenbasierten Lernen (vanishing gradient problem) zur¨uckgef¨uhrt werden kann. In meiner Arbeit unter- suche ich, in wie weit ein hierarchisches rekurrentes Netz (Segmented-Memory Recurrent Neural Network) das vanishing gradient problem umgehen kann. Die Netzarchitektur ist inspiriert durch die Art und weise, wie sich Menschen l¨angere Sequenzen merken. F¨ur die Architektur wird eine erweiterte Version eines bekannten Lernalgorithmus vorgeschlagen (BPTT), und bez¨uglich des Rechenaufwandes und der F¨ahigkeit Langzeitabh¨angigkei- ten zu lernen untersucht. Außerdem wird ein nicht ¨uberwachtes Vortraining beschrieben, welches durch die Forschung im Bereich der tiefen neuronalen Netze (deep learning) in- spiriert ist. Der in dieser Arbeit vorgeschlagene Lernalgorithmus verringert den Rechenaufwand f¨ur das Netzwerktraining erheblich. Die Zeitspanne zwischen Ein- und Ausgangssignalen des Netzes, die ¨uberbr¨uckt werden kann, ist jedoch kleiner als bei einem etablierten Algorithmus. Dieser Nachteil kann weitestgehend durch das Vortraining kompensiert werden. Im Allgemeinen haben rekurrente Netze interessante Eigenschaft f¨ur kognitive Mod- elle, aber im Speziellen werden diese oft in technischen Sequenzverarbeitungsaufgaben angewandt. Diese Arbeit zeigt, wie die Netze zeitliche Zusammenh¨ange implizit lernen und tr¨agt dazu