Accelerating Conditional Gradient Methods Thomas Kerdreux
Total Page:16
File Type:pdf, Size:1020Kb
Accelerating conditional gradient methods Thomas Kerdreux To cite this version: Thomas Kerdreux. Accelerating conditional gradient methods. Optimization and Control [math.OC]. Université Paris sciences et lettres, 2020. English. NNT : 2020UPSLE002. tel-03052834 HAL Id: tel-03052834 https://tel.archives-ouvertes.fr/tel-03052834 Submitted on 10 Dec 2020 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. Préparée à l’École Normale Supérieure Accelerating Conditional Gradient Methods Soutenue par Composition du jury : Thomas Kerdreux Francis Bach Le 30 Juin 2020 Researcher, INRIA Paris Président Zaid Harchaoui Associate Professor, University of Washington Rapporteur École doctorale no386 Mikael Johansson École Doctorale De Sci- Professor, KTH Rapporteur ences Mathématiques de Paris Martin Jaggi Assistant Professor, EPFL Examinateur Sebastian Pokutta Spécialité Professor, Technische Universität Berlin Examinateur Mathématiques Ap- Alexandre d’Aspremont pliquées Researcher, CNRS Directeur de thèse "Chacune de ces machines, d’une manière ou d’une autre, ajoute à la puissance matérielle de l’homme, c’est-à-dire à sa capacité dans le bien comme dans le mal." Georges Bernanos, La France contre les robots. i À ma mère et à mon père pour leur amour. ii Résumé Les méthodes de Gradient Conditionnel, ou algorithmes de Frank-Wolfe, sont des méthodes itératives du premier ordre utiles pour résoudre des problèmes d’optimisation sous contraintes. Elles sont utilisées dans de nombreux domaines comme l’apprentissage statistique, le traite- ment du signal, l’apprentissage profond, la géométrie algorithmique et bien d’autres encore. Ces algorithmes décomposent la minimisation d’une fonction non-linéaire en une série de sous problèmes plus simples. Chacun de ces sous-problèmes revient à minimiser une fonction linéaire sous les contraintes, l’oracle de minimisation linéaire. De nombreuses variantes de ces algo- rithmes existent qui cherchent à s’adapter au mieux aux structures particulières des problèmes d’optimisation sous-jacents. Ainsi de nombreuses directions de recherches restent ouvertes quant à l’analyse et la conception de nouveaux algorithmes de ce type, notamment pour l’apprentissage automatique. Notre première contribution est de proposer et d’analyser de nouveaux schémas algorith- miques qui s’adaptent à un certain type d’hypothèses génériques. Ces dernières quantifient le comportement de la fonction près des solutions du problème d’optimisation. L’analyse de ces schémas d’algorithmes révèle des taux de convergence qui s’interpolent entre les taux clas- siques sous-linéaires en O(1/T ) et les taux de convergence linéaire. Ces résultats montrent aussi que les algorithmes de Frank-Wolfe s’adaptent facilement à ce genre d’hypothèse puisque l’algorithme n’a pas besoin de connaître les paramètres qui contrôlent les hypothèses struc- turelles supplémentaires pour accélérer. Notre seconde contribution s’inscrit dans une question de recherche encore ouverte. Les algorithmes de Frank-Wolfe peuvent accélérer le taux de convergence O(1/T ) quand l’ensemble de contraintes est un polytope ou un ensemble fortement convexe. Pour quel autre type de contraintes existe-t-il une version de Frank-Wolfe avec des taux accélérés? Ici nous montrons que l’uniforme convexité, qui généralise la forte convexité, permet d’accélérer l’algorithme de Frank-Wolfe, là encore de manière adaptative. Plus généralement, cela signifie que c’est la courbure des ensembles de contraintes – et pas seulement une quantification spécifique telle que la forte convexité – qui peut accélérer les algorithmes de Frank-Wolfe. Pour notre troisième contribution, nous proposons des versions des algorithmes de Frank- Wolfe où l’oracle de minimisation linéaire est résolu sur des sous-ensembles aléatoires de l’ensemble de contraintes initial tout en conservant, en espérance, les même taux de convergence asymptotiques. Bien que ces algorithmes ne conservent pas toutes les propriétés classiques des algorithmes de Frank-Wolfe, ce résultat étend les résultats de descente par blocs de coordon- nées qui s’appliquent lorsque l’ensemble de contraintes est le produit cartésien d’ensembles plus simples. Finalement notre quatrième contribution vise à raffiner théoriquement les taux dans le lemme de Carathéodory approximé de sorte à prendre en compte une mesure de la variance, iii dans une norme de Banach, des atomes formant l’enveloppe convexe en question. Ce résultat repose sur un extension des inégalités de concentration de type Serfling, c’est-à-dire de tirage avec remplacement. Nous appliquons ce résultat pour des versions approximées du théorème de Shapley-Folkmann. En appendice nous relatons des recherches faites en parallèle du sujet principal de recherche. iv Abstract Conditional gradient algorithms, a.k.a. the Frank-Wolfe algorithms, are first-order iterative methods designed for solving large-scale constrained optimization problems. These are used in a variety of modern applied fields such as machine learning, signal processing, deep learning, computational geometry and many others. They break down non-linear constrained problems in a series of small subproblems. Each of these requires at worst to minimize a linear function over the constraint set, the so-called Linear Minimization Oracles (LMO). This framework encompasses a growing series of algorithms that seek to adapt to particular structures of the optimization problem. Many open questions remain in the convergence analysis and design of such algorithms. Our first contribution is to derive and analyze new Frank-Wolfe algorithms assuming specif- ically designed Hölderian Error Bounds. Our algorithms exhibit accelerated convergence rates without knowledge of the error bound parameters, i.e. they are adaptive. Our analysis also provides the first interpolated convergence rates between standard sublinear rates O(1/T ) and linear convergence rates. Our second contribution is focused on finding families of constraint sets for which Frank- Wolfe algorithms have accelerated convergence rates, outside of the classical scenarios where the set is either a polytope or a strongly convex set. We prove that the original Frank-Wolfe algorithm enjoys adaptive accelerated rates when the set is uniformly convex. This struc- tural assumption subsumes strong-convexity and quantifies the curvature regimes of classical constraint sets that strong convexity does not capture. In our third contribution, we design Frank-Wolfe algorithms where the Linear Minimiza- tion Oracle is only solved on random subsets of the constraints while retaining, in expectation, classical convergence rates. Although it does not maintain all benefits of Frank-Wolfe algo- rithms, the method extends block-coordinate type algorithms, which only converge when the constraint set is the cartesian products of simpler sets. Our fourth contribution focuses on refining the bounds of the approximate Carathéodory lemma by taking into account the variance of the convex hull as measured with general Banach norms. This result relies on an extension of a Serfling concentration inequality type to Banach spaces. We use this new approximate Carathéodory lemmas to refine approximate versions of the Shapley-Folkman theorem. In the appendix, we relate some orthogonal research directions that were developed in parallel with the principal research subject. The first one stems from a work carried out with Antoine Recanati where we extend a result of Atkins to a multi-dimensional setting. The second is also a collective contribution with Louis Thiry and Vivien Cabannes where we use the pretence of making interactive paintings between artists and machines powered with what-people-call-artificial-intelligence algorithms to offer a demystifying perspective on these. v Remerciements Je remercie en premier lieu mon directeur de thèse Alexandre d’Aspremont. Il a été un merveilleux guide. Sa clarté intellectuelle et son enthousiasme permanent ont été de formidables stimulants durant ces trois années de thèse. Je le remercie aussi très particulièrement pour l’équilibre qu’il m’a donné entre liberté et exigence dans la recherche. Ces années ont pu donc être riches d’apprentissages scientifiques mais m’ont aussi donné le temps de mieux comprendre le monde dans lequel nous vivons. Je voudrais aussi exprimer ma plus sincère gratitude aux membres du jury: Francis Bach, Martin Jaggi, Mikael Johansson et Zaid Harchaoui. Plus spécialement encore, je remercie Sébastian Pokutta de m’avoir accueilli dans son groupe à Berlin pendant un mois. Cela a été un moment très instructif et agréable. Je remercie aussi chaleureusement Francis Bach pour l’environnement serein, multi-disciplinaire et de grande qualité qu’il a créé au quatrième étage de l’INRIA de Gare de Lyon. Je n’aurais pas pu espérer un meilleur groupe pour faire ma thèse et j’ai beaucoup appris de la diversité des opinions et des personnalités qui se sont croisées au quatrième étage. J’ai aussi beaucoup apprécié la proximité immédiate avec l’équipe Willow. J’ai pu ainsi poser toutes mes questions à des