Reproducible Research, Software Quality, Online Interfaces and Publishing for Image Processing Nicolas Limare
Total Page:16
File Type:pdf, Size:1020Kb
Reproducible research, software quality, online interfaces and publishing for image processing Nicolas Limare To cite this version: Nicolas Limare. Reproducible research, software quality, online interfaces and publishing for image processing. Other [cs.OH]. École normale supérieure de Cachan - ENS Cachan, 2012. English. NNT : 2012DENS0026. tel-00752569 HAL Id: tel-00752569 https://tel.archives-ouvertes.fr/tel-00752569 Submitted on 16 Nov 2012 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. ECOLE´ NORMALE SUPERIEURE´ DE CACHAN Ecode´ Doctorale de Sciences Pratiques T H ESE` pr´esent´ee par Nicolas Limare pour l’obtention du titre de Docteur de l’Ecole´ Normale Sup´erieure de Cachan sp´ecialit´emath´ematiques appliqu´ees Recherche reproductible, qualit´elogicielle, publication et interfaces en ligne pour le traitement d’image — Reproducible Research, Software Quality, Online Interfaces and Publishing for Image Processing pr´esent´ee et soutenue le 21 juin 2012 `aCachan devant le jury compos´ede Rapporteurs Konrad Hinsen - Centre de Biophysique Mol´eculaire, Orl´eans, FR Patrick Vandewalle - Philips Research, Eindhoven, NL Directeurs Jean-Michel Morel - ENS de Cachan, Cachan, FR Jacques Froment - Universit´ede Bretagne Sud, Vannes, FR Lionel Moisan - Universit´eParis Descartes, Paris, FR Examinateurs Guillermo Sapiro - University of Minnesota, USA Gregory Randall - Universidad de la Rep´ublica, Montevideo, UY Thierry Geraud´ - EPITA, Kremlin-Bicˆetre, FR Friedrich Leisch - Universit¨atf¨ur Bodenkultur, Wien, AT Centre de Math´ematiques et de Leurs Applications — CMLA UMR 8536 Ecole´ Nationale Sup´erieure de Cachan 61 Avenue du Pr´esident Wilson, 94235 Cachan Cedex, France In addition to institutional repositories, this work is available, with future updates, from http://nicolas.limare.net/phd/. The author can be reached at [email protected]. This work is distributed under a CC-BY-NC-SA license : Creative Commons Attribution-NonCommercial- ShareAlike 3.0 Unported License. See http://creativecommons.org/licenses/by-nc-sa/3.0/ for details. This work includes references to online resources. Permanent URLs were provided when possible and the availability of these resources was verified in May 2012, but the progressive obsolescence of these references is inevitable. version 1/registered revision 4eb11a3e - 2012-06-12 18:47:05 +0200 A produced on June 12, 2012 with LTEX and pandoc R´esum´e Cette th`ese est bas´ee sur une ´etude des probl`emes de reproductibilit´erencontr´es dans la recherche en traitement d’image, et de mani`ere g´en´erale dans les sciences appliqu´ees et in- formatiques. Partant du constat du manque de v´erifiabilit´edes publications scientifiques et de impl´ementations associ´ees aux algorithmes publi´es, nous avons con¸cu, cr´e´eet d´evelopp´e un journal scientifique, Image Processing On Line1 (IPOL), dans lequel nous proposons un nouveau mode d’´evaluation et de publication de la recherche en traitement d’image afin d’atteindre une meilleure fiabilit´edes logiciels et algorithmes issus de la recherche. Les articles publi´es dans IPOL incluent une impl´ementation compl`ete des algorithmes d´ecrits; cette impl´ementation est publi´ee, apr`es validation par les rapporteurs qui s’assurent ´egalement que les algorithmes sont d´ecrits compl`etement et avec pr´ecision. Un service web de d´emonstration des algorithmes publi´es est joint aux articles, permettant aux utilisateurs de les tester sur des donn´ees libres avec le choix des param`etres et de consulter l’historique des exp´eriences pr´ec´edemment effectu´ees sur ce service. Ces extensions de la publication contribuent `aplus d’´echanges entre les ´equipes de recherche en favorisant la validation et la comparaison des r´esultats, la r´eutilisation des impl´ementations, et la constitution progressive d’un ´etat de l’art v´erifiable. Pour cela, nous avons tout d’abord ´etudi´ela faisabilit´ed’un syst`eme de publication et d’exp´erimentation bas´esur l’environnement web, ajoutant aux principes d’´evaluation par les pairs d’un journal de recherche des contenus logiciels et des composantes interactives. Le choix de l’environnement web nous semble naturel compte tenu de l’´evolution des r´eseaux et de leurs usages au cours des d´ecennies pr´ec´edentes, mais il limite l’interactivit´equ’on peut attendre des services de d´emonstration des algorithmes et la pr´ecision de l’affichage des doc- uments publi´es. Il nous place de plus dans un contexte o`ules normes, standards et langages sont multiples et ne suffisent pas `ad´efinir compl`etement l’environnement logiciel dans lequel IPOL est utilis´evia les navigateurs web des visiteurs. La publication de logiciel nous a aussi amen´e`aune tentative de synth`ese du corpus l´egislatif appliquable aux programmes informatiques, du point de vue du droit d’auteur et du droit des inventions. Il apparaˆıt essentiellement que cette r´eglementation est nationale et h´et´erog`ene, et que l’association de manuscrits et logiciels en un produit unique de la recherche ne semble pas ais´ee tant ces deux entit´es disposent de statuts juridiques diff´erents. Nous proposons dans ce contexte une politique de droits d’auteur et licences destin´ee `afaciliter la diffusion des travaux de recherche et leur r´eutilisation pour des travaux ult´erieurs. La publication de logiciel est un objectif r´ecent pour les journaux acad´emiques, et on ne dispose pas pour le code source informatique de l’´equivalent des r`egles qui, appliqu´ees aux articles de recherche, d´efinissent ce qui est publiable, et sous quelle forme. Nous proposons donc des r`egles en ce sens, visant `aguider les rapporteurs dans leur ´evaluation du logiciel et contribuant `agarantir qu’une impl´ementation sera utilisable par le plus grand nombre, qu’elle produira des r´esultats identiques dans divers environnements informatiques, et qu’elle est compr´ehensible et v´erifiable, comme un manuscrit math´ematique doit l’ˆetre. Ces r`egles d’´evaluation du logiciel sont compl´et´ees par un projet de proc´edure automatis´ee de traitement 1http://www.ipol.im/ i des impl´ementations avant publication, compl´etant l’´evaluation manuelle des codes source par des tests syst´ematiques. Les travaux de mise en place d’IPOL ont ´et´emen´es dans trois directions: la d´efinition des crit`eres et des proc´edures de validation et publication adapt´e`a ces nouveaux types d’articles, le d´eveloppement d’outils logiciels g´en´eriques n´ecessaires `a l’int´egration des algorithmes publi´es dans des services web de d´emonstration, et la mise en place et l’administration de ces services et outils sur une infrastructure de ressources informatiques. Apr`es un peu plus d’une ann´ee d’activit´e, le projet scientifique que constitue IPOL nous apparaˆıt tr`es b´en´efique `ala recherche en traitement d’image. Malgr´ela charge de traitement manuel qui subsiste en raison de la nouveaut´edu sujet et du manque d’exp´erience et d’outils pour une gestion plus automatis´ee des articles et logiciels, plus de vingt contributions ont pu ˆetre publi´ees, et une cinquantaine de nouveaux articles sont en pr´eparation. La fr´equentation d’IPOL montre par son volume, son origine internationale et la diversit´edes exp´eriences faites avec le service de d´emonstration des algorithmes que ce journal est utile au-del`ade la communaut´ede ses auteurs. Les auteurs sont globalement satisfaits de leur exp´erience et estiment que le travail suppl´ementaire que cette forme de publication n´ecessite est compens´epar les avantages obtenus en terme de compr´ehension des algorithmes, de qualit´edes logiciels produits, de diffusion de leurs travaux et d’opportunit´es de collaboration. A` la lumi`ere de cette exp´erience, on peut ´etablir un programme de recherche ambitieux en traitement et analyse d’images adapt´e`acette forme de validation et diffusion de la recherche. Disposant de d´efinitions claires des objets et m´ethodes, et d’impl´ementations valid´ees, il devient possible de construire des chaˆınes complexes et fiables de traitement des images. On peut ´egalement souhaiter que d’autres journaux scientifiques et groupes de recherche adoptent des m´ethodologies similaires. ii Abstract This thesis is based on a study of reproducibility issues in images processing and computa- tional research. From a constatation of the unverifiability of scientific publications and of the implementations associated with published algorithms, we designed, created and developed a scientific journal, Image Processing On Line2 (IPOL), in which we propose a new method for the evaluation and publication of research in image processing, in order to improve the reliability of research algorithms and software. Articles published in IPOL include a complete implementation of the algorithms. This im- plementation is published, after a validation by the reviewers, who shall also ensure that the description of the algorithms is complete and detailed. A demonstration web service is attached to every article, allowing users to test the algorithms on their data with their choice of parameters. The full history of the experiments previously performed with this service is also publicly available. These principles lead to further exchanges between research groups working on image processing, they promote the validation and comparison of the algorithms, the reuse of implementations, and the progressive compilation of a verifiable state of the art.