Datascientist Manual
Total Page:16
File Type:pdf, Size:1020Kb
DATASCIENTIST MANUAL . 2 « Approcherait le comportement de la réalité, celui qui aimerait s’epanouir dans l’holistique, l’intégratif et le multiniveaux, l’énactif, l’incarné et le situé, le probabiliste et le non linéaire, pris à la fois dans l’empirique, le théorique, le logique et le philosophique. » 4 (* = not yet mastered) THEORY OF La théorie des probabilités en mathématiques est l'étude des phénomènes caractérisés PROBABILITY par le hasard et l'incertitude. Elle consistue le socle des statistiques appliqué. Rubriques ↓ Back to top ↑_ Notations Formalisme de Kolmogorov Opération sur les ensembles Probabilités conditionnelles Espérences conditionnelles Densités & Fonctions de répartition Variables aleatoires Vecteurs aleatoires Lois de probabilités Convergences et théorèmes limites Divergences et dissimilarités entre les distributions Théorie générale de la mesure & Intégration ------------------------------------------------------------------------------------------------------------------------------------------ 6 Notations [pdf*] Formalisme de Kolmogorov Phé nomé né alé atoiré Expé riéncé alé atoiré L’univérs Ω Ré alisation éléméntairé (ω ∈ Ω) Evé némént Variablé aléatoiré → fonction dé l’univér Ω Opération sur les ensembles : Union / Intersection / Complémentaire …. Loi dé Augustus dé Morgan ? Independance & Probabilités conditionnelles (opération sur des ensembles) Espérences conditionnelles 8 Variables aleatoires (discret vs reel) … Vecteurs aleatoires : Multiplét dé variablés alé atoiré (discret vs reel) … Loi marginalés Loi conjointé Loi dé f(X,Y) Loi conditionnéllé Couplé alé atoiré a dénsité ?? Fonction génératricé d’un couplé Loi dé sommé La loi ést un produit ∏ / Lois jointes / marginales / conditionnelle Loi d’uné transformé é (g o X) Calcul de Densités & Fonctions de répartition Fonction dé ré partition émpiriqué ? FX (x) = P(X ⩽ x) Thé oré mé dé Glivénko Iné galité dé Dvorétzky-Kiéfér Wolfowitz (DKW) Lois de probabilités { support fini vs semi-infini vs infini } Discrètes : Dirac [pdf*] Géometrique [pdf*] Binomiale (Bernouilli) [pdf*] Hypergeometrique [pdf*] Multinomiale [pdf*] Logarithmique [pdf*] Continues : Normal (Gaussienne) [pdf*] Student [pdf*] / Fisher-Snedecor [pdf*] Chi2 [pdf*] / Logistique [pdf*] Uniforme [pdf*] / Poisson [pdf*] Weibull [pdf*] / Fick [pdf*] Fourrier [pdf*] / Logistique [pdf*] Beta [pdf*] / Exponetiel [pdf*] Gamma [pdf*] / Laplace gauss [pdf*] Cauchy [pdf*] / Weibull [pdf*] Gumbel [pdf*] Lois Multidimensionnelles Discrètes : Ewéns [pdf*] Multinomialé [pdf*] Continues : Dirichlét [pdf*] Normalé multidiménsionnéllé [pdf*] Matricielles : Wishart / Wishart invérsé [pdf*] Lois Directionnelles Univariantes : Von Misés [pdf*] Sphériques bidimensionnelles : Ként [pdf*] Toroïdales bidimensionnelles : Von Misés bivarianté [pdf*] Multidimensionnelles : Bingham [pdf*] 10 Indices principaux [pdf*] : L’espérence : E(X) *quantifie la valeur attendu d’une v.a, pour une expérience longement répété La variance : V(X) *quantifie la dispersion d'un échantillon ou d'une distribution. L’écart type : σ * σ² = V(X) La covariance : Cov(X,Y) ou σxy *quantifie l’écart entre deux v.a par rapport à leur espérance La corrélation : Cor(X,Y) *version normalisé de la covariance, sans unités Moments : Convergence & théorèmes limites Typé : En normé Lp En probabilité Présqué surémént En loi Théorème central limite Théorie des grands nombres . Thé oré mé dé Borél-Cantélli [pdf*] . Loi du zé ro un dé Kolmogorov [pdf* . Loi faiblé dés grands nombrés . Loi forté dés grands nombrés . Convérgéncé én loi / Thé oré mé céntral limité . Dé P vérs N . Dé B vérs N . Théoré mé dé Moivré Laplacé.. Iné galité dé Biénaymé -Tchébychév [pdf*] Inegalité de Markov Inegalité de Cauchy-Schartz Probabilité discrète (dé nombrablé) Linéarité : Formulaire de synthèse Astuces calculatoire 12 Fondémént → Théorie de la mesure & Integration On parle d’une fonction qui mene a un reel.. Espaces mesurables ? Completion des mesures Mesure de Lebesgue sur Rd Integration sur les espaces produits Mesure de Hansdorff Bayesian Statistics Branching Processes Complexity in Systems Level Biology and Genetics: Statistical Perspectives Correlations in Complex Systems Extreme Value Statistics Field TheoreticMethods Fluctuations, Importance of: Complexity in the View of Stochastic Processes Hierarchical Dynamics Levy Statistics and Anomalous Transport: Levy Flights and Subdiffusion Probability and Statistics in Complex Systems, Introduction to Probability Densities in Complex Systems,Measuring Probability Distributions in Complex Systems Random Matrix Theory RandomWalks in Random Environment Record Statistics and Dynamics Stochastic Loewner Evolution: Linking Universality, Criticality and Conformal Invariance in Complex Systems Stochastic Processes Propagation des incertitudes 14 STOCHASTIC Le calcul classique des probabilités concerne des épreuves où chaque résultat possible PROCESS (ou réalisation) est mesuré par un nombre, ce qui conduit à la notion de variable aléatoire. Un processus stochastique ou processus aléatoire (voir Calcul stochastique) ou fonction aléatoire Back to top ↑_ (voir Probabilité) représente une évolution, discrète ou à temps continu, d'une variable aléatoire. Cette notion se généralise à plusieurs dimensions. Rubriques ↓ Chaine de Markov Martingales MonteCarlo Method Percolation ------------------------------------------------------------------------------------------------------------------------------------- Chaine de Markov Rappels sur les chaines de Markov: récurrence, transience, théorème ergodique et de convergence en loi. Méthode de Monte Carlo pour les chaines de Markov Chainés dé Markov continu, chainés dé Markov caché és. Champ aléatoire de Markov 16 Martingales Filtration ? Mouvémént Brownién / Procéssus dé Wiénér Random walk .. MonteCarlo Method Evaluer une quatité deterministe en utilisant des tirages aleatoire Métropolis & Ulam (1949) EM wavés Amorphous on random média Partially obsérvéd markov décision procéss Random Walk* Von Miés Fishér Distribution Isotropic Convolution dés dénsité ? Intégralé stochastiqué… Equation diff stochastiqué (=+bruit blanc)…. Procéssus d’Ito ? ? Intégralé = Espé réncé = moyénné.. Par la loi dés grands nombré.. L’éxémplé dés pluiés aléatoiré.. On fait une v.a qui va estimer la valeur de notre paramètre ?? On utilisé l’inégalité dé Byénaymé Tchébychéf.. On crée des intervales de confiances.. 18 Percolation Bootstrap Percolation Conduction and Diffusion in Percolating Systems Continuum Percolation Correlated Percolation Elastic Percolation Networks Invasion Percolation Networks, Flexibility andMobility in Percolation and Polymer Morphology and Rheology Percolation in Complex Networks Percolation in Porous Media Percolation Lattices, Efficient Simulation of Large Percolation Phase Transition Percolation Thresholds, Exact Percolation, and Faults and Fractures in Rock Percolation, Introduction to Scaling Properties, Fractals, and the Renormalization Group Approach to Percolation . EXPLORATORY Les statistiques exploratoires reprennent différentes techniques permettant d’explorer DATA ANALYSIS un jeu de donnée. Back to top ↑_ Rubriques ↓ Indices et caractéristique Analyse en composantes principales (ACP) Analyse en composantes principales à noyaux (KERNEL PCA) --/--- Analyse des correspondances multiples (ACM) --/--- Analyse factorielle des correspondances (AFC) Analyse factorielle des correspondances multiples (AFCM) Analyse factorielle multiple (AFM) Analyse factorielle multiple hiérarchique (AFMH) ------------------------------------------------------------------------------------------------------------------------------------- 20 Indices et caractéristiques Le positionnement multidimensionnel (multidimensional scaling) L'iconographie des corrélations ?? Diagramme de VENN Diagramme / Histogramme Distribution de fréquence Indices de dispersion d’un échantillon : • Eténdué • Variancé Indices de tendances centrales : • Modé • Mé diané • Moyénné Echelles de mesure : • Nominal • Ordinalé • D’intérvallés • Dé rapports Matrice des corrélations → Box Plot : Analyse de données : ACP [pdf] : L'analyse en composantes principales Les données sont des individus (en ligne) décrits par des variables quantitatives (en colonne) ACP [pdf] : L'analyse en composantes principales à noyaux (Kernel PCA) 22 ACM [pdf] : L’analyse des correspondances multiples Dédiée aux tableaux individus x variables qualitatives AFC [pdf]: L'analyse factorielle des correspondances AFDM [pdf]: L’analyse factorielle de données mixtes Traité dés tabléaux individus x variablés ou lés variablés sont soit quantitativés soit qualitativés AFCM [pdf] : L’analyse factorielle des correspondances multiples 24 AFM [pdf] : L’analyse factorielle multiple Sur des tableaux individus x variables où les variables, sont structurées en groupes AFMH [pdf] : L’Analyse Factorielle Multiple Hiérarchique Généralise l’AFM aux cas où les variables sont structurées selon une hiérarchie INFERENTIAL La statistique inferentielle est la science de la variation. STATISTICS Back to top ↑_ Rubriques ↓ Théorie générale de l’estimation Estimateur du Maximum de Vraisemblence (EMV) Information de Fisher --/--- A / Modèle Linéaire générale (GLM) B / Hierarchical / Multilevel Linear Model (HLM) C / Mixture Model / Gaussian Mixture Model D / Modèles à structure de covariance (LISREL) E / Modèles à équation structurelle et données dyadiques F / Modèles Non Linéaire sur des variétés différentielles (G-O-I) --/--- Propriétés Asymptotiques et applications --/--- Les tests d’Hypothèses