Paradigms in Statistical Inference for Finite Populations up to the 1950S
Total Page:16
File Type:pdf, Size:1020Kb
View metadata,citationandsimilarpapersatcore.ac.uk Vesa Kuusela Paradigms in Statistical Inference forFinitePopulations Inference inStatistical Paradigms Kuusela Vesa Tutkimuksia The Research Reports series describes Finnish society in Forskningsrapporter the light of up-to-date research results. Scientifi c studies Research Reports 257 that are carried out at Statistics Finland or are based on the datasets of Statistics Finland are published in the series. This study describes the historical development of sta- tistical inference for fi nite populations starting from the second half of the 18th century up to the beginning of the 1950s when the theory was documented in famous textbooks on survey sampling. The development was interplay between two different tasks: how to draw representative samples from populations, and how to Paradigms estimate population parameters from the samples. The emergence of statistical thinking in the 19th century was in Statistical Inference a signifi cant propellant. However, only when digital for Finite Populations computers became available for statisticians, sampling techniques obtained their current signifi cance. Up to the 1950s Vesa Kuusela Tilastokeskus, myyntipalvelu Statistikcentralen, försäljning Statistics Finland, Sales Services ISSN 1798–8578 PL 2 C PB 2 C PO Box 2 C = Research Reportsprovided by 00022 TILASTOKESKUS FI-00022 STATISTIKCENTRALEN FI-00022 Statistics Finland ISBN 978–952–244–316–8 (pdf) puh. 09 1734 2011 tfn +358 9 173 420 11 Tel. +358 9 1734 2011 ISBN 978–952–244–315–1 (print) faksi 09 1734 2500 fax +358 9 173 425 00 Fax +358 9 1734 2500 myynti@tilastokeskus.fi sales@stat.fi sales@stat.fi Helsingin yliopistondigitaalinenarkisto www.tilastokeskus.fi www.stat.fi www.stat.fi brought toyouby CORE 257_Vesa_KuuselaTutkimuksia_nettikansi.indd 1 18.8.2011 9:12:17 Tutkimuksia Forskningsrapporter Research Reports 257 Paradigms in Statistical Inference for Finite Populations Up to the 1950s Vesa Kuusela Päätoimittaja – Chefredaktör – Principal editor: Timo Alanko Tutkimuksia -sarjan julkaisut eivät edusta Tilastokeskuksen kannanottoja. Julkaisujen sisällöistä vastaavat kirjoittajat. Taitto – Ombrytning – Layout: Lehtonen Hilkka © 2011 Tilastokeskus – Statistikcentralen – Statistics Finland ISSN 1798–8578 = Research Reports ISBN 978–952–244–316–8 (pdf) ISBN 978–952–244–315–1 (print) Abstract Sample surveys are an inherent part of a democratic society. Every day, impor- tant decisions are made basing on information that was obtained from a survey. Modern sample surveys started to spread after statistician at the U.S. Bureau of the Census had developed a sampling design for the Current Population Survey. In the beginning of 1950s, the theory was documented in textbooks on survey sampling. This thesis is about the development of the statistical inference for sample surveys. For the fi rst time the idea of statistical inference was enunciated by a French scientist, Pierre Simon Laplace. In 1781, he published a plan for a partial inves- tigation in which he determined the sample size needed to reach the desired ac- curacy in estimation. The plan was based on Laplace’s Principle of Inverse Prob- ability and on his derivation of the Central Limit Theorem. They were published in a memoir in 1774 which is one of the revolutionary papers in the history of statistical inference, and its origin. Laplace’s inference model was based on Bernoulli trials and binominal probabilities. He assumed that populations were changing constantly. It was depicted by assuming a priori distributions for param- eters. Laplace’s inference model dominated statistical thinking for a century. Selection of the sample in Laplace’s investigations was purposive. In 1895* in the International Statistical Institute meeting, Norwegian Anders Kiaer pre- sented the idea of the Representative Method to draw samples. Its idea was that the sample would be a miniature of the population. Arhtur Bowley realized the potentials of the sampling method and in the fi rst quarter of the 20th century he carried out several surveys in the UK. As a profes- sor of statistics, he developed the theory of statistical inference for fi nite popu- lations. Bowley’s theory leaned on Edgeworth’s modifi cation of the Laplace’s model. Bowley’s theory included also formulas for balanced stratifi cation. R.A. Fisher contributions in the 1920’s constitute a watershed in the statistical science He revolutionized the theory of statistics and initiated estimation and in- ference theory. In addition, he introduced a new statistical inference model which is still the prevailing paradigm. The central idea is based on repeatedly drawing samples from the same population, and on the assumption that population pa- rameters are constants. Fisher’s theory did not include a priori probabilities. Jerzy Neyman adopted Fisher’s inference model and applied it to fi nite pop- ulations with the difference that Neyman’s inference model does not include any assumptions of the distributions of the study variables. Applying Fisher’s fi ducial argument he developed the theory for confi dence intervals. In addition, Neyman created optimal allocation for stratifi cation. Neyman’s last contribution to survey sampling presented a theory for double sampling. This became the central idea for statisticians at the U.S. Census Bureau when they developed the complex survey design for the Current Population Sur- vey. Important criterion was also to have a method that provided approximately equal interviewer workloads, aside of an acceptable accuracy in estimation. * The year has been corrected on 9 September 2011 Statistics Finland 3 Tiivistelmä Otostutkimukset ovat demokraattisen yhteiskunnan luontainen osa. Joka päi- vä tehdään tärkeitä päätöksiä, jotka perustuvat otostutkimuksista saatuun in- formaatioon. Nykyaikaiset otantatutkimukset alkoivat levitä sen jälkeen, kun Yhdysvaltojen tilastoviraston (Bureau of the Census) tilastotieteilijät olivat 1940-luvun puolivälissä kehittäneet otanta-asetelman Current Population Sur- vey -tutkimuksen tarpeisiin. Menetelmä dokumentoitiin 1950-luvun alussa otantateoriaa käsittelevissä oppikirjoissa. Tämä tutkimus käsittelee sitä, miten otantatutkimusten tilastollinen päättely kehittyi. Ranskalainen tiedemies Pierre Simon Laplace muotoili ensimmäisenä tilastol- lisen päättelyn idean. Vuonna 1781 hän julkaisi osittaistutkimuksen suunnitelman, jossa hän määritteli, kuinka suuri otos tarvittaisiin vaaditun estimointitarkkuuden saavuttamiseksi. Suunnitelma perustui Laplacen käänteisen todennäköisyyden periaatteeseen sekä hänen johtamaansa keskeiseen raja-arvolauseeseen. Nämä oli julkaistu vuonna 1774 muistiossa, joka on yksi tilastollisen päättelyn vallankumo- uksellisista esityksistä ja sen lähtökohta. Laplacen päättelymalli perustui Bernoul- lin kokeisiin ja binomi-todennäköisyyksiin. Hän oletti, että perusjoukko muuttui koko ajan. Tämän hän otti huomioon olettamalla, että perusjoukon parametreilla oli a priori todennäköisyysjakauma. Laplacen päättelymalli hallitsi tilastollista ajat- telua yli sadan vuoden ajan. Laplacen tutkimuksessa otos poimittiin harkinnanvaraisesti. Vuonna 1895* norjalainen Anders Kiaer esitteli Kansainvälisen tilastoinstituutin kokouksessa niin sanotun edustavan menetelmän otosten poimimiseen. Pyrkimyksenä oli, että otoksesta tuli perusjoukon pienoismalli. Arthur Bowley oivalsi otantamenetelmän mahdollisuudet ja 1900-luvun en- simmäisen neljänneksen aikana hän teki useita otostutkimuksia Englannissa. Ti- lastotieteen professorina hän kehitti kiinteän perusjoukon tilastollisen päättelyn teorian. Hän teoriansa perustui Edgeworthin modifi kaatioon Laplacen mallista. Bowelyn teoriaan sisältyivät myös kaavat tasapainoiselle ositukselle. R.A Fisherin kirjoitukset 1920-luvulla olivat tilastotieteen vedenjakaja. Hän mullisti tilastotieteen teorian ja pani alulle estimointi- ja päättelyteorian. Lisäksi hän esitteli uuden tilastollisen päättelyn mallin, joka on vallitseva edelleen. Kes- keinen ajatus perustuu siihen, että samasta perusjoukosta poimitaan otoksia tois- tuvasti ja että perusjoukon parametrit ovat vakioita. Fisherin teoria ei sisältänyt a priori -todennäköisyyksiä. Jerzy Neyman omaksui Fisherin päättelymallin ja sovelsi sitä kiinteän perus- joukon päättelyssä sillä erotuksella, että Neymanin malliin ei sisälly oletuksia tut- kimusmuuttujien jakaumista. Soveltamalla Fisherin niin kutsuttua fi dusiaalista väitettä Neyman kehitti luottamusvälien teorian. Lisäksi Neyman kehitti optimaa- lisen allokaation ositteiden laatimiseksi. Neymanin viimeisessä kirjoituksessa otantateoriasta aiheena oli kaksivaiheinen otanta. Tämä tuotti keskeisen oivalluksen Yhdysvaltojen tilastoviraston tutkijoil- le heidän kehitellessään monimutkaista otanta-asetelmaansa Current Population Survey -tutkimukselle. Tärkeä kriteeri oli tuottaa menetelmä, joka työllisti haastat- telijoita tasaisesti, sen lisäksi, että estimoinnin tarkkuus oli hyväksyttävällä tasolla. * Vuosiluku korjattu 9.9.2011 4 Statistics Finland Preface The main topic of this thesis is the origin and the historical development of statistical inference for fi nite populations. It is inherently linked with the his- tory of survey sampling. The stimulus for this study emerged many years ago, while I was preparing a study of Anders Kiaer’s infl uence on the birth of survey sampling. That inspired me to gain wider knowledge on the history of survey sampling and statistical inference for fi nite populations. During the preceding sixty years, some ten well-known articles about the history of survey research have