Suggestion of Batter Ability Index in Korea Baseball - Focusing on the Sabermetrics Statistics WAR
Total Page:16
File Type:pdf, Size:1020Kb
The Korean Journal of Applied Statistics (2016) DOI: http://dx.doi.org/10.5351/KJAS.2016.29.7.1271 29(7), 1271{1281 Suggestion of batter ability index in Korea baseball - focusing on the sabermetrics statistics WAR Jea-Young Leea;1 · Hyeon-Gyu Kima aDepartment of Statistics, Yeungnam University (Received August 8, 2016; Revised August 30, 2016; Accepted August 30, 2016) Abstract Wins above replacement (WAR) is one of the most widely used statistic among sabermatrics statistics that measure the ability of a batter in baseball. WAR has a great advantage that is to represent the attack power of the player and the base running ability, defensive ability as a single value. In this study, we proposed a hitter ability index using the sabermetrics statistics that can replace WAR based on Korea Baseball Record Data of the last three years (2013{2015). First, we calculated Batter ability index through the arithmetic mean method, the weighted average method, principal component regression and selected the method that had high correlation with WAR. Keywords: principal component analysis, principal component regression, sabermatrics, wins above replace- ment 1. 서` |lÐ서 타자X 타©¥%D }게 Ä산Xt서 평가` 수 있는 통Ä량D 개발X0 위\ 연l는 8t버T ¸¤(sabermatrics)| 통t서 Ä속 Ä행 중t다. 8t버T¸¤는 누적된 자료| 토대\ 통Ä적x 관점Ð서 |lÐ 관\ 분석D X는 연l분|tp, t@ 같@ )법<\ 자료 분석X는 ¬람D 8t버T ¸X(sabermatrician)t|고 부x다 (Hong ñ, 2016). \m프\|l(Korea Baseball Organization; KBO)Ð서 타자 ¥%Ð 관\ 연l는 Kim (2012), Lee@ Cho (2009), Lee (2014) ñt 있<p ¹히, 0tX è순\ 통Ä량D 가õX여 |l0]D 보다 수Y적·과Y적<\ 분석X는 8t버T¸¤ 분|X 중요1@ 점( 강p되고 있다 (Kang ñ, 2014; Cho ñ, 2007). t는 타(, 타점, 득점 ñ과 같t | (적x )법<\ 수X ¥%D 분석X는 것Ð서 벗´나 T 객관적t고 l´적tp p금 T 고(Ð적 x )법<\ 수X ½0%D 평가` 수 있다는 점Ð서 |l½0 분석X 주X\ 자¬ ¡D 가고 있다 (Seung과 Kang, 2012). ¹히, 대´ 수대D¹수| 나타´는 wins above replacement(WAR)@ ¹정 수 대신 ,입됐D L ¼È나 Î@ ¹¬Ð 0여했는가| 나타´는 수X\ 지금L지 나@있는 Î@ 8t 버T¸¤ 통Ä량 중 øm프\|l(Major League Baseball; MLB)@ KBOÐ서 가¥ õ신%있는 통 Ä량<\ t©되고 있다. ø 중 KBOÐ서 ¬©X고 있는 WAR@ 다L과 같t l` 수 있다 (kbreport, http://www.kbreport.com/statDic/detail?seq=22&contentsType=a304). Batting Runs + Base Running Runs + Fielding Runs + Positional Adjustment WAR = (1.1) Runs Per Win 1Corresponding author: Department of Statistics, Yeungnam University, 280, Daehak-ro, Gyeongsan-si, Gyeongsangbuk-do 38541, Korea. E-mail: [email protected] 1272 Jea-Young Lee, Hyeon-Gyu Kim KBOÐ서X WAR@ 수X õ©¥%(batting runs)과 주è¥%(base running runs), 수D¥%(fiel- ding runs), 포지Xp정(positional adjustment)X iD 1¹Ð tùX는 득점(runs per win)<\ 나눈 값<\ 수X ¥%D 종i적<\ 나타¸다는 점Ð서 p ¥점D 가Ä다. MLBÐ서Ä WARD t©X 고 있<나, 식 (1.1)Ð서 ¬ø p정(league runs)과 대´ 수대D 타석수 보정(replacement runs)t 추 가되´ Ä산된다는 점Ð서 KBOÐ서 ¬©되는 WAR과 p금 다t다. 0|서 ø 연lÐ서는 <저 KBO 자료\부0 l\ WAR과 8t버T¸¤ 통Ä량들D 산 평균)법, 가중평균)법, 주1분회귀분석) 법Ð 적©\ ¤ DP분석X여 Á관Ä수가 가¥ 높@ 분석)법D D택X고, \종 타자¥%지수(batter ability index; BAI)| 제H\다. pt0는 KB Report(kbreport.com) 0]실Ð 게시되´있는 2013D 부0 2015DL지 지난 3D간X pt0| t©X였다. ø 연lX l1@ 다L과 같다. 2절Ð서는 8t버T¸¤ 변수Ð 대\ $명과 연lÐ ¬©된 pt0 및 분석)법D 소개\다. 3절Ð서는 산 평균)법과 Á관Ä수| t©\ 가중평균)법, 주1분회귀분석 )법D 통t 타자X ¥%D 파E` 수 있는 지수| 개발X고 WAR과 DPX여 가¥ 근접\ 지수| \종 <\ 택X여 타자¥%지수\ 제H\다. È지막 4절Ð서는 연lX 결과| 요}X고 결`D ú는다. 2. 연l )법 2.1. pt0 소개 ø 연l는 타자% 요xÐ 관\ 연l| X0 위X여 2013D부0 2015DL지 \m프\|lX 규정타석D 만q\ 153명X 타자들 중 동|\ 타자X ½우 각각 서\ 연관t 있D 것t| 생각X여 평균값<\ pt 0| 종it 총 83명X 수들Ð 대\ pt0\ 분석X였다. pt0는 케tD¬포¸(kbreport.com) 0 ]실Ð 게시되´있는 pt0| t©X였다. 변수는 타자X ½0%D 분석X는p D요\ 지수\ 제\X 였고, ´!전õ P수 1x, |l전8가 2xX Ä움D 받D 다L과 같@ 13개X 8t버T¸¤ 통Ä량D t©X였다 (Yang ñ, 2015). • õ©õ헌Ä(On Base plus Slugging; OPS) 가¥ 보¸T되고 잘 L$Ä 8t버T¸¤ 통Ä량<\서 출è(과 ¥타(X i<\ l` 수 있´ } 게 Ä산` 수 있는 ¥점t 있다. è점<\는 è순히 출è((OBP)과 ¥타((SLG)D T\다는 점x p, t는 ¥타(Ð X중된 값t|고 볼 수 있다. X지만 Ît ¬©되는 t 는 D4래Ä 간¸\ 식 L 8t다. OPS = OBP + SLG: • 총생산평균(Gross Production Average; GPA) OPSX è점D 보D\ 통Ä량<\ 출è(Ð 1.8X 가중X| P고 Ä산\다. 0|서 ¥타(t 과대평 가되는 è점D 보D` 수 있다. 1:8OBP + SLG GPA = : 4 • 수정타((SECondary Average; SECA) H타| 타수\ 나누는 타(X õ식t 갖는 가¥ p è점@ ¥타@ è타X 가X| 동| 시 Xt서 볼7 @ x정X지 J<므\ SECA는 ¥타(X 가중XÐ 4¬l@ ÄèX 가X| 고$t 만든 지수t다. (2B) + 2(3B) + 3(HR) + (UBB) + (SB) − (CS) SECA = ; AB Suggestion of batter ability index in Korea baseball - focusing on the sabermetrics statistics WAR 1273 여0서 2B는 2è타, 3B는 3è타, HR는 H런, UBB는 고X4l 제x 4¬l, SB는 Äè1õ, ø¬고 CS는 Äè실(t다. • 종iõ©%(Total Average; TA) 총 Äè수| 총 DÃ수\ 나눈 것<\ \ 시즌동H 타자가 \ 번X õ©0회Ð서 ¼È만| Äè했는 가| 나타´는 지수t다. TB + HBP + BB + SB TA = ; AB − H + CS + GDP 여0서 TB는 총è타수, HBP는 ¸Ð 맞는 õ, BB는 볼7, AB는 타수,H는 H타수, ø¬고 GDP는 병´타t다. • 득점생산%(Run Created; RC) 8t버T¸¤X =시자x L 제임¤가 고H\ 것<\ 타자X 출è¥%(A)과 주자| Äè시¤는 ¥ %(B)D 타자X 득점Ð 관\ =출¥%<\ 보고 \ 타자가 팀t 득점D ,¬는p 있´서 ´느 정Ä 0여했는지| 나타¸다. A × B RC = ; C A = (H + BB + HBP − CS − GDP); B = (TB) + 0:52(SB + SF + SH) + 0:26(BB + HBP − IBB); C = (AB + BB + HBP + SF + SH); 여0서 SF는 l생플|t, SH는 l생타, IBB는 고X4lt다. • ½0ù 득점0여Ä(Run Created per 27 outs; RC/27) RC가 타자가 몇 점D 만들´È는지| XøX는 것t|t RC/27@ \ 타자\ 9명t l1된 팀t \ ½0| Xtt 몇 점t나 QD 것x가| 평균수XT \ 것t다. RC RC × 27 = ; 27 A A = (AB − H + SF + SH + CS + GDP): • 추정득점%(eXtrapolated Runs; XR) RC@ ¬\ 개P<\ 팀X 득점Ð ¼È나 õ헌했는지| 타나´p RC@X (t점<\는 1955D부 0 1997DL지 Tt저¬ø õ식0]D 회귀분석X여 Ä출\ 형õ식t|는 점<\ 정UÄ tÐ서는 RC보다 «다고 L$8 있다. XR = 0:5(1B) + 0:72(2B) + 1:04(3B) + 1:44(HR) + 0:34(BB + HBP − IBB) + 0:25(IBB) + 0:18(SB) − 0:32(CS) − 0:09(AB − H − SO) − 0:098(SO) − 0:37(GDP) + 0:37(SF) + 0:04(SH); 여0서 1B는 1è타, SO는 ¼ÄDÃt다. • 득점õ헌Ä(Batting Runs; BR) ¬ø 타자들X 평균õ©%D 0<\ 놓@ Á태Ð서 Á대적<\ 타자X 팀 õ©0여Ä| 수XT \ 지 1274 Jea-Young Lee, Hyeon-Gyu Kim 수다. BR = 0:47(1B) + 0:78(2B) + 1:09(3B) + 1:4(HR) + 0:33(BB + HBP) + 0:3(SB) − 0:6(CS) − 0:25(AB − H) − 0:5(OOB); 여0서 OOB는 주è¬t다. • 순수¥타((ISOlated power; ISO) 타자X 파워히팅 ¥%D 나타¸ 것<\ ¥타(Ð 타((AVG)t 포h되´ 있는 것D 고$t서 고H된 지수t다. ISO = SLG − AVG: • 8타준q(Power Speed Number; PSN) 타자X 8타준q 정Ä| 나타¸ 지수\ Äè실(| 감HX지 J는다는 è점D 지È고 있다. HR × SB × 2 PSN = : HR + SB • 타석 ù 득점0대(weight On Base Average; wOBA) 타자가 타석Ð 들´0D LX 여러 가지 ÁiÐ 0x 득점 가X| 고$X여 타자X 생산%D 나타¸ 것<\ 득점과X Á관관Ä가 매우 높고, 출è(X 가X가 저평가 받는 8제점D 개 X였지만 l¥¨ 과| 반영X지 »Xp 주è@ 타©D 분¬X지 »했다는 è점D 지닌다. 0:7(BB−IBB)+0:73(HBP)+0:89(1B)+1:27(2B)+1:61(3B)+2:07(HR)+0:25(SB)+0:5(CS) wOBA= : AB − IBB • õ©0대¹`(Offensive Winning Percentage; OW%) ¬øX 평균 득점과 \ 타자X RC/27D 고$t \ 타자만<\ tè´Ä 타 tt 몇 %X ¹`D 가 지는 지| 나타´는 지수\ ¬ø평균 변T| 고$X여 \ 타자X \ 시즌 ¬ø 지0%D L 수 있다. (RC=27)2 OW% = : (RC=27)2 + ¬ø(RC=27)2 • x플레t타lD((Batting Average on Balls In Play, BABIP) 타자가 \ õt 페´지역 HÐ ¨´Ä ½우만D 나타´는 지수\ 타자@ ,수Ð게 ¨P 적©t 가¥ X다. øxX 타© ¤타|Ð 0| 자신만X 고 \ BABIP| 가지게 되p, |x드|t브 > ø|´ 드볼 > 플|t볼 순<\ BABIP 값t 높게 형1된다. H − HR BABIP = : AB − SO − HR + SF 2.2. 분석 )법 ø 연lÐ서는 \m프\|l 타자X ¥%D 파EX는 지수| 개발 및 제HX0 위t 13개X 8t버T ¸¤ 통Ä량D t©t서 산 평균)법과 가중평균)법, 주1분 분석)법D 적©X였다. <저 산 평 균)법@ 총 13개 변수| \준TX여 산 평균D l\ ¤, 각 타자들X ¥%D 평가X였다. 여0Ð서는 ¨든 변수들t 동|\ 가중X(1=n)\ 반영t 되È<므\, OPS@ GPA, wOBA@ 같@ D·\ ¥%D !정X는 ½우 t 부분X 값t p 타자가 높@ 점수| 받D 것t다. t러\ è점D 보DX0 위t서 P Suggestion of batter ability index in Korea baseball - focusing on the sabermetrics statistics WAR 1275 Table 3.1. Simple statistics for 13 variable N Mean Std Min Max OPS 83 .839 .104 .621 1.199 GPA 83 .285 .031 .217 .392 SECA 83 .311 .088 .171 .617 TA 83 .852 .159 .567 1.499 RC 83 79.123 23.747 36.960 166.810 RC/27 83 6.557 1.884 3.340 14.510 XR 83 71.180 19.763 29.566 135.955 BR 83 25.266 17.504 −8.350 89.540 ISO 83 .163 .065 .057 .377 PSN 83 8.204 6.429 .000 30.088 wOBA 83 .370 .037 .291 .488 OW% 83 .469 .125 .199 .813 BABIP 83 .337 .031 .214 .407 OPS = on base plus slugging; GPA = gross production average; SECA = SECondary average; TA = total average; RC = run created; RC/27 = run created per 27 outs; XR = eXtrapolated Runs; BR = batting runs; ISO = ISOlated power; PSN = power speed number; wOBA = weight on base average; OW% = offensive winning percentage; BABIP = batting average on balls in play.