소치스캔들: 소치 올림픽 여자 피겨 스케이팅 편파 판정 분석 논문 최종본 (3)

이탈리아 Tiziano Virgili 박사

                

http://www.mediafire.com/view/zsyuye3bea5e2kb/StatisticalAnalysisBooklet.pdf

            

         

제3장

An Exercise: 점수 보정하기

            

               

- 31쪽 -

         

기술점수와 PCS 양쪽 모두에서 점수들에 몇몇 편이[치우침]이 포함되어 있다는 것을

통계학적 분석이 보여주었다. 이 점수를 조정하는 것이 가능할까?

일반적으로로, 체계적[계통에 의한] 편향이 있는 결과를 수정하는 것은 쉽지 않다.

(점수)조정이 계통효과 위에서 (= 그 시스템 자체 위에서) 해야 한다는 전제들에 종속될 것이므로,

진행할 수 있는 독창적이고 간단한 방도가 전혀 없다.

       

다음에서, 나는 몇 가지 "합리적인" 전제들에 기초해 (점수) 조정을 시도한 것을 제시할 것이다.

여기서는, (이것이) "진리"라는 어떤 주장도 하지 않고,

그저 하나의 exercise로 그것이 여겨져야 한다는 점을 강조하고자 한다.

                

3.1. 포괄적 편이

          

포괄적인 편이[편향]의 효과가 제1장에서 논의되었다.

이것은 모든 값들의 전체적인, (미리 짜맞춘 것 같은) 일정한 이동으로 구성되어 있다.

이 이동이 시합의 최종 순위에는 영향을 미치지 않는 게 확실하기 때문에,

다른 시합들과 비교해보고 싶은 게 아닌 한, 굳이 여기에 점수 수정을 적용할 필요는 없다.

(높은 점수가 속속 나오기 때문에) 이때가 바로 사람들이 "세계기록"을 기대하게 되는 경우이다.

세계기록이 특정 심판진에 달려있기 때문에, 세계기록들이

절대적인 가치를 갖지 않는다는 것이 분명해져야 한다.

        

일반적으로, 서로 다른 시합에서 받은 점수들을 단순 비교할 순 없다.

대신, 제1장에서 설명했듯이, 비교가 가능한 것은 (출전자들 간의) 점수차이다.

(NOTE: 역대 최대 점수차 우승 기록의 주인공은 누구일까요?)

           

몇 가지 예를 들기 위해, 4개의 다른 국제대회를 선정했다:

2010 동계 올림픽 (OWG2010),

2014 동계 올림픽 (OWG2014),

2013년 세계선수권대회 (WC2013),

2014년 세계선수권대회 (WC2014).

           

2014 올림픽과 2014 세계선수권대회의 총점들을 비교하는 것부터 시작해보자.

총점의 분포(도)는 그림 3.1에 기록되어 있다.

                                           

                   

- 32쪽 -

         

그림 3.1: OWG2014와 WC2014의 총점 분포

        

평균과 표준편차 둘 다 비슷해 보인다.

         

WC2013과 OWG2010에 대해서도 동일한 방식으로 구한 분포(도)가 다음 그림에 기록되어 있다:

          

그림 3.2: WC2013과 OWG2010의 총점 분포표

          

이번에도 다시, 이 2개의 분포(도)가 비슷해 보인다.

그러나 우리가 앞서의(그림3.1의) 분포를 이것(그림3.2)과 비교해보면,

평균에서 약 5점의 차이를 발견하게 된다.

다시 말해, 만약 당신이 이 2개의 시합 결과를 비교하기를 원한다면,

총점에서 전체적으로 5점씩 이동시킬 필요가 있다.

  

따라서 (작금의) 세계기록들에선 어떠한가?

우리는 지금의 이런 포괄적 편이에 대해 먼저 조정을 해야 한다.

불안정 상태에 있는[서로 크기가 다른] 점수값들에 관해,

비교를 하기 위한 가장 간단한 방법은 각각의 점수에서 평균값을 빼는 것이다

(= 편차를 구해서 비교하는 것이다).

더 구체적으로 말하면, 다음의 시합들을 나란히 비교해보자:

OWG2010 - WC 2013 - OWG2014 - WC2014.

               

                 

- 33쪽 -

      

총점과 쇼트, 프리 프로그램 별 평균 점수들이 다음의 표에 기록되어 있다.

각 평균은 1위 스케이터의 점수를 빼고 구한다.

         

표 3.1: 선정된 시합들의 점수들의 평균값

         

앞서의 표를 이용해서, 이 특정 4개 대회에서 톱 스케이터들의 점수들을 다시 평가하는 것이 가능하다.

결과는 표 3.2에 제시되어 있다.

                  

표 3.2: 선정된 시합들의 편이[편향] 보정 후 최고 점수들

              

                  

- 34쪽 -

         

보정을 한 뒤 보니, (쇼트와 프리, 총점) 모든 세계기록들이 첫번째 대회,

즉 2010 올림픽에서 달성되었음이 명확해졌다.

또 다른 유형의 "세계기록"으로, 종종 최대 점수차로 여겨지며,

대개 1위와 2위 스케이터 간의 점수차를 가리킨다.

           

이 차들은 포괄적 편향으로부터는 안전하지만,

특정 스케이터들의 결합에 따라 (1위와 2위 사이의) 점수차가 달라질 수 있다.

어떤 경우든, 역대 관측된 최대 점수차가 다음과 같다는 것에 주목하니 흥미롭다:

                  

23.06점 - 올림픽 역대 최대 점수차 기록,

20.42점 - 세계선수권대회 역대 최대 점수차 기록,

36.04점 - 국제대회 역대 최대 점수차 기록 (그랑프리 대회).

 

이 모든 경우에서, 1위 스케이터는 한국의 김연아였다.

                   

3.2. 단일 스케이터에 대한 편향

                  

더 교활한(모르는 사이에 자행되는) 편향은 단일 스케이터에 대한 편향,

즉 1명의 스케이터에게 적용되는 바이어스로부터 나온다.

이것이 반드시 "치팅"을 의미하지는 않는다.

심판이 자신의 나라 출신의 스케이터를 편애할 가능성도 아주 높고,

왜 일반적으로 심판진이 시합에 참여하는 주요 국가들 출신의 저지들로 구성되는지

그 이유를 이것이 설명해준다. 평균적으로, 심판들에 의한 모든 "편향"들은

서로의 편향을 상쇄시키는 경향성을 갖는다.

         

그러나 어떤 경우에는, 그런 편향[바이어스]이 1명 이상의 특정 스케이터를 편애하는 쪽으로

작용할 수도 있다. 1명 이상의 저지들에 의해 만들어질 수 있는 바이어스[편향]의 양에 대한

더 자세한 내용은 부록 3에 기록되어 있다.

    

이제 기술점수와 PCS를 따로따로 분리해서 고찰해보자.

                

3.2.1. 기술점수

       

(최고값과 최저값을 빼고 계산하는) "절삭평균"이 대체로 효과가 없다는 것을

나는 제1장에서 보여줬다. 그것이 (점수)보정을 하는 가장 쉬운 방법이고,

그게 심판이 개입된 거의 모든 스포츠 종목에서 사용되는 이유이기도 하다.

   

그러나 "올바르지 않은" 값들을 제거하는 것이 해야 할 옳은 일인데,

정작 그것을 하는 데 있어선 (절삭평균은) 별로 효과적이지 않다.

그러므로 점수를 보정하기 위해서는 또 다른 기준이 필요하다.

        

2.1.2. 단락에서 나는 한 심판의 "공정함"에 대한 수치화로 표시된

(개연성 있는) 징표 역할을 해줄 수 있는 한 가지 방법을 보여주었다. 더 효과적인 (점수)보정은,

이 징표들에 따라, 모든 "편향된 심판들"을 평균에서 제거하는 것 안에 놓여 있다.

 

그 다음 나의 전제[가정]은 아주 큰 "N" 값을 가진 심판들의 모든 점수를 배제하는 것이다

(그림 2.6을 보시오). 이 exercise를 위해, (프리 프로그램에서는)

3차례의 다른 시도들에서 7,8,9의 임의값들이 기준점으로 설정되었다

(즉, 7이나 8, 또는 9보다 큰 N값을 갖는 모든 심판들은 배제되었다).

                

                             

- 35쪽 -

     

최종 결과는 이 기준점에 강하게 영향을 받지 않기 때문에, 최종적으로 8의 값을 사용한다.

그 후 SOV에 따라 새로운 평균을 정하고 각 스케이터 별로 합산된다.

이 전체 exercise가 쇼트 프로그램에 대해 최종적으로 반복 시행되었으며,

현재는 6을 기준점으로 한다.

                

구조[구성]상 새로운 기술점수는 (소치 올림픽) 공식 점수보다 전체적으로 더 낮아질 것이다.

       

3.2.2. 프로그램 구성점수 (PCS)

     

이미 관측되었듯이, 이 경우에, 2.1.2 단락에서 설명된 절차는

수행요소의 수가 적기 때문에 도움이 되지 않을 것이다.

그러나 PCS 점수의 보정은 그림 2.12를 토대로 수행할 수 있다.

"안전한" 선택은 모든 (시합)결과들을 포함시킨 평균을 취하는 게 될 수 있을 것이다,

즉, 최근의 모든 국제대회 결과를.

이것은 기본적으로 훨씬 더 많은 수의 심판들을 계산에 포함시키는 것이나 마찬가지가 된다.

       

확실히, 우리가 올림픽에 대한 점수를 정하고 싶어하는 것이기 때문에,

이 특정 시합(올림픽 경기)에 가장 많은 비중을 둬야 한다.

따라서 올림픽 결과에 50퍼센트의 가중치를 주고, 다른 시합들에 50퍼센트 비중을 두면

"공정한" 선택이 될 수 있을 것이다.

그러나 가능한 보수적으로 (소치 올림픽 결과를 크게 뒤흔들지 않는 쪽으로) 하기 위해서,

나는 올림픽 점수가 3분의 2가 되고 (0.66), 다른 대회들이 3분의 1이 되는 (0.33)

식으로 비중을 정했다. 대부분의 스케이터들의 경우에, 정확히 이 비중대로 구한 값이

결과 점수를 강하게 바꾸지 않는다는 점을 나는 강조하고자 한다.

         

예를 들어, 아사다 마오의 쇼트 프로그램 PCS는 다음과 같다:

33.88점 (2014 올림픽),

33.66점 (다른 시합들의 평균).

 

그러므로 만일 우리가 50 대 50의 비중을 취한다면, 우리는 33.77점의 보정값을 얻게 될 것이다.

만약 우리가 2 대 1의 비중에 맞춘다면, 보정값은 33.81점이 될 것이다.

       

이 스케이터의 경우, 겨우 소숫점 아래 두자리에 불과할 정도로 숫자들의 차가 정말로 작다.

그러나 다른 몇몇 스케이터들의 경우, 그 차이는 무시할 수 없는 수치이다.

       

새로운 PCS 점수를 평가하기 위해, 우리는 쇼트 프로그램과 프리 프로그램 둘 다에 대해

이 exercise를, 또 모든 스케이터들에 대해, 이 exercise를 반복해서 시행해야 한다.

기술점수의 경우, (소치에서 일어난) 전체적인 이동[점수 상승] 때문에,

새로운 점수는 (소치 올림픽) 공식 점수보다 평균적으로 더 낮게 나올 것이다.

                     

3.2.3. 합계 점수

   

마지막으로, 새로운 합계 점수를 얻기 위해서, 우리는 모든 부분 점수들을 합산해야 하는데,

쇼트 프로그램과 프리 프로그램 양쪽에 대한 기술점수와 PCS가 포함된다.

일부 스케이터들의 경우 감점도 적용되어야 한다는 것에 유의하시오.

소치 순위 상위 12명의 스케이터들의 최종 결과는 다음 페이지에 제시되어 있다.

                                    

                  

표 3.3: 바이어스 보정 후의 새 점수들

                  

                         

- 37쪽 -

        

최종순위뿐만 아니라대부분의 점수들이 거의 변하지 않은 것을 볼 수 있다

(예상했던 대로, 모든 점수들이 약간씩 낮아졌다), 딱 2개의 예외만 있을 뿐:

1-2위와 5-6위 스케이터들의 순위가 뒤바뀌었다.

의심할 여지 없이, 이 결과가 앞서 논한 것의 결과이다.

          

마지막으로, 이 새 점수들과 관련된 "오차"들을 계산하는 것이,

즉 발견되어질 게 확실한 오차 범위의 계산이 우리에게 필요하다.

이 최종 결과에서 최대의 불확실성은 PCS의 상대적인 비중에서 나온다.

앞서 논한 것처럼, 3분의 2의 보수적인 가중치가 이용되었다.

관련된 불확실성의 대략적인 징표를 얻기 위해서는, "합리적인" 범위 안에서

이 비중을 바꾸는 것이 가능하다. 나는 0.5와 0.7을 한계값들로 사용했다.

         

그 결과가 표 3.4에 제시되어 있으며, 거기에는 "(소치 올림픽) 공식 총점"과

2종류의 한계값, 그리고 이 둘의 평균이 표시되어 있다

(여기에 기록된 "오차들"은 2개의 한계값들의 반차와 일치하며, 그들은 통계오차가 아니다!).

        

표 3.4: 바이어스 보정 후의 새 점수들

                                         

                      

- 38쪽 -

       

똑같은 결과가 여기에서 그래프의 형태로 보여진다.

앞서의 표에서도 표시된 것처럼,  세로로 그어진 막대선들은 ("오차막대")

최소값과 최대값 사이에서 쉽게 확정할 수 없음을 가리킨다.

       

예상대로, (소치올림픽) 공식 점수와의 거리차가 큰 점수일수록 오차막대들도 더 크다.

또한, 평균점수(붉은색 점)으로 따지면, 코스트너의 순위가 2위로 올라간다는 것에

주목하자니 흥미롭다 (표 3.4를 보시오).

    

앞서 언급한 것처럼, 이 표에 제시된 오차막대들이 정확한 통계(학)적 의미를 갖는 것은 아니며,

편향[바이어스]이 없는 점수들이 발견되어져야 하는 범위의 대략적인 견적으로서 고려될 수는 있다.

표 3.3에 기록된 값들이 "아주 보수적인" 조건에 맞춘 것이라는 점에 주목하시오 (2 대 1의 비중).

                   

To Be Continued...

            

http://www.mediafire.com/view/zsyuye3bea5e2kb/StatisticalAnalysisBooklet.pdf

                         

            

@olyuna_js

   

                

출처 : Viva la Reina~!
글쓴이 : 원더키디 원글보기
메모 :

+ Recent posts