소치스캔들: 소치 올림픽 여자 피겨 스케이팅 편파 판정 분석 논문 최종본 (1)
이탈리아 Tiziano Virgili 박사
http://www.mediafire.com/view/zsyuye3bea5e2kb/StatisticalAnalysisBooklet.pdf
Sochi Ladies Figure Skating: a Statistical Analysis
소치 여자 피겨 스케이팅: 통계학적 분석
Tiziano Virgili
살레르노 대학교 물리학과
& 이탈리아 국립 원자물리학 연구소
2014년 9월
목차
7페이지 - 서문
9페이지 - 제1장
15페이지 - 제2장
31페이지 - 제3장
39페이지 - 제4장
45페이지 - 맺음말
46페이지 - 부록 1
47페이지 - 부록 2
49페이지 - 부록 3
52페이지 - 참고자료
유투브에 올린 이 소책자의 요약 자료:
https://www.youtube.com/watch?v=cQH02Sc0WMA
서문
- 7쪽 -
소치 올림픽이 끝난 뒤로 여자 피겨 스케이팅 결과에 대한 강한 논란이 계속 전개되어 왔다.
주요 쟁점은 현 세계기록에 매우 근접한 우승자의 (러시아의 소트니코바) 엄청난 점수였다.
카타리나 비트와 커트 브라우닝을 비롯해 많은 해설자들이 이 결과를 스캔들이라고 주장한 한편,
일부 다른 사람들은 최소한 기술점수에 대해서는 옹호를 했다.
내가 놀란 것은 이탈리아 TV 해설자들이 거의 모든 점수들을 정확하게 예측했다는 사실이었다,
3개의 중요한 (점수들만) 제외하고: 바로 2명의 러시아 출전자와 한국 스케이터.
이게 단지 우연의 일치였을까?
2명의 심판들의 자격이 중요한 임무를 맡기에 실제로 적합하지 않았다는 언론 보도가 나오면서
논란은 증폭되었다. 또한, (프리 스케이팅) 심판진에 러시아 심판이 2명이나 포함된 반면,
한국 심판은 전혀 포함되지 않았기 때문에, 심판진의 구성도 약간 비정상적이었다.
웹상에서 벌어지는 토론의 대부분이 프리 프로그램의 "기술점수"에 집중되어 있고,
저마다 다른 주장을 펼치고 있다.
소트니코바의 지지자들은 수행요소의 개수와 난이도에 주목하는 반면,
김연아의 지지자들은 수행의 질(퀄리티)를 지적한다.
그러나 프리 프로그램 "기술점수"는 총점의 약 3분의 1만을 구성하기 때문에,
이 모든 논의들은 오도의 소지가 있다.
웹상에서 벌어지는 토론들을 살펴보면, 점점 더 많은 사람들이 피겨 스케이팅을 "주관적인 스포츠"로,
즉 최종결과가 정확한 측정에 의해 결정되는 것이 아닌 종목이라고 여기고 있다는 점 또한 분명하다.
이러한 사람들의 주장에 의하면, 피겨 스케이팅이 본질적으로 "개인적인 취향"에,
더 정확하게 말해서 "심판들의 취향"에 달려있다는 것이다.
이것은 (비단 피겨 스케이팅만이 아니라) 심판이 관여하는 어떤 대회/시합에서든지
대체로 맞는 얘기일 수 있다.
(그렇다면) 이러한 대회/시합들에 "객관적"이라는 의미가 조금이라도 있기는 하는 것일까?
이 물음은 사소한 것이 아니며, 여기에는 (피겨 스케이팅, 체조, 다이빙,
싱크로나이즈드 스위밍, 스노우보드, 복싱, 유도 같은 엄청나게 많은 스포츠 경기들과
(피아노, 무용, 노래 콘테스트 같은) 예술 경연들,
그리고 (대학입시 면접과 공직 채용 등등의) 공적인 선발 같은 중요한 행사들이 대거 관련된다.
따라서 이 물음에 대한 "과학적인" 해답을 제공하는 것 또한 대단히 중요하다.
- 8쪽 -
분명, 기술적인 관점에서, 나는 소치 올림픽 결과에 대해 논평할 자격을 갖고 있지 못하다.
그러나 물리학자로서, 내가 데이터 분석을 수행하는 데 익숙하기 때문에
숫자로 표시된 점수들을, 마치 그것들이 "실험 데이터"인 양, "맹목적으로" 보려고 노력해왔다.
실험 데이터에 대한 모든 과학적 접근의 기초가 통계(학)적 분석이므로,
나는 아주 통계학적인 분석 방법들에 기초하여 아주 간단한 검사들을 시행했다.
이 방법들이 대체로 심판진의 "객관성"의 양을 수량화하고
(더 중요한 것으로) 판정 결과들에 존재하는 편향[편중]을 발견하는 걸 가능케 해주기 때문에,
심판진이 있는 모든 대회/시합에서 이 방법들이 실제로 사용되어야 한다.
이 책의 제1장에서, 나는 평균과 표준편차(RMS) 같은 통계학의 몇 가지 간단한 개념들을 제시할 것이다.
제2장에서, 나는 소치 올림픽의 "기술요소들"과 "프로그램 구성(점수)들"을 분석할 것이다.
제3장에서, 나는 이전의 통계(학)적 분석에 기초한 방법들을 가지고
편향[편중]에 대해 점수들이 어떻게 교정될 수 있는지 보여드릴 것이다.
마지막으로, 제4장에서는 피겨 스케이팅의 "객관성"에 관한 물음에 관해 논할 것이다.
몇몇 기술적인 언급들은 일부 웹상의 토론들의 링크(주소) 리스트와 부록에 적혀 있다.
이 작업이 소치 올림픽 결과뿐만 아니라, 보다 일반적으로는
점수를 받는 모든 시합의 과학적인 검사를 수행할 때 가이드로서
도움이 되기를 바란다.
- 9쪽 -
제1장
왜 통계(학)인가?
1.1 통계오차
"객관적인" 결과란 무엇인가? 기본적인 고찰로 시작해보자.
과학적인 관점에서, 객관적인 결과란, 언제 어디서나 모든 사람들에 의해
(그대로) 재현될 수 있는 결과이다.
간단한 예가 바로 중력이다: 중력은 모든 사람들이 어디서나 언제든지 경험할 수 있다.
일반적으로 어떤 결과도 (무한대로 정확하게) 똑같이 재현될 수는 없다.
측정(값)들이 약간의 오차범위 내에서 재현될 수 있기 때문에,
측정오차라고 알려진 이 (오차) 범위를 결정하는 것이 아주 중요하다.
이제 가장 "객관적인" 스포츠 종목들 중 하나를 예로 들어보자: 육상 100미터.
100미터 경주는 주자들의 시간이 상당히 정확하게 측정될 수 있기 때문에,
가장 "객관적인" 스포츠에 속한다고 널리 여겨진다.
자 이제, 주자들이 차례대로 나가고 그들의 시간이 수동으로 조작되는 스톱워치에 의해
측정될 거라고 가정해보시오. 따라서 각 선수의 달리기 시간은 (결국)
인간 오퍼레이터에 의해 측정될 것이며,
인간의 감각에 대한 감도 때문에 무시할 수 없는 오차가 생길 것이다.
어떤 식으로든 측정된 시간은 "참값"보다 크거나 작을 것이다.
이런 종류의 변이[편차]는 통계오차라고 알려져 있다
(뒤에서 우리가 보게 되겠지만, 이것은 측정(값)에서의 유일한 오차 원인은 아니다).
우리는 수동으로 조작하는 스톱워치를 몇 개 더 추가함으로써
이 측정(값)들을 개선할 수 있다.
이럴 경우, 인간의 (동시에 반응하지 못하는) 결정력 부족으로 인해
어떤 오퍼레이터든 조금씩 다른 결과가 나올 것이다.
1.2.1. 평균과 분포
다양한 변량들의 평균을 구함으로써 "참값"에 더 가깝게 어림값을 구하는 것이 가능하다.
이것(평균)은 변량의 총합을 변량의 수로 나눈 값으로 정의된다.
- 10쪽 -
일반적으로, 측정값들(스톱워치들)의 수가 더 클수록
평균에 대해 우리가 갖는 오차는 더 낮아진다.
즉, 통계오차는 측정값들의 수인 도수의 총합 N을 늘림으로써 항상 감소될 수 있다.
그러므로 원칙적으로, 당신은 오퍼레이터의 수를 늘림으로써
당신이 필요로하는 정확(성)에 도달할 수 있다.
우리가 든 예에서, "인간의" 시간에 대한 변별력은 0.2초 단위로 나뉘어지기 때문에,
약 100개의 스톱워치로 구성된 그룹은 약 0.02초의 포괄적인 변별력을 제공해줄 것이다
(측정값으로 나온 시간은 100명의 독립된 측정값들의 평균과 일치할 것이다).
그다지 실용적이지는 않지만, 그럼에도 여전히 효과적이다!
"히스토그램"이라고 알려진 도표를 작도함으로써 모든 측정값들을 시각화할 수 있다.
우리에게 10개의 변량이 있다고 가정해보자:
9.8, 10.2, 10.0, 10.0, 10.1, 10.3, 10.0, 9.9, 10.1, 9.9.
우리는 쉽게 평균을 계산할 수 있다 = 10.03.
이제 우리는 다음과 같은 식으로 그래프에 이 숫자들을 표시할 수 있다.
첫째, 우리는 적당한 규모로 나뉘어진 눈금이 그려진 가로축부터 정의한다
(즉 대강 우리가 가진 10개의 숫자들의 범위 안에서):
다음으로, 각 변량에 대해, 우리는 일치하는 개수만큼 "박스"를 쌓는다.
따라서 세로축의 눈금에서 우리는 그 변량값을 가진 "박스"의 개수만 세면 된다.
예를 들어, "10.0"의 값을 가진 변량이 우리에게 3개 있으므로,
10.0에서 전체 박스의 높이는 3이 된다.
최종으로 구한 도형[그래프]가 여기 있다: 이것이 분포의 아주 간단한 예이다.
- 11쪽 -
도수의 총합은 (즉 박스의 개수는) 당연히 10이다.
이 그래프는 단순한 평균 이상의 것것을 알려준다:
변량들이 평균을 중심으로 어떻게 배열되는지 볼 수 있다.
다시 말해서, 분산의 "형태"에는 중요한 정보들도 또한 포함되어 있다.
만약 측정값들에 무작위[확률적] 오차만 포함되어 있다면,
분산의 형태가 앞서의 그림과 비슷하게 나올 것이다:
중간 부근에서 최대치를 그리고, 양쪽 끝으로 갈수록 작아진다.
정확한 형태는 "정규분포"(또는 "가우시안 분포")라고 불리는데,
이 경우, 평균값이 최대값과 일치한다.
분산의 폭 또한 아주 중요하다.
이것은 "표준편차"라는 또 다른 숫자에 의해 수치로 나타내어질 수 있다.
그림 1.2: 가우시안 분포의 예
1.2.1 표준편자 - RMS
표준편차(σ 시그마)는 분산의 폭,
즉 숫자들이 평균으로부터 얼마나 멀리 떨어져 있는지에 대한 정보를 제공해준다.
이것은 (다음의 RMS에서) "제곱평균제곱근"으로 계산할 수 있다.
한 가지 예를 다음의 그래프에서 볼 수 있다: 가로줄은 제곱평균제곱근(RMS)을 가리킨다.
대체로 RMS는 반치에서 분산의 폭이다.
요약하면, 만일 우리가 무작위[확률적] 오차의 영향을 받는 많은 측정들을 되풀이한다면,
우리는 "종" 모양의 분포(도)를 얻게 된다.
표준편차가 클수록 분산의 폭이 넓다는,
즉 측정값들의 편차가 크다는 의미라는 것이 이제 완전히 이해될 것이다.
- 12쪽 -
그림 1.3: "RMS (제곱평균제곱근 표준편차)"의 정의
이 매개변수는 또한 평균 M에 관한 오차와도 관련이 있다:
작은 RMS는 작은 ΔM에 대한 작은 오차와 일치한다.
우리가 (앞서) 예로 든 숫자로 돌아가서,
우리가 이 분포에 대해 갖는 표준편차(RMS)는 0.14이며,
따라서 평균에 대한 오차는 ΔM=0.045이다.
우리가 봤듯이, 측정값들의 개수 N을 늘림으로써
이 오차를 더욱 줄일 수 있다.
1.2. 계통오차
"통계오차" 외에, "계통오차"라고 알려진 또 다른 유형의 오차가 존재한다.
포괄적인 계통오차는 모든 측정값에서 공통적으로 나타나는 편이[편중]이다.
한 가지 예로, 어떤 한 저울로 다양한 물체들의 무게를 측정한다고 가정해보자.
관찰값들이 "진짜" 무게들과 일치한다고 우리가 정말로 확신할 수 있을까?
독립적인 측정기구(또 다른 저울)를 이용할 수 있지 않는 한,
그렇다고(= 확신한다고) 말하기 어렵다.
하나의 온도계로 온도를 측정하는 것도 또 하나의 예가 될 수 있다.
만약 저울 또는 온도계가 정확하지 않다면, 모든 측정값들이 (그 기계가 갖는 오차만큼)
똑같은 양이 이동되어 측정될 것이고,
우리는 전체적인 편이[편중]를 관측하게 될 것이다.
일반적으로 말해서, 계통오차는 고치기가 상당히 어렵다.
당신이 "외부의 참고 자료"를 갖고 있지 않는 한,
모든 측정값들에 "올바른" 수정값을 적용하는 것이 가능하지 않다.
그러나 만약 우리가 그 편차들을 고려한다면,
있을 수 있는 "편이"가 (온도나 무게에서 측정값이 전체적인 이동)
크게 감소되거나 제거될 수 있다고 우리는 더 확실할 수 있을 것이다.
계통오차의 다른 유형은 개별 측정값에 적용된 편이이다.
예를 들어, 만약 측정 과정에서 실수를 할 경우에 이게 발생할 수 있다.
그 결과, 결과값이 다른 결과들과 현저하게 동떨어지게 나올 것이다.
- 13쪽 -
다음의 그림에서, 그것이 히스토그램 상에서 동떨어진 위치에서 보일 것이다:
그림 1.4: "올바르지 않은" 측정(값)의 예
이 예에서, 우리는 앞서 예로 든 10개의 숫자들에 새로운 변량값 10.5을 추가했다.
이것은 평균에 변화를 만들 것이며, M=10.03에서 M=10.07로,
표준편차 또한 0.14에서 0.19로 증가할 것이다.
이 "올바르지 않은 변량(값)들"을 다루는 간단한 방법은 절삭평균을 고려하는 것이다.
이것은 측정값들의 최대값과 최소값을 제거함으로써 얻어지는 평균이다.
앞서의 예로 다시 돌아가서,
우리는 다음의 그림에서와 같이 2개의 엔트리값들을 제거해야 한다:
그림 1.5: 절삭평균을 구하는 방식
이 경우에, 새로운 평균은 M=10.06이며 표준편차는 0.13이 될 것이다.
당신도 볼 수 있듯이, 표준편차 σ는 많이 줄어들지만, 평균은 그렇게 많이 바뀌지 않는다.
사실, 이것은 편이를 제거하기 위한 아주 개략적인[정교하지 않은] 수단이다.
더 정교한 수단들을 사용하면 "올바르지 않은 변량(값)들"을 더 효과적으로 제거할 수 있다.
여기에서는 단 1개의 "올바르지 않은 값"만으로도 평균에 편이를 만들어내는 데
이미 효과가 있다는 점에 주목하는 것이 중요하다.
물론, "올라바르지 않은 변량(값)들"의 개수가 1개보다 많아진다면 상황은 더 악화된다.
일반적으로, 표준편차 자체는 "올바르지 않은" 데이터 값을 식별하는 데 도움이 되는
훌륭한 변수이다. 거의 모든 변량들이 실제로 "3RMS" 사이에 포함되어 있다,
즉, 모든 변량들의 평균으로부터의 거리는 대개 표준편차(RMS)의 3배보다 짧다.
앞서의 예에서, 평균은 10.06이고, 3RMS는 0.39이다.
- 14쪽 -
따라서 거의 모든 변량들이 이 범위 안에 있어야 한다.
이 조건이 (범위 안에 포함되는) "좋은 값" 9.8은 수용하고
(범위를 벗어나는) "나쁜 값" 10.5는 퇴출시키는 것이 눈에 쉽게 보인다.
그림 1.6: RMS에 기초한 방법의 작동 원리
1.3. 통계학과 피겨 스케이팅
이제 수동으로 조작하는 스톱워치로 측정하는 100미터 달리기에 관해 든 예로 다시 돌아가자.
주자들의 객관적인 기록 분류를 구하기 위해서는,
시간 측정의 비결정성이 선수들의 시간차보다 작아져야 한다는 것이 이제 명확해졌다.
예를 들어, 만약 그 차이들이 0.02초의 순서로 나뉘어진다면,
평균에 대해 기껏해야 최대 0.01초의 순서로 (기록들이) 배열된 오차가 우리에게 필요하다.
이렇게 되려면 약 400개의 수동조작 스톱워치가 필요할 것이다!
이제 우리는 달리기 선수들을 스케이터들로 대체하고,
스톱워치는 심판단의 저지들로 대체할 수 있다.
스케이터들 간의 점수 차에 비해 점수 상의 오차들이 작다면,
우리는 "객관적인 결과"를 얻게 되는 셈이다.
다시 말해서, 심판단이 수동조작 스톱워치들의 그룹에 해당한다고 보면 된다.
일부 심판들-(즉) 스톱워치들-은 편향적으로 치우쳐 있을 가능성이 당연히 존재한다:
그들의 측정값은 다른 측정값들과 아주 다르다.
간단한 절삭평균이 피겨 스케이팅 점수에 (그리고 많은 다른 스포츠에서도 또한) 적용되는 수정값이다.
그러나 우리가 듯이, 모든 편향된[편차가 큰] 점수들을 제거하기에는
이 방법은 효과적이지 못하다.
내가 앞서 든 예에서 보여드린 것처럼,
한쪽으로 치우친[편차가 큰] 점수들은 점수 분포에 따라 제거되어야 한다.
다음 장에서, 나는 (소치 여자 피겨 스케이팅 판정) 결과들에서
있을 수 있는 편이[편중]을 찾겠다는 목적을 갖고서,
앞서 고찰한 사항들을 소치 여자 (피겨 스케이팅) 점수들에 적용해볼 것이다.
To Be Continued...
http://www.mediafire.com/view/zsyuye3bea5e2kb/StatisticalAnalysisBooklet.pdf
'Aart♡Sport' 카테고리의 다른 글
[스크랩] 이탈리아 박사의 소치스캔들 논문 최종본 (3) (0) | 2014.10.02 |
---|---|
[스크랩] 이탈리아 박사의 소치스캔들 논문 최종본 (2) (0) | 2014.10.02 |
한국피겨사상 최초 전 그랑프리대회 출전!!!!! (0) | 2014.09.11 |
[펌] 연아 선수 패턴 잠금화면 (0) | 2014.08.22 |
[스크랩] 카타리나 비트 "Carmen on Ice" (0) | 2014.08.09 |