[스크랩] 이탈리아 박사의 소치스캔들 논문 최종본 (4)

2014. 10. 2. 11:14

소치스캔들: 소치 올림픽 여자 피겨 스케이팅 편파 판정 분석 논문 최종본 (4)

이탈리아 Tiziano Virgili 박사

http://www.mediafire.com/view/zsyuye3bea5e2kb/StatisticalAnalysisBooklet.pdf

제4장

The "Jury Resolution" Power

- 39쪽 -

4.1. 변별력

피겨 스케이팅에서의 (보다 일반적으로, 심판이 있는 시합에서의) "객관성"에 관한

개괄적인 문제로 이제 다시 돌아가고자 한다.

피겨 스케이팅 전문가들은 대개 심판들의 평가를 신뢰하는 반면,

다른 사람들은 그들의 객관성에 대해 더 회의적인 편이다.

우리가 과학적인 관점에서 이 문제에 접근할 수 있을까? 피아노 경연대회를 생각해보자.

첫번째 연주자가 8점부터 9점 사이의 점수들을 받는다고 가정해보자.

그 후, 두 번째 연주자는 6점에서 7점 사이의 점수들을 받는다.

첫번째 연주자가 두 번째 연주자보다 훨씬 더 뛰어나다고 말하는 것이 합리적이다.

그러나 만약 두 번째 연주자가 7.5에서 8.5점의 점수들을 받는다면 어떻게 될까?

그래도 우리는 여전히 첫번째 연주자가 더 낫다고 확실히 말할 수 있을까?

여기에서 문제가 되는 것이 심사위원단의 "변별력"인데,

변별력이란 그들이 (연주자들의 우열을) 분리할 수 있는 최소한의 점수차이다.

다른 여느 악기와 마찬가지로, 당신의 측정(능력)에 한계를 제공하는

"고유한(본질적으로 내재한) 분해 능력"이 존재한다.

즉, 다시 말해서, 당신은 그 한계값 밑의 양은 식별할 수 없다.

심사위원단의 변별력은 스포츠 종목에 따라 시합에 따라 다를 수 있다.

다음에서, 나는 피겨 스케이팅 여자 경기의 경우에서의 평균적인 변별력(의 한계값)의

견적을 구하기 위해 시도해볼 것이다.

이 심판진의 이 "변별 능력"을 평가하기 위해, 심판들로부터 나오는 점수들의 분포를 고찰해보자.

각 심판은 (100미터 육상의) 스톱워치 오퍼레이터와 같기 때문에,

따라서 우리는 최선의 측정(값)으로 평균값을 취하고, 분산의 폭에 대한 어림치로 표준편차를 취한다.

한 가지 예로서, 여자 올림픽 경기 (쇼트 + 프리) 기술점수와 PCS 둘 다에 관한

카롤리나 코스트너의 점수들의 분포가 그림 4.1에 기록되어 있다.

언제나처럼, 각 심판이 이 분포(도)에서 1개씩의 엔트리값을 제공한다.

(19페이지와 20페이지에 실린 도표들 각각에서, 기술점수에는 기초점이 포함되어 있으며,

쇼트 프로그램과 프리 프로그램에 합산되어 있다).

평균과 표준편차가 같은 그림에 기록되어 있다.

- 40쪽 -

그림 4.1: 코스트너의 총점의 분포(도)

예상했던 대로, PCS("예술"점수)의 표준편차가 기술점수보다 크다 (3.6 대 1.6).

이 경우에, (기술점수와 PCS를 합친) 총점에서의 오차는 PCS의 오차의 지배를 받는다.

그러나 만약 우리가 또 다른 스케이터를 고른다면, 다른 평균과 다른 표준편차를 가진

분포는 다르게 보일 것이다. 우리는 스케이터들의 전체 표본에 대한 표준편차의 평균을

더 대표적인[대표성을 갖는] 것으로 간주할 수 있다.

2014 올림픽 여자 싱글 경기에 출전한 모든 스케이터들의 표준편차의 분포가 아래의 그림에

기록되어 있다, 기술점수 (왼쪽) & PCS (오른쪽).

"가우시안 fit"도 또한 실행된다 (붉은선).

그림 4.2: 기술점수와 PCS에 둘 다에 대한 모든 스케이터들의 "표준편차"의 분포(도)

- 41쪽 -

여기에서도 또 다시, PCS의 표준편차가 기술점수들의 표준편차보다 더 크다 (2.6 대 1.2).

기술점수와 PCS를 합하면 총점이 나온다.

총점의 표준편차도 같은 식으로 구할 수 있으므로, 우리는 최종 결과를 얻게 된다:

이것은 평균에 대한 약 1.3의 오차와 일치한다.

다시 말해서, 피겨 스케이팅에서 심판진의 변별력은(변별할 수 있는 최소 점수차는) 약 1.3점이다.

표준 "최소" 변별값이 바로 이 값으로, 즉, 심판진은 1.3점보다 적은 (점수차의) 범위 안에서는

스케이터들을 변별할 수 없다. 그러므로 총점에서 1.3점보다 적은 점수차를 갖는 스케이터들은

(사실상) 동점으로 간주되어야 한다. 2배를 곱해서 맞추면 더 안전한(실패할 염려가 적은)

변별값이 될 수 있다는 점에 주목하시오 (2.6점).

원칙적으로, (최소)변별값은 점수 자체에 따라 달라진다는 점 또한 주목하시오.

단순하게 가기 위해, 여기서 나는 평균만을 고려하고 있다.

이제 우리는 이 변별값이 말이 되는 순위를 만들어내기에 충분한 것인지 질문할 수 있다.

최종 순위에서 가장 근접한 스케이터들 사이의 점수차의 분포를 한 번 살펴보자

(즉, 1-2위 스케이터의 점수 차와 2-3위의 점수차, 3-4위의 점수차 등등).

여기에서 나는 다음의 국제대회들을 고려했다:

WC2014 – OWG2014 – WC2013 – WC2012 – OWG2010.

결과는 그림 4.3에서 설명되어 있다.

이 분포는 대강 (오른쪽으로 갈수록) 감소하는 지수함수의 형태로 설명될 수 있다.

이것은 점수차의 대부분이 그림의 왼쪽에 집중되어 있음을 의미한다.

앞서 설명했듯이, 심판진은 최소 변별값이 1.3보다 낮은 점수들은 식별하지 못한다.

1.3점이라는 값은 붉은선으로 그림에 표시되어 있다.

(파란선은 "2시그마 (= 표준편차X2)"로 구한 변별값에 해당한다.)

- 42쪽 -

그림 4.3: 다음 스케이터들 간의 점수차의 분포

이 2종류의 한계값들보다 더 큰 값들의 비율은 각각 전체의 69%와 52%이다.

따라서 약 70%에서, 최종 순위가 "객관적"인 것으로 간주될 수 있는 반면,

약 30%에서 이것이 단지 "통계(학)상의 변이"에서 나오는 것일 뿐이다.

그러나 만일 우리가 최종 등수의 톱 순위들을 고찰해본다면 상황은 나아진다.

만약 우리가 점수 차들을 톱4 순위들로 한정해서 본다면,

분포(도)가 오른쪽으로 더 확대되는 것으로 보인다.

실제로, 더 큰 점수들은 평균적으로 더 큰 점수차들과 일치하기 때문에,

이렇게 선별해서 따지면, 우리는 이 분포에서 더 큰 값을 가진 더 많은 엔트리값들을 갖게 된다.

만약 이제 우리가 앞서의 한계값들을 계산에 포함시킨다면,

최소 한계값보다 더 큰 엔트리값들의 비율은 90%에 이른다 (2.6점을 한계로 하면 80%).

따라서 약 90%에서 메달 스탠딩이 "객관적"이라고 간주될 수 있다.

이것은 앞서의 1.3점의 한계보다 점수 차가 더 큰 모든 경우에서 맞는 것으로 해당된다.

단 1명의 개별 스케이터에 대해서도 바이어스[편향]이 전혀 존재하지 않는다는

조건에서(만) 이 모든 고려사항들이 참이라는 점에 유의하시오!

4.2. 내재 변동

피겨 스케이팅에서는, 단 한 개의 실수로도 실패를 가져올 수 있기 때문에,

내재 변동, 즉 (시합 별로) 연기/수행이 다른 변동들이 최종 결과에 강력한 영향을 미친다.

다른 스포츠에서의 변동들은 어떨까? 남자 100미터 달리기를 다시 한 번 보자.

선수들의 수행에서의 변이[변동]들은 눈에 덜 명확하게 보이지만, 결코 무시할 수 없다.

- 43쪽 -

이 변동들을 추정하기 위해서, 나는 가장 빠른 (단거리 육상)선수들의 가장 최근의 수행들을 고찰해봤다.

"표준편차" 결과는 시간(기록) 평균과 상관관계가 있었다. 더 적은 시간기록득을 선택해서 따져보면,

약 0.04초의 평균 오차가 나온다.

다시 말해서, 0.04초보다 적은 시간차는 수행에서의 (있을 수 있는) 변이로 간주될 수 있다.

이 종목에서 이게 드문 상황일까? 그런 기록 차들의 분포(도) 다시 한 번 보자.

다음의 그림에 그것들이 기록되어 있다:

그림 4.4: 다음 주자들 사이의 시간 차의 분포

가장 근접한 기록의 주자들 사이의 시간 차의 분포(도)를 이 그림에서 볼 수 있다

(1-2위 주자 사이의 시간 차; 2-3위; 3-4위 등등). 나는 2004년부터 2013년까지의

모든 주요 국제대회들을 여기에서 고찰해보았다 (올림픽과 세계선수권대회).

피겨 스케이팅의 경우에서와 마찬가지로, 대충 (오른쪽으로 갈수록) 감소하는 지수함수의 형태로

분포(도)가 설명될 수 있다 (붉은선).

"1시그마 (= 표준편차X1배)" (최소)변별과 "2시그마 (= 표준편차X2배)" 변별도 또한 직선으로 기록되어 있다

(각각 붉은색과 파란색 세로선).

- 44쪽 -

이 2개의 한계값들보다 더 큰 경우들의 비율은 현재 각각 66%와 48%이다.

그러나 만일 톱 4위까지만 우리가 고려한다면, 비육은 약 55%와 39%이다.

즉, 최고순위들에 대한 내재변동은 약 45%의 경우에서 연관성이 있다!

육상에서는 "(특정) 개별 주자에 대한 편향"이 전혀 존재하지 않는다는 점은 분명한 사실이고,

이런 의미에서, 피겨 스케이팅보다 결과가 훨씬 더 "객관적"이다.

그러나 모두가 알다시피, 대부분의 경기/대회에서 바이어스[편향]은 존재한다.

게다가, 어느 스포츠에나 유감스럽게도 치팅의 가능성이 존재한다!

To Be Continued...

http://www.mediafire.com/view/zsyuye3bea5e2kb/StatisticalAnalysisBooklet.pdf

@loveyou0905

출처 : Viva la Reina~!

글쓴이 : 원더키디 원글보기

메모 :

'Aart♡Sport' 카테고리의 다른 글

[스크랩] 소치 여자 피겨 스케이팅 통계 분석 한글판 (0)	2014.10.02
[스크랩] 이탈리아 박사의 소치스캔들 논문 최종본 (5) (0)	2014.10.02
[스크랩] 이탈리아 박사의 소치스캔들 논문 최종본 (3) (0)	2014.10.02
[스크랩] 이탈리아 박사의 소치스캔들 논문 최종본 (2) (0)	2014.10.02
[스크랩] 이탈리아 박사의 소치스캔들 논문 최종본 (1) (0)	2014.10.02

별에서오다의 블로그

[스크랩] 이탈리아 박사의 소치스캔들 논문 최종본 (4)

'Aart♡Sport' 카테고리의 다른 글

+ Recent posts

티스토리툴바