2280
2018-04-30 15:04:00
0
용어에 관련된 부분이라 그냥 구글링해서 어디 강의자료나 위키백과에 있는 내용부터 좀 읽고 시작하심이 어떨런지요. 혹시나 읽다가 이해가 안 가면 그 특정한 개념에 대해 쉬운 풀이를 구하셔도 되구요. 질문 자체는 정말 밑도 끝도 없네요. 좋은 공부 자세는 아니지 않나, 걱정하는 마음에 쓴소리로 출발을 해봅니다.
어떤 집단에 대한 통계를 조사할 때, 횡단 연구와 종단 연구라는 개념이 있습니다. 횡단 연구란, 시간을 고정한 상태에서 집단 내에서 다양한 표본을 조사하는 것입니다. 인구 총 조사 같은 게 대표적이지요.
종단 연구는 긴 시간에 걸쳐서 반복적으로 조사를 하는 것입니다. 쉽게 생각하면, 횡단 연구를 긴 시간에 걸쳐 여러 번 진행했다고 생각할 수 있겠지요. 기억할 것은 매 조사 마다 시간이 꼬리표로 따라 붙게 된다는 것입니다.
횡단 연구 결과 표본은 {X^1, X^2, ... , X^N} 이 될 것이고
종단 연구 결과 표본은 { {X_1^1, ... X_1^N1} , {X_2^1, ..., X_2^N2}, ..., {X_T^1, ... , X_T^NT} } 이런 식으로 표현할 수도 있겠습니다.
중앙값은 대표적 통계량 중 하나로, 크기 순서로 줄을 세웠을 때 정 중앙에 있는 표본값을 말합니다.
이때 통계량이란 표본을 하나하나 다 쳐다보니 어려우니, 표본을 대표할 수 있는, 통계적 의미가 있는 값을 말합니다. 다른 통계량은 표본평균, 표본분산 등이 있습니다.
종단 연구 시 표본들에는 시간이 꼬리표로 붙는다고 했습니다. 그렇다면 종단 연구 결과의 통계량들에도 역시 시간이 꼬리표로 붙을겁니다. 다른 말로 하면, 추출된 표본이 { {X_1^1, ... X_1^N1} , {X_2^1, ..., X_2^N2}, ..., {X_T^1, ... , X_T^NT} } 라고 하면 통계량 m 은
m_1, m_2, .... , m_T 이렇게 수열이 됩니다.
각각의 m_t 들은 시간에 따라 변하며, 표본 추출에 따라 변하는 "랜덤" 변수들입니다. 하지만 완전히 무작위가 아니라, 시간에 따라 공통된 부분이 있을 것이므로 서로 연관이 되게 됩니다. 상관은, 두 랜덤 변수가 서로 얼마나 엮여있는 지를 의미하며, m_a1 과 m_a2 가 0.77의 상관을 가진다는 것은 두 랜덤 변수가 0.77의 세기로 상호 의존한다는 이야기 입니다.