오늘의유머 - 통계 계산을 도와주는 프로그램 R을 배워보자! (6)

모바일 오유 바로가기
http://m.todayhumor.co.kr

분류	게시판
베스트	베스트오브베스트 베스트 오늘의베스트
유머	유머자료 유머글
이야기	자유 고민 연애 결혼생활 좋은글 자랑 공포 멘붕 사이다 꿈 똥 군대 밀리터리 미스터리 술한잔 오늘있잖아요 투표인증 새해
이슈	시사 시사아카이브 사회면 사건사고
생활	패션 패션착샷 아동패션착샷 뷰티 인테리어 DIY 요리 커피&차 육아 법률 동물 책 지식 취업정보 식물 다이어트 의료 영어 맛집 추천사이트 해외직구
취미	사진 사진강좌 카메라 만화 애니메이션 포니 자전거 자동차 여행 바이크 민물낚시 바다낚시 장난감 그림판
학술	경제 역사 예술 과학 철학 심리학
방송연예	연예 음악 음악찾기 악기 음향기기 영화 다큐멘터리 국내드라마 해외드라마 예능 팟케스트
방송프로그램	무한도전 더지니어스 개그콘서트 런닝맨 나가수
디지털	컴퓨터 프로그래머 IT 안티바이러스 애플 안드로이드 스마트폰 윈도우폰 심비안
스포츠	스포츠 축구 야구 농구 바둑
야구팀	삼성 두산 NC 넥센 한화 SK 기아 롯데 LG KT 메이저리그 일본프로야구리그
게임1	플래시게임 게임토론방 엑스박스 플레이스테이션 닌텐도 모바일게임
게임2	던전앤파이터 롤 마비노기 마비노기영웅전 하스스톤 히어로즈오브더스톰 gta5 디아블로 디아블로2 피파온라인2 피파온라인3 워크래프트 월드오브워크래프트 밀리언아서 월드오브탱크 블레이드앤소울 검은사막 스타크래프트 스타크래프트2 베틀필드3 마인크래프트 데이즈 문명 서든어택 테라 아이온 심시티5 프리스타일풋볼 스페셜포스 사이퍼즈 도타2 메이플스토리1 메이플스토리2 오버워치 오버워치그룹모집 포켓몬고 파이널판타지14 배틀그라운드
기타	종교 단어장 자료창고
운영	공지사항 오유운영 게시판신청 보류
임시게시판	메르스 세월호 원전사고 2016리오올림픽 2018평창올림픽 코로나19 2020도쿄올림픽

회원가입 ID찾기 PASS찾기

게시판찾기

게시물ID : science_51338

작성자 : Statistics★

추천 : 5

조회수 : 1418

IP : 118.127.***.7

댓글 : 3개

등록시간 : 2015/06/16 22:37:15

http://todayhumor.com/?science_51338

통계 계산을 도와주는 프로그램 R을 배워보자! (6)

http://www.todayhumor.com/?science_51150 - 1탄입니다.

http://www.todayhumor.com/?science_51188 - 2탄입니다.

http://www.todayhumor.com/?science_51230 - 3탄입니다.

http://www.todayhumor.com/?science_51276 - 4탄입니다.

http://www.todayhumor.com/?science_51301 - 5탄입니다.

벌써 여기까지 왔네요... 부족한 지식으로 쓴 글이지만 봐주셔서 감사합니다.

오늘은 회귀분석에 대해서 알아보겠습니다.

1. 회귀분석이란?

변수들 사이의 함수적 관걔를 탐색하는 방법입니다.

간단히 설명해서 Y라는 변수를 X1 ~ Xn이라는 n개의 변수들의 선형결합(1차 방정식을 생각하시면 편합니다.)으로 나타내고자 하는거죠.

기본식은 Y=b0+b1*X1+b2*X2+...+bn*Xn+e(오차항) 으로 볼 수 있겠습니다.

2. 단순선형회귀

이해하시기 쉽게 바로 예시를 들어볼까요? 일단 P031.txt라는 데이터를 example1로 불러오겠습니다.

각 변수의 Scatter plot(산점도)을 그려보니 요렇게 나오는군요.

Units가 커질수록 Minutes도 커지는 경향이 있는 것, 보이시나요?

회귀분석은 이런 데이터를 가지고 만약 Unit이 10을 넘어 11이나 12, 그 이상으로 간다면 Minutes가 얼마가 될 지를 예상할 수 있게 해줍니다.

식을 써보도록 하죠.

눈치 빠르신 분들은 알아채셨겠지만 위의 lm이라는 함수가 선형회귀를 만드는 함수입니다.

regression<- regression이라는 이름으로

lm() 선형회귀를 해볼건데

lm(Minutes ~ Units Units라는 변수로 Minutes를 설명하고 싶다( Units가 x, Minutes 가 y가 됩니다.)

,data=example1) 데이터는 example1에서 따온거다.

라는 뜻입니다. 그리고 밑의 summary는 그래서 한번 니 결과를 읊어봐라... 라는 뜻입니다.

결과창을 보시면

Call:

lm(formula = Minutes ~ Units, data = example1)

Residuals: #Residual(잔차)는 실제 Y값에서 우리가 예상한 Y값을 뺀 결과입니다. 이 잔차가 작으면 작을수록 좋은 모형이 되지요.

Min 1Q Median 3Q Max

-9.2318 -3.3415 -0.7143 4.7769 7.8033

Coefficients: #여기가 가장 주목해야 할 부분입니다. Units옆에 15.509, Intercept옆에 4.162라고 써있죠? 즉 Minutes(Y)는 15.509*Minutes(X)+4.162

라는 식으로 설명될 수 있다는 뜻입니다.

Estimate Std. Error t value Pr(>|t|)

(Intercept) 4.162 3.355 1.24 0.239

Units 15.509 0.505 30.71 8.92e-13 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 5.392 on 12 degrees of freedom

Multiple R-squared: 0.9874, Adjusted R-squared: 0.9864 # Multiple R-Squared는 cor(X,Y)의 제곱을 뜻합니다.

F-statistic: 943.2 on 1 and 12 DF, p-value: 8.916e-13

**자세한 설명은 전공을 들으셔야 하지만 가장 기본적으로 회귀분석에서 봐야할 것은 cor(X,Y)의 값입니다. Multiful R-Squared를 보면 알 수 있는데 이 값이 높으면 높을수록 이 직선이 Y값을 잘 설명하는 직선이며 분석이 잘 되었다는 뜻입니다. 물론 여러가지 고려해야 할 사항들이 더 있지만 그건 뒤에 계속 하겠습니다.

3. 다중회귀

이번엔 변수들이 여러개일 때를 고려해보겠습니다.

앞서 썼던 P060.txt 파일을 가져와보겠습니다.

Y X1 X2 X3 X4 X5 X6

43 51 30 39 61 92 45

63 64 51 54 63 73 47

71 70 68 69 76 86 48

61 63 45 47 54 84 35

81 78 56 66 71 83 47

43 55 49 44 54 49 34

58 67 42 56 66 68 35

71 75 50 55 70 66 41

72 82 72 67 71 83 31

67 61 45 47 62 80 41

64 53 53 58 58 67 34

67 60 47 39 59 74 41

69 62 57 42 55 63 25

68 83 83 45 59 77 35

77 77 54 72 79 77 46

81 90 50 72 60 54 36

74 85 64 69 79 79 63

65 60 65 75 55 80 60

65 70 46 57 75 85 46

50 58 68 54 64 78 52

50 40 33 34 43 64 33

64 61 52 62 66 80 41

53 66 52 50 63 80 37

40 37 42 58 50 57 49

63 54 42 48 66 75 33

66 77 66 63 88 76 72

78 75 58 74 80 78 49

48 57 44 45 51 83 38

85 85 71 71 77 74 55

82 82 39 59 64 78 39

요렇게 생겼습니다.

example2로 불러왔습니다. 자 그럼 시작할까요

위의 코드에서 보시면 선형회귀와는 다른 것을 보실 수 있습니다. 바로 X1+X2+... 부분인데요. 설명하는데 필요한 변수들이 많을 경우 +로 이어줍니다.

위의 식은 Y를 설명하는데 있어서 X1과 X2,...X6까지 싹 이용해서 설명하고싶다는 뜻입니다.

결과를 분석해보면

Call:

lm(formula = Y ~ X1 + X2 + X3 + X4 + X5 + X6, data = example2)

Residuals: #아까도 보셨지만 잔차입니다.

Min 1Q Median 3Q Max

-10.9418 -4.3555 0.3158 5.5425 11.5990

Coefficients: #여기도 보시면 아시겠지만 X1~x6까지의 결과값이죠

Estimate Std. Error t value Pr(>|t|)

(Intercept) 10.78708 11.58926 0.931 0.361634

X1 0.61319 0.16098 3.809 0.000903 ***

X2 -0.07305 0.13572 -0.538 0.595594

X3 0.32033 0.16852 1.901 0.069925 .

X4 0.08173 0.22148 0.369 0.715480

X5 0.03838 0.14700 0.261 0.796334

X6 -0.21706 0.17821 -1.218 0.235577

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 7.068 on 23 degrees of freedom

Multiple R-squared: 0.7326, Adjusted R-squared: 0.6628

F-statistic: 10.5 on 6 and 23 DF, p-value: 1.24e-05

Multiple R-squared가 0.73이 나왔습니다. 생각보다 좀 적죠? 과연 어디에 문제가 있던 것일까요 - 는 4번으로 이어집니다!

4. 모형을 안정화시켜보자.

R-squared가 0.73밖에 나오지 않았다는 것은 생각보다 낮은 숫자지요. 과연 뭐가 문제여서 이렇게 된 것일까요?

는 이걸 분석하기 위해서는 여러분도 저와 같이 전공공부를 하셔야겠지만... 여기서는 편하게 몇가지만 집어내보도록 하겠습니다.

먼저 그 첫번째 각 변수들의 cor값입니다.

각 변수들이 서로 강하게 관련이 있을 수록 값은 이상해지고 제대로 된 분석이 되지 않죠. 예를 들어서 X1과 X2가 0.99의 cor을 보인다면

X1이 변화함에 따라 X2도 자동적으로 변해버리기 때문에 전체 모형을 설명하는데 큰 의미가 없게 됩니다.

밑에 보시면 X1 ~ X6까지 나와있는 행렬이 바로 cor행렬입니다. 각 행과 열이 만나는 곳에 서로의 cor값이 표시가 되고 대각 행렬값은 그래서 항상 1입니다.

이걸 보면 여기서의 문제는 그다지 없는 것 같죠? 그럼 두번째로 넘어갑시다.

각 모형의 t값을 보시면

X1 0.61319 0.16098 3.809 0.000903 ***

X2 -0.07305 0.13572 -0.538 0.595594

X3 0.32033 0.16852 1.901 0.069925 .

X4 0.08173 0.22148 0.369 0.715480

X5 0.03838 0.14700 0.261 0.796334

X6 -0.21706 0.17821 -1.218 0.235577

굵게 표시된 부분입니다만 이 t값들은 t(23,a/2){a는 유의수준)에 비교해보면 X1만이 5%유의 수준을 통과했고 X3이 10%, 나머지는 다 꽝입니다.

음 쉽게 설명하자면 각 값이 0이냐 아니냐를 두고 t검정을 실시하는데 95%확률로 0이 아니다라는 기준을 통과한건 X1뿐이고

90퍼센트 확률로 아니다라는 기준을 통과한건 X3, 나머지는 다 꽝이라는겁니다.

즉 이 데이터는 X1, X3만을 가지고 설명을 하는게 더 옳은 모형일 수도 있다는 것을 보여줍니다.

조금 더 상세한 설명을 드리지 못하는 것을 죄송하게 생각하며...(내일 전공 시험이 3개 ㄷㄷㄷ)

오늘은 여기까지로 하고 내일은 대망의 마지막, 인문학도를 위한 R을 가져오겠습니다.

p.s 공부하고 싶은 분들을 위한 코드

회귀분석을 전공으로 들으신 분들이라면 이해하시는 값들입니다만 R에는 함수가 따로 없어서 제가 만들어봤습니다.

그다지 어렵지 않은 함수이니 마음대로 가져다 쓰세요.

#leverage point<-단 x에는 1열이 1인 행렬(지레값)

leverage<-function(x){

P.t<-solve(t(x) %*% x)

P.x<-x %*% P.t %*% t(x)

leverage.x<-rep(0,length(x[1,]))

for(i in 1:length(x[1,])){

leverage.x[i]<-P.x[i,i]

}

leverage.x

}

#DFITs(x에는 회귀 모형, y에는 1열이 1인 x행렬)

DFITs<-function(x,y){

DFITs.x<-rep(0,length(y[1,]))

for(i in 1:length(y[1,])){

DFITs.x[i]<-rstandard(x)[i]*sqrt(leverage(y)[i]/(1-leverage(y)[i]))

}

DFITs.x

}

출처

제 컴퓨터

이 게시물을 추천한 분들의 목록입니다.

[1] 2015/06/16 23:46:05 121.88.***.102 Everlasting 458760
[2] 2015/06/17 10:30:43 166.104.***.11 뮤뉴뮤뉴 645411
[3] 2015/06/21 13:50:13 134.84.***.162 soxxx007 221830
[4] 2015/06/27 13:00:30 211.228.***.241 sai0259 174712
[5] 2015/07/05 22:01:13 61.75.***.2 초량동전설 188599

푸르딩딩:추천수 3이상 댓글은 배경색이 바뀝니다.
(단,비공감수가 추천수의 1/3 초과시 해당없음)

죄송합니다. 댓글 작성은 회원만 가능합니다.

번호

제 목

이름

날짜

조회

추천

안녕하세요 과학형님들. 취미가 과학인 아재입니다. [5]

25/03/04 17:53

670

2

cpu(트랜지스터)의 원리에 대해 궁금한것이 있습니다 (양자터널링?) [2]

25/02/26 00:27

985

1

시작부터 긁히는 게임광고... [2]

25/02/18 09:48

1421

1

x,y,z 세가지 벡터 간단한 그래프가 궁금해 글을 올립니다. [2]

25/02/12 14:32

1206

1

[펌/지식줄고양] 콜라 보관 방법 테스트. [1]

25/02/10 20:40

1062

0

존재 자체만으로 애너지를 가진다면? [7]

25/01/30 11:24

1616

0

[펌] 딥시크 사태에 대한 설명과 그에 대한 전조. [2]

25/01/28 14:13

1919

6

스타쉽5 vs 스타쉽7 [1]

25/01/24 05:31

1658

1

NASA DSN EYES] 간만에 보이저 1/2호 모두 송수신 [2]

25/01/19 16:45

1585

3

레이저도 줄임말이었군요. [3]

25/01/19 13:32

1836

2

박쥐는 왜 다양한 바이러스를 보유하고 있을까? [1]

25/01/17 00:53

1881

1

술 먹으면 개가 되는 이유=알아두면 쓸데 있는 화학식

수리수리얍12

25/01/16 23:06

1701

0

블루 오리진. 뉴 글렌 로켓 기술적 문제로 16일 오후 3시로 연기.

25/01/13 19:53

1423

0

한국인은 왜 이렇게 블랙홀을 좋아할까? 블랙홀 미스터리 (곽재식X항성)

25/01/11 15:34

1724

0

쥐에게 VR 고글 씌웠더니..."가상현실, 실제처럼 느껴"

25/01/01 16:17

2221

2

KAIST, 비싼 냉매 없이도 초소형·초저온 냉각장치 개발

24/12/25 16:48

2161

8

인간 신체 내에서 새로운 "생명체" 발견

24/12/24 23:02

2777

7

[질문] 3K 배경복사의 질량은?

24/12/24 22:17

1865

0

[가설] 무한집합의 스핀 정리 2.

24/12/19 02:11

1999

0

60년 수학 난제 '소파 움직이기 문제' 국내 20대 수학자가 풀어 [3]

24/12/17 23:17

2561

6

수학문제 질문 드립니다... [14]

창작글

본인삭제금지

24/12/14 18:10

2040

2

식기들 끓는물 소독 & 다시 흐르는 물에 씻기 [2]

눙물이눙물이

24/11/22 12:29

2558

2

질문? 대기권 재진입 내열타일 실험할 때 산소도 공급하나요? [3]

24/11/21 15:31

2239

2

현직 물리학 교수가 올린 수학 잘하는 법 [3]

24/11/20 18:04

2669

1

아인슈타인도 예측하지 못했던 천체현상의 발견 [3]

24/11/11 16:43

2886

3

수십1년간 묵혀졌던 궁금증이 ChatGPT를 통해 해소 됐습니다. [2]

24/11/10 22:56

3019

3

0.9999.... = 1 그럼 ....999999999 는??? [4]

24/11/08 14:47

2852

3

이 덩치큰녀석 언제 다 올렸지 신기하다 [3]

24/11/05 16:11

2708

2

우리가 사는 세상이 가상현실이라는 증거 [1]

24/11/05 13:26

2701

3

대기 중 CO2 획기적 제거 신물질 'COF-999' 개발 "눈길" [5]

24/11/04 00:01

2722

3

[1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [다음10개▶]

단축키 운영진에게 바란다(삭제요청/제안) 운영게 게시판신청 자료창고 보류 개인정보취급방침 청소년보호정책 모바일홈