*변수간 연관성: 상관계수
 
상관계수는 변수간 공분산을 각각의 표준편차의 곱으로 나눠준 결과값
코사인 값가 비슷하다
두 벡터간 공유하는 정보가 얼마인지에 대한 측면에서 벡터의 내적과 상관계수는 같은 개념이라 보면된다
 
*선형회귀: y=β0+β1x1+β2x2+…+βnxn+ϵ
변수간 더하기로 이루어진 세상
-explanatory modeling: x y 관계에 대해 설명하기 위해
-predictive modeling: 미래에 들어올 관측지 y 값을 x 값으로 예측하기 위해
 
*ei=yi−y^i
실제 측정값과 예측값의 차를 잔차라 한다
 
*최소제곱측정

 
min t(e)e로 도 표현 가능
 
최소제곱측정에서 나온 식을 편미분하여 기울기와 절편을 찾아낸다.
 
 

*선형대수 연습

lm(formula, data)함수를 이용하면 앞에서 배운 이론을 바탕으로 기울기와 절편의 값을 알려준다.

> df = mtcars
> View(df)
> names(df)
 [1] "mpg"  "cyl"  "disp" "hp"   "drat" "wt"   "qsec" "vs"   "am"   "gear" "carb"
> fit = lm(df$wt~df$mpg, data = df)
> summary(fit)

Call:
lm(formula = df$wt ~ df$mpg, data = df)

Residuals:
    Min      1Q  Median      3Q     Max 
-0.6516 -0.3490 -0.1381  0.3190  1.3684 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  6.04726    0.30869  19.590  < 2e-16 ***
df$mpg      -0.14086    0.01474  -9.559 1.29e-10 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.4945 on 30 degrees of freedom
Multiple R-squared:  0.7528,	Adjusted R-squared:  0.7446 
F-statistic: 91.38 on 1 and 30 DF,  p-value: 1.294e-10

> names(fit)
 [1] "coefficients"  "residuals"     "effects"       "rank"          "fitted.values" "assign"       
 [7] "qr"            "df.residual"   "xlevels"       "call"          "terms"         "model"

- mtcars 데이터셋을 이용하여 선형 회귀 모델을 만들고 분석한 이 모델은 자동차의 무게(wt)(종속)를 연비(mpg)(독립)를 이용하여 예측하는 것을 시도하고 있다.

  • 회귀식: wt=6.04726−0.14086×mpgwt=6.04726−0.14086×mpg
  • 회귀 계수(Intercept): 6.04726
  • 회귀 계수(mpg): -0.14086
  • 회귀식의 표준 오차: 0.30869 (Intercept), 0.01474 (mpg)
  • 회귀식의 t-value: 19.590 (Intercept), -9.559 (mpg)
  • 회귀식의 p-value: <2×10−16<2×10−16 (Intercept), 1.29×10−101.29×10−10 (mpg)

-cofficient, 각 변수별 계수의 유의확률
-회귀 모델의 R2 값은 0.7528로, 모델이 설명하는 데이터의 분산의 약 75.28%를 설명한다는 것을 의미합니다
-F-통계량(anova)은 91.38이고, 자유도는 1 및 30입니다
-F-통계량(모델의 적합)은 회귀 분석에서 SSR(회귀제곱합)을 SSE(잔차제곱합)으로 나눈 값
 
------------>이 결과값에서 나온 R과 f통계량이 무엇인지 더 자세히 알아보자
 
 
*R^2의 결정계수
 
sst(평균과 점들간의 차이)=ssr(내가 만든 모델과 평균의 차이)+sse(잔차)
->회귀모델의 적합도를 판단할 수 있는 수치
 
-r^2은 상관계수 제곱-ssr/sst=1-sse/sst-0~1 사이에 존재
-사용하고 있는 예측과 반응변수의 분산을 얼마나 줄였는지
-y를 예측했을 대 대비 x 정보를 사용했을 때 성능향상 정도
 

> pred = predict(fit, df)
> df$wt
 [1] 2.620 2.875 2.320 3.215 3.440 3.460 3.570 3.190 3.150 3.440 3.440 4.070 3.730 3.780 5.250 5.424 5.345 2.200
[19] 1.615 1.835 2.465 3.520 3.435 3.840 3.845 1.935 2.140 1.513 3.170 2.770 3.570 2.780
> cor(df$wt, pred)^2 #실제값과 예측값의 상관관계
[1] 0.7528328
> summ=summary(fit)
> summ$r.squared
[1] 0.7528328
cor()

-r^2값을 구한식이 둘다 같다
 
*anova분석:분산을 분석한다
아직은 덜 배웠으니 대충하면
-MSR/MSE=F* 즉 F통계량이다
 
*선형회귀모델 기본 가정
-예측변수와 반응변수 간의 관계가 선형
-오차항의 분산이 동일
-오차항들이 서로 독립
-오차항의 분포가 평균이0인 정규분포
 
*다중회귀분석 hat matrix 구하기
 

식을 구해왔고 여기에 대입해보면

> df=mtcars
> names(df)
 [1] "mpg"  "cyl"  "disp" "hp"   "drat" "wt"   "qsec" "vs"   "am"   "gear" "carb"
> newdf=df[,1:4]
> y=as.matrix(df$mpg)
> x=as.matrix(df[,2:4])
> ones=matrix(1, nrow=nrow(x), ncol=1)
> new_x=cbind(ones,x)
> beta=solve(t(new_x)%*%new_x)%*%(t(new_x)%*%y)
> print(beta)
            [,1]
     34.18491917
cyl  -1.22741994
disp -0.01883809
hp   -0.01467933
> 
> 
> model=lm(newdf$mpg~.,data =newdf)
> summary(model)

Call:
lm(formula = newdf$mpg ~ ., data = newdf)

Residuals:
    Min      1Q  Median      3Q     Max 
-4.0889 -2.0845 -0.7745  1.3972  6.9183 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 34.18492    2.59078  13.195 1.54e-13 ***
cyl         -1.22742    0.79728  -1.540   0.1349    
disp        -0.01884    0.01040  -1.811   0.0809 .  
hp          -0.01468    0.01465  -1.002   0.3250    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 3.055 on 28 degrees of freedom
Multiple R-squared:  0.7679,	Adjusted R-squared:  0.743 
F-statistic: 30.88 on 3 and 28 DF,  p-value: 5.054e-09

위에 식을 적용한 기울기와 절편이 lm함수로 model에서 가져온 기울기와 절편이 같은 걸 볼 수있다.

'Language > R' 카테고리의 다른 글

선형대수  (0) 2024.04.21
미적분  (1) 2024.04.21
함수와 프로그래밍  (1) 2024.04.21
R의 기초  (1) 2024.04.20

벡터의 시각화

> install.packages("matlib")
> library(matlib)

> xlim=c(0,6)
> ylim=c(0,6)
#x축과 y축의 범위를 설정하는 변수들입니다. 여기서는 (0, 6) 범위를 설정하여 그래프의 크기를 결정합니다.
> plot(xlim, ylim, type="n", xlab = "X1", ylab = "X2", asp=1)
> plot(): 	#그래프를 그리는 함수입니다. 여기서는 아무것도 표시하지 않고,
			#x축과 y축의 범위만 설정한 후, 비어있는 그래프를 생성합니다.
> grid()    #그래프에 격자를 추가하는 함수입니다. 
> 
> a=c(4,2)
> b=c(1,3)
> 
> vectors(b,labels="b", pos.lab=4, frac.lab=.5, col="green")
> vectors(a,labels="a", pos.lab=4, frac.lab=.5)
> vectors(a+b,labels="a+b", pos.lab=4, frac.lab=.5, col="red")

 
-plot() 함수를 사용하여 그래프를 생성하는 부분입니다. 여기서 사용된 매개변수들의 의미는 다음과 같습니다:

  1. xlim, ylim: x축과 y축의 범위를 설정합니다. 여기서는 xlim 변수에 (0, 6) 범위를, ylim 변수에도 (0, 6) 범위를 설정하였습니다. 이는 그래프의 x축과 y축이 0부터 6까지의 범위를 가지도록 설정하는 것을 의미합니다.
  2. type="n": 이 매개변수는 그래프의 유형을 지정하는 것입니다. 여기서 "n"은 "none"을 의미하며, 데이터를 포함하지 않고 비어있는 그래프를 생성합니다. 이는 실제 데이터가 아니라 그래프의 구조를 설정하기 위한 것입니다.
  3. xlab, ylab: x축과 y축에 라벨을 추가하는 것을 지정합니다. 여기서는 "X1"과 "X2"라벨이 x축과 y축에 각각 추가됩니다.
  4. asp=1: 이 매개변수는 그래프의 종횡비(Aspect Ratio)를 설정합니다. 여기서는 1로 설정되어 있으므로, x축과 y축의 길이의 비율이 1:1이 되도록 그래프가 생성됩니다. 즉, 그래프가 정사각형 모양으로 보이도록 설정하는 것입니다.\

-pos.lab 및 frac.lab는 vectors() 함수의 옵션 중 일부입니다.

  1. pos.lab: "라벨"의 위치를 지정하는 매개변수입니다. 여기서는 숫자 4가 사용되었으며, 이것은 라벨이 벡터 끝에서부터 어느 정도 떨어진 위치에 표시되는지를 나타냅니다. 일반적으로 1은 벡터 시작점에 가깝고 2는 벡터 끝점에 가까운 위치를 의미합니다. 여기서 4는 끝점에서 시작점 쪽으로 이동하며, 끝점으로부터의 거리를 조절하는 역할을 합니다.
  2. frac.lab: "라벨"의 위치를 벡터의 어느 부분에 표시할지를 결정하는 상대적인 비율을 지정하는 매개변수입니다. 여기서는 0.5가 사용되었으며, 이것은 라벨이 벡터의 중간에 표시되도록 설정합니다. 예를 들어, 0은 벡터의 시작점에, 1은 벡터의 끝점에 라벨이 위치하도록 합니다. 따라서 0.5는 벡터의 중간에 라벨이 표시됩니다.

벡터의 길이

> #빗변의 길이
> x=c(3,5)
> y=c(1,2)
> y_x1=sqrt((3-1)^2+(5-2)^2)
> y_x1
[1] 3.605551
> y_x= x%*%y
> y_x
     [,1]
[1,]   13
> sqrt(y_x)
         [,1]
[1,] 3.605551

 
벡터의 각
-각은 곧 두 벡터간의 관계
-직각(90)=직교는 관계가 없다
-cos 세타가 0 or 180인 경우는 서로 관계가 깊다
 
벡터의 내적
-두 벡터의 크기(norm)과 각의 코사입 곱을 통한 연산
-실수 하나로 나옴
-각의 주는 의미와 마찬가지로 연관성을 표현
 
코사인 "각도"를 키울 수록 "코사인 값"을 계산하여 res행렬에 저장한 다음, 그 값을 시각화하고 0.7보다 작은 값을 가진 코사인의 각도를 반환

> res <- matrix(0, 980, 1)
> for (i in 1:980) {
+   res[i, 1] <- cos(i * pi / 180)
+ }
> plot(res, type = "l")
> which(res <= 0.7)
  [1]  46  47  48  49  50  51  52  53  54  55  56  57  58  59  60  61  62  63  64  65  66  67  68  69  70  71  72
 [28]  73  74  75  76  77  78  79  80  81  82  83  84  85  86  87  88  89  90  91  92  93  94  95  96  97  98  99
 [55] 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126
 [82] 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153
[109] 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180
[136] 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207
[163] 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234
[190] 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260 261
[217] 262 263 264 265 266 267 268 269 270 271 272 273 274 275 276 277 278 279 280 281 282 283 284 285 286 287 288
[244] 289 290 291 292 293 294 295 296 297 298 299 300 301 302 303 304 305 306 307 308 309 310 311 312 313 314 406
[271] 407 408 409 410 411 412 413 414 415 416 417 418 419 420 421 422 423 424 425 426 427 428 429 430 431 432 433
[298] 434 435 436 437 438 439 440 441 442 443 444 445 446 447 448 449 450 451 452 453 454 455 456 457 458 459 460
[325] 461 462 463 464 465 466 467 468 469 470 471 472 473 474 475 476 477 478 479 480 481 482 483 484 485 486 487
[352] 488 489 490 491 492 493 494 495 496 497 498 499 500 501 502 503 504 505 506 507 508 509 510 511 512 513 514
[379] 515 516 517 518 519 520 521 522 523 524 525 526 527 528 529 530 531 532 533 534 535 536 537 538 539 540 541
[406] 542 543 544 545 546 547 548 549 550 551 552 553 554 555 556 557 558 559 560 561 562 563 564 565 566 567 568
[433] 569 570 571 572 573 574 575 576 577 578 579 580 581 582 583 584 585 586 587 588 589 590 591 592 593 594 595
[460] 596 597 598 599 600 601 602 603 604 605 606 607 608 609 610 611 612 613 614 615 616 617 618 619 620 621 622
[487] 623 624 625 626 627 628 629 630 631 632 633 634 635 636 637 638 639 640 641 642 643 644 645 646 647 648 649
[514] 650 651 652 653 654 655 656 657 658 659 660 661 662 663 664 665 666 667 668 669 670 671 672 673 674 766 767
[541] 768 769 770 771 772 773 774 775 776 777 778 779 780 781 782 783 784 785 786 787 788 789 790 791 792 793 794
[568] 795 796 797 798 799 800 801 802 803 804 805 806 807 808 809 810 811 812 813 814 815 816 817 818 819 820 821
[595] 822 823 824 825 826 827 828 829 830 831 832 833 834 835 836 837 838 839 840 841 842 843 844 845 846 847 848
[622] 849 850 851 852 853 854 855 856 857 858 859 860 861 862 863 864 865 866 867 868 869 870 871 872 873 874 875
[649] 876 877 878 879 880 881 882 883 884 885 886 887 888 889 890 891 892 893 894 895 896 897 898 899 900 901 902
[676] 903 904 905 906 907 908 909 910 911 912 913 914 915 916 917 918 919 920 921 922 923 924 925 926 927 928 929
[703] 930 931 932 933 934 935 936 937 938 939 940 941 942 943 944 945 946 947 948 949 950 951 952 953 954 955 956
[730] 957 958 959 960 961 962 963 964 965 966 967 968 969 970 971 972 973 974 975 976 977 978 979 980

사영
-어떤 한 공간의 데이터를 다른 공간으로 보내는 것
-y정보에 x정보를 내리 꽂아 버리는 기술->y로 설명될 수 있는 x의 정보량
 
행렬
-n*p/p*g->열과 행이 맞아야 한다
- (N by p)*(p by N)
 
전치행렬

> mat=matrix(c(1,2,3,4), nrow=2)
> mat
     [,1] [,2]
[1,]    1    3
[2,]    2    4
> t(mat)
     [,1] [,2]
[1,]    1    2
[2,]    3    4

-곱하기 할 때 편함
 
정방행렬
-정사각형 n*n
 
행렬식 determinant(ad-bc)
-정보의 양

> # 2x2 행렬 정의
> A <- matrix(c(1, 2, 3, 4), nrow = 2, byrow = TRUE)
> 
> A
     [,1] [,2]
[1,]    1    2
[2,]    3    4
> 
> # 행렬식(det) 계산
> determinant <- det(A)
> 
> # 결과 출력
> print(determinant)
[1] -2

 
 
역행렬 inverse

>install.packages("pracma")
>library("pracma")

> mat=matrix(c(1,2,3,4), nrow=2)
> mat
     [,1] [,2]
[1,]    1    3
[2,]    2    4
> t(mat)
     [,1] [,2]
[1,]    1    2
[2,]    3    4
> inv(mat)
     [,1] [,2]
[1,]   -2  1.5
[2,]    1 -0.5
> solve(mat)
     [,1] [,2]
[1,]   -2  1.5
[2,]    1 -0.5

-inv/solve()함수 사용
-역수
 
TRACE(대각 행렬 원소들의 합)
-우선 알 필요는 없다 없다
 
벡터의 노름

> v=c(1,2,1)
> Norm(v, p=2)
[1] 2.44949
> 
> # 두 벡터 정의
> a <- c(1, 2, 3)
> b <- c(4, 5, 6)
> 
> # 각 벡터의 L2 norm 계산
> norm_a <- Norm(a, p = 2)
> norm_b <- Norm(b, p = 2)
> 
> # 코사인 세타 계산
> cos_theta <- (t(a) %*% b) / (Norm(a, p = 2) * Norm(b, p = 2))
> 
> print(cos_theta)
          [,1]
[1,] 0.9746318

-벡터의 거리
-메트릭스가 편하기는 하지만 대표값이나 강도를 알려면 노름이 편하다
-ㅣAㅣ
-p는 제곱
 
고유값과 고유벡터

> mat = matrix(c(5,25,35,25,155,175,35,175,325), ncol=3)
> mat
     [,1] [,2] [,3]
[1,]    5   25   35
[2,]   25  155  175
[3,]   35  175  325
> eanalysis =eigen(mat, symmetric = T)#symmetric = TRUE
> eanalysis
eigen() decomposition
$values #고유값
[1] 438.7997639  45.6005209   0.5997152

$vectors #고유벡터
            [,1]        [,2]        [,3]
[1,] -0.09848966 -0.05766723  0.99346579
[2,] -0.52858691 -0.84281026 -0.10132496
[3,] -0.84314629  0.53511248 -0.05252595

> 
> t(eanalysis$vectors)%*%eanalysis$vectors
             [,1]         [,2]         [,3]
[1,] 1.000000e+00 0.000000e+00 2.775558e-17
[2,] 0.000000e+00 1.000000e+00 4.510281e-17
[3,] 2.775558e-17 4.510281e-17 1.000000e+00
> det(mat)#정보의 양
[1] 12000
> prod(eanalysis$value)#고유값들의 곱을 의미한다
[1] 12000
> 
> a=matrix(c(1,2,3,4,5,6), ncol=1)
> a
     [,1]
[1,]    1
[2,]    2
[3,]    3
[4,]    4
[5,]    5
[6,]    6
> b=matrix(c(1,2,3,4,5,6), ncol=1)
> b
     [,1]
[1,]    1
[2,]    2
[3,]    3
[4,]    4
[5,]    5
[6,]    6
> t(a)%*%b
     [,1]
[1,]   91
> #메트릭스와 벡터는 다르다

 
=t(x)%*%x=단위행렬/1이된다/ 4.510281e-17이나 2.775...e..는 0에 가까운 매우 작은 숫자다
-고유벡터와 전치한 고유벡터의 곱은 단위행렬에 근접한 값으로 나온다
-그 의미는 고유벡터들이 서로 직교한다는 의미이다
 
- det(mat)=prod(eanalysis$value) 이건 무슨 의미?

  1. 행렬의 determinant(det): 행렬의 determinant는 부피 변화율을 나타내며, 행렬이 벡터를 변환할 때 부피의 변화를 결정합니다. 따라서 determinant는 해당 행렬의 크기와 구조에 대한 정보를 제공합니다.
  2. 고유값들의 곱(eigenvalues): 고유값들의 곱은 해당 행렬의 고유벡터들이 변환에서 어떻게 동작하는지를 나타냅니다. 고유값들은 행렬이 벡터를 변환할 때 벡터의 크기만을 변화시키고 방향을 유지하는데, 이 때 고유값들은 크기 변화율을 나타내며, 이 값들의 곱은 전체 변환의 크기 변화율을 나타냅니다.
  3. 따라서 행렬의 determinant(det)와 고유값들의 곱은 행렬의 변환 특성과 크기에 대한 중요한 정보를 제공합니다. 만약 행렬의 determinant가 0이 아니라면, 고유값들의 곱과 determinant는 서로 관련이 있습니다. 하지만 determinant가 0인 경우에는 추가적인 분석이 필요합니다.

     
     
     
     

'Language > R' 카테고리의 다른 글

선형회귀  (1) 2024.04.22
미적분  (1) 2024.04.21
함수와 프로그래밍  (1) 2024.04.21
R의 기초  (1) 2024.04.20

직접 미분식을 만들어 사용

> fd = function(f,x, h=x*sqrt(.Machine$double.eps)){# 작은 h
+   return((f(x+h)-f(x))/h) #전진차분
+ }
> 
> f= function(x){
+   return(-x^2+6*x-6)
+ }
> 
> fd(f,2, h=1)
[1] 1
> 
> curve(f,1,5)#함수f에서서 구간[1,5]
curve(f,1,5)#함수f에서서 구간[1,5]

D함수로 미분

> fx = expression(-x^2 + 6*x - 6)
> dfx = D(fx, 'x')
> dfx
6 - 2 * x
> f = function(x) eval(c(dfx)[[1]])
> f(3)
[1] 0

-expression은 함수를 만든거고
-D함수는 미분
- eval() 함수는 표현식을 평가하여 그 값을 계산합니다. 따라서 c(dfx)는 미분한 결과를 담은 벡터를 반환하고, eval(c(dfx))는 이를 평가하여 결과를 반환합니다. 여기서 [[1]]은 결과 벡터에서 첫 번째 값을 선택하는 것입니다.(chat gpt에서 가져옴)
 
적분(integrate 함수)

> #적분
> fx=function(x){
+   1/((x+1)*sqrt(x))
+ }
> integrate(fx, lower =0 , upper = Inf)#D함수랑 비슷슷
3.141593 with absolute error < 2.7e-05

 
여러개의 직사각형을 활용하여 적분하기(직사각형법)
-a에서b의 넓이는

> fx=function(x){
+   return(x^4-10*x^3+15*x^2-6*x+10)
+ }
> curve(fx)
> 
> integr_by_you=function(a,b,n){
+   sum=0#처음에는 0으로
+   
+   h=(b-a)/n#전체구간(1-0)을 n개로 나누면 직사각형 밑변의 길이 산출
+   
+   for (i in 1:n) {sum = sum+h*fx(a+i*h)#오른쪽 직사각형으로 가면서 높이(f(x))와 h를 곱해가며 더함함
+     
+   }
+   return(sum)
+ }
> 
> integr_by_you(0,1,10)
[1] 9.70333
> integrate(fx,0,1)#윗 값가 거의 비슷하다다
9.7 with absolute error < 1.1e-13
curve(fx)

시뮬레이션을 활용한 수치 적분 소개

> fx=function(x) x^2
> integrate(fx,-2,2)
5.333333 with absolute error < 5.9e-14
> #위와 같은 방식으로
> set.seed(132) #이 함수를 호출하면 이후에 생성되는 난수는 132에서부터 시작하여 동일한 순서로 생성됩니다.
> a=-2
> b=2
> c=0
> d=4
> n=10^5
> 
> x= runif(n,a,b)
#"x = runif(n, a, b)는 n개의 난수를 생성하고,
#이를 [a, b] 범위의 균일 분포에서 생성하여 x에 할당하는 것을 의미합니다.
> y= runif(n,c,d)
> 
> temp= sum(y<fx(x))
> 16*temp
[1] 532832

#temp는 y < fx(x)를 만족하는 경우의 수를 합산한 것입니다.
#즉, fx(x)의 값보다 y 값이 작은 경우의 수를 셉니다.

#그런 다음 16 * temp는 해당 영역의 근사치를 계산합니다.
#이 경우 16은 x의 범위가 -2에서 2까지이기 때문에 해당 영역의 넓이를 계산하기 위해 사용됩니다.
#temp는 이 영역에 속하는 균일한 무작위 점의 비율을 나타내므로,
#이를 영역의 넓이에 곱하여 전체 영역에 대한 근사치를 계산합니다//

'Language > R' 카테고리의 다른 글

선형회귀  (1) 2024.04.22
선형대수  (0) 2024.04.21
함수와 프로그래밍  (1) 2024.04.21
R의 기초  (1) 2024.04.20

기초적인 함수 만들어 보기

> sum1ton = function(n){
+   result= sum(1:n)
+   return(result)
+ }
> sum1ton(100)
[1] 5050

for/while(반복)

> i=0
> for (i in 1:10) {
+   print(i)
+ }
[1] 1
[1] 2
[1] 3
[1] 4
[1] 5
[1] 6
[1] 7
[1] 8
[1] 9
[1] 10
> number =1
> while (number<=10) {
+   print(number)
+   number = number+1
+ }
[1] 1
[1] 2
[1] 3
[1] 4
[1] 5
[1] 6
[1] 7
[1] 8
[1] 9
[1] 10

 

apply 반복문

반복문이 매우 귀찮은 경우가 존재->apply 사용

> a=matrix(1:12, nrow = 4, byrow = T)
> print(a)
     [,1] [,2] [,3]
[1,]    1    2    3
[2,]    4    5    6
[3,]    7    8    9
[4,]   10   11   12
> apply(a,MARGIN=1,FUN=sum)#margin 1은 rwo방향으로 더하라/ fun은 사용자 지정 함수수
[1]  6 15 24 33
> apply(a, 2, FUN=sum)#2는 col방향으로 다 더하라
[1] 22 26 30

 
array

> b=array(1:18, dim =c(3,3,2))#3*3배열열 2개
> b
, , 1

     [,1] [,2] [,3]
[1,]    1    4    7
[2,]    2    5    8
[3,]    3    6    9

, , 2

     [,1] [,2] [,3]
[1,]   10   13   16
[2,]   11   14   17
[3,]   12   15   18

> apply(b,3,diag)#3차원/diag 함수는 주어진 행렬의 주 대각선 요소를 반환하는 함수입니다
     [,1] [,2]
[1,]    1   10
[2,]    5   14
[3,]    9   18

 
if/else(조건문)

> for (i in 1:10) {
+   if(i%%2==0){
+     print("짝수")
+   }
+   else{
+     print("홀수")
+   }
+ }
[1] "홀수"
[1] "짝수"
[1] "홀수"
[1] "짝수"
[1] "홀수"
[1] "짝수"
[1] "홀수"
[1] "짝수"
[1] "홀수"
[1] "짝수"
> x=3
> y= -5:5
> ifelse(x>y,1,0)
 [1] 1 1 1 1 1 1 1 1 0 0 0

-%%로 나누고 나머지가 0
-ifelse로 사람 카운팅 할 때 사용 가능
 
범죄현장 함수
-잘 안되네...

> site = c(1:10)
> x=c(2,5,5,5,1,5,7,4,5,6)
> y=c(0,4,1,2,8,9,5,2,4,1)
> 
> name=c("a","b","c")
> axy=c(1,5,5)
> bxy=c(4,7,1)
> cxy=c(8,1,3)
> df=cbind(site,x,y)
> fix(df)
> 
> df2=rbind(axy,bxy,cxy)
> fix(df2)
> site=df
> 
> seller =axy[1:3]
> seller =bxy[1:3]
> seller =cxy[1:3]
> 
> distance = function(seller,site){
+   dist_mat = matrix(0,10,1)
+   for (i in 1:10) {
+     temp = sqrt((seller-site[i,1:2])%*%t(t(seller-site[i,1:2])))
+     dist_mat[i,1] =temp
+   }
+   return(dist_mat)
+ }
> 
> distance(seller,site[,2:3])
           [,1]
 [1,]  6.164414
 [2,]  4.690416
 [3,]  3.605551
 [4,]  3.741657
 [5,] 10.099505
 [6,]  8.774964
 [7,]  5.744563
 [8,]  4.242641
 [9,]  4.690416
[10,]  3.605551
20건의 경고들이 발견되었습니다 (이를 확인하기 위해서는 warnings()를 이용하시길 바랍니다).
> a=distance(seller, site/seller[3])
20건의 경고들이 발견되었습니다 (이를 확인하기 위해서는 warnings()를 이용하시길 바랍니다).
> b=distance(seller, site/seller[3])
20건의 경고들이 발견되었습니다 (이를 확인하기 위해서는 warnings()를 이용하시길 바랍니다).
> c=distance(seller, site/seller[3])
20건의 경고들이 발견되었습니다 (이를 확인하기 위해서는 warnings()를 이용하시길 바랍니다).
> 
> dat = cbind(a,b,c)
> 
> for(i in 1:10){
+   print(which.min(dat[i,]))
+ }
[1] 1
[1] 1
[1] 1
[1] 1
[1] 1
[1] 1
[1] 1
[1] 1
[1] 1
[1] 1
> if (identical(seller, axy)) {
+   distance(seller, site[, 2:3] / axy[3])
+ }
> 
> if(seller==axy){
+   distance(seller, site[,2:3]/axy[3])
+ }

-실패인듯

'Language > R' 카테고리의 다른 글

선형회귀  (1) 2024.04.22
선형대수  (0) 2024.04.21
미적분  (1) 2024.04.21
R의 기초  (1) 2024.04.20

R이란?

통계분석, 머신러닝, 인공지능을 위한 언어
 
R vs 파이썬(둘다 데이터를 사용하지만)
R-분석업무
파이썬-IT기술업무
 
*벡터
interger, numeric, character, logical 유형
 
벡터의 선언

> name = c("유비", "관우", "제갈량")
> print(name)
[1] "유비"   "관우"   "제갈량"

 
벡터의 주소

> name[1]
[1] "유비"
> length(name)
[1] 3

 
벡터의 주소 : 논리벡터

> name[c(T,T,F)]
[1] "유비" "관우"

 
seq:순차

> seq(5)
[1] 1 2 3 4 5
> seq(-1,1,by=0.5)
[1] -1.0 -0.5  0.0  0.5  1.0

 
 
*list
벡터와 리스트 차이

> name = c("유비", "관우", "제갈량")
> ability=c(7 , 8 ,9)
> print(c(name[1], ability[1]))
[1] "유비" "7"   
>       
> 관우 = list(
+ name = name[2],
+ ability = ability[2]
+ )
> print(관우)
$name
[1] "관우"

$ability
[1] 8

> 
> 관우$ability
[1] 8

 
-리스트를 활용할 경우, 특정 기준으로 데이터를 모아서 처리/호출 가능
-이름$가져오고싶은해당벡터를 활용하면 가져와진다.
 
*데이터프레임

> name= c("chan", "song", "jam")
> power=c(1,2,3)
> wisdom=c(3,2,3)
> job=c("a","b","c")
> chan=list(
+   name=name[1],
+   power=power[1],
+   wisdom=wisdom[1],
+   job=job[1]
+ )
> chan
$name
[1] "chan"

$power
[1] 1

$wisdom
[1] 3

$job
[1] "a"

> people=data.frame(name, power, wisdom, job)
> people
  name power wisdom job
1 chan     1      3   a
2 song     2      2   b
3  jam     3      3   c

-data.frame함수를 쓰면 fram이 형성된다
-행은 인물들, 열은 인물들의 특징과 직업을 표시하는 구조
 

> people[2:3,1:2]
  name power
2 song     2
3  jam     3

-영역별 호출 가능
 
*메트릭스

> a=matrix(c(1,2,3,4),nrow = 2, ncol = 2)
> a
     [,1] [,2]
[1,]    1    3
[2,]    2    4
> mat= matrix(0,10,2)
> mat
      [,1] [,2]
 [1,]    0    0
 [2,]    0    0
 [3,]    0    0
 [4,]    0    0
 [5,]    0    0
 [6,]    0    0
 [7,]    0    0
 [8,]    0    0
 [9,]    0    0
[10,]    0    0

matrix()
메트릭스 생성
 
메트릭스와 데이터프레임의 차이점
-데이터프레임은 열마다 다른 유형의 데이터를 가질 수 있다.
-메트릭스는 각 열은 같은 데이터 타입을 가지고 있다.
->데이터프레임은 데이터를 정리하고 조작하는데 유용(데이터 분석, 시각화, 전처리)
->메트릭스는 통계분석(숫자형 데이터에 적합)에 유용/수학적 연산을 빠르게(특히 선형대수학)
 
*색인(index)

> sel=seq(10)>5
> df=c("a","b","c","d","e","f","g","h","i","j")
> df[sel]
[1] "f" "g" "h" "i" "j"
> mat = matrix(df,5,2)
> mat
     [,1] [,2]
[1,] "a"  "f" 
[2,] "b"  "g" 
[3,] "c"  "h" 
[4,] "d"  "i" 
[5,] "e"  "j" 
> mat[5,1]
[1] "e"

 
*데이터 유형 확인 및 변환

> class(mat)
[1] "matrix" "array" 
> typeof(mat)
[1] "character"
> as.matrix(mat)
     [,1] [,2]
[1,] "a"  "f" 
[2,] "b"  "g" 
[3,] "c"  "h" 
[4,] "d"  "i" 
[5,] "e"  "j" 
> as.data.frame(mat)
  V1 V2
1  a  f
2  b  g
3  c  h
4  d  i
5  e  j
> a=1.2345
> as.integer(a)
[1] 1
> as.numeric(a)
[1] 1.2345

-class/typeof는 유형 확인
-as.matrix()/as.data.frame()/as.integer()/as.numeric()을 활용하면 변환
 
*데이터 읽기/확인/저장
 
사정상 파일이 없어 코드로만 올린다.

 df=read.csv("c://data/bearing.csv")

-데이터 가져오기=읽기
 

> head(mat,3)
     [,1] [,2]
[1,] "a"  "f" 
[2,] "b"  "g" 
[3,] "c"  "h"

-원하는 row확인 가능
 

> names(iris)
[1] "Sepal.Length" "Sepal.Width"  "Petal.Length" "Petal.Width"  "Species" 

-활용 변수의 종류 확인 가능
 

> str(iris)
'data.frame':	150 obs. of  5 variables:
 $ Sepal.Length: num  5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
 $ Sepal.Width : num  3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
 $ Petal.Length: num  1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
 $ Petal.Width : num  0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
 $ Species     : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...
> summary(iris)
  Sepal.Length    Sepal.Width     Petal.Length    Petal.Width          Species  
 Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100   setosa    :50  
 1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300   versicolor:50  
 Median :5.800   Median :3.000   Median :4.350   Median :1.300   virginica :50  
 Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199                  
 3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800                  
 Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500 

-str을 활용하면 데이터의 전체 구조를 볼 수 있음
-summary를 활용하면 전체적인 통계량 가늠 가능

> summary(iris)[1,2]
[1] "Min.   :2.000  "

-필요한 정보도 추출 가능

> fix(df)
> Views(df)

-데이터 전체를 볼 수도 있다

> dim(iris)
[1] 150   5

-데이터의 크기 확인 가능
 

> write.csv(iris, "c:/data/iris.csv")

-저장

'Language > R' 카테고리의 다른 글

선형회귀  (1) 2024.04.22
선형대수  (0) 2024.04.21
미적분  (1) 2024.04.21
함수와 프로그래밍  (1) 2024.04.21

+ Recent posts