이번주 과제

https://eatitstory.tistory.com/m/20

 

next.js 실습

# 기술과제 - SSR, CSR이란 무엇인가? - Next.js란 무엇인가? - Next.js 설치 후 사용해보기 - Next 가 버전이 두개가 있다 - /pages - /app - git이 무엇인지? - commit - add - push - pull - github에 Next.js 내코드 올릴 저

eatitstory.tistory.com


+

git이 무엇인지?
    - commit
    - add
    - push
    - pull



*git
시간관리
-작업했던 파일들을 버전을 언제든 되돌릴 수 있다
차원관리
-프로젝트의 내용을 다른 폴더인 것처럼 여러모드로 변경가능
협업에서도 중요한 기능

*github
git으로 관리하는 프로젝트를 온라인 공간에 공유해서 프로젝트 구성원들이 함께 소프트웨어를 만들어 갈수있게 도움을 준다


git init : git이 관리하라는 명령어
git status : 현재 폴더를 git의 관점에서 보여주는거
gitignore 파일: 배재할 요소 지정

commit 버전
*git add 파일명- 버전 타임캡슐에 들어감
git add . 모든 파일 캡슐에 넣기


*commit 의미있는 변경 작업들을 저장소에 기록하는 동작/add로 해줘야 tracked 된다
git commit 새로운 버전을 만든다
git commit -m "수정된 파일이름" 바로 새로운 커밋 생성
git commit -am "파일이름" 새로운 커밋생성

git log 커밋한 파일들을 볼 수 있다

git branch 메인
git branch add-coach 새로운 중기 추가
git switch add-coach 애드코치고 이동
git branch -d (삭제할 브랜치명)
git branch -m(기존)(새브랜치)
git merge add-coach 브랜치 합치기

github레포지토리
git remote add origin (주소) git에 원격저장소추가
git branch -M main 기본브랜치명을 메인으로
git push -u origin main 파일을 원격저장소에 추가
메인에서의 푸시는 오리진의 메인 브랜치로 가게 된다

git clone /git bash를 사용하여 폴더 다운

*git push 새로운 커밋 생성(git push -u origin main로 설정되어 있어서 가능)
*git pull 깃헙에 있는 커밋을 내 컴퓨터로 가져오기

 

참고영상

제대로 파는 Git & GitHub (대학생 전체강의 반값할인) (youtube.com)

*변수간 연관성: 상관계수
 
상관계수는 변수간 공분산을 각각의 표준편차의 곱으로 나눠준 결과값
코사인 값가 비슷하다
두 벡터간 공유하는 정보가 얼마인지에 대한 측면에서 벡터의 내적과 상관계수는 같은 개념이라 보면된다
 
*선형회귀: y=β0+β1x1+β2x2+…+βnxn+ϵ
변수간 더하기로 이루어진 세상
-explanatory modeling: x y 관계에 대해 설명하기 위해
-predictive modeling: 미래에 들어올 관측지 y 값을 x 값으로 예측하기 위해
 
*ei=yi−y^i
실제 측정값과 예측값의 차를 잔차라 한다
 
*최소제곱측정

 
min t(e)e로 도 표현 가능
 
최소제곱측정에서 나온 식을 편미분하여 기울기와 절편을 찾아낸다.
 
 

*선형대수 연습

lm(formula, data)함수를 이용하면 앞에서 배운 이론을 바탕으로 기울기와 절편의 값을 알려준다.

> df = mtcars
> View(df)
> names(df)
 [1] "mpg"  "cyl"  "disp" "hp"   "drat" "wt"   "qsec" "vs"   "am"   "gear" "carb"
> fit = lm(df$wt~df$mpg, data = df)
> summary(fit)

Call:
lm(formula = df$wt ~ df$mpg, data = df)

Residuals:
    Min      1Q  Median      3Q     Max 
-0.6516 -0.3490 -0.1381  0.3190  1.3684 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  6.04726    0.30869  19.590  < 2e-16 ***
df$mpg      -0.14086    0.01474  -9.559 1.29e-10 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.4945 on 30 degrees of freedom
Multiple R-squared:  0.7528,	Adjusted R-squared:  0.7446 
F-statistic: 91.38 on 1 and 30 DF,  p-value: 1.294e-10

> names(fit)
 [1] "coefficients"  "residuals"     "effects"       "rank"          "fitted.values" "assign"       
 [7] "qr"            "df.residual"   "xlevels"       "call"          "terms"         "model"

- mtcars 데이터셋을 이용하여 선형 회귀 모델을 만들고 분석한 이 모델은 자동차의 무게(wt)(종속)를 연비(mpg)(독립)를 이용하여 예측하는 것을 시도하고 있다.

  • 회귀식: wt=6.04726−0.14086×mpgwt=6.04726−0.14086×mpg
  • 회귀 계수(Intercept): 6.04726
  • 회귀 계수(mpg): -0.14086
  • 회귀식의 표준 오차: 0.30869 (Intercept), 0.01474 (mpg)
  • 회귀식의 t-value: 19.590 (Intercept), -9.559 (mpg)
  • 회귀식의 p-value: <2×10−16<2×10−16 (Intercept), 1.29×10−101.29×10−10 (mpg)

-cofficient, 각 변수별 계수의 유의확률
-회귀 모델의 R2 값은 0.7528로, 모델이 설명하는 데이터의 분산의 약 75.28%를 설명한다는 것을 의미합니다
-F-통계량(anova)은 91.38이고, 자유도는 1 및 30입니다
-F-통계량(모델의 적합)은 회귀 분석에서 SSR(회귀제곱합)을 SSE(잔차제곱합)으로 나눈 값
 
------------>이 결과값에서 나온 R과 f통계량이 무엇인지 더 자세히 알아보자
 
 
*R^2의 결정계수
 
sst(평균과 점들간의 차이)=ssr(내가 만든 모델과 평균의 차이)+sse(잔차)
->회귀모델의 적합도를 판단할 수 있는 수치
 
-r^2은 상관계수 제곱-ssr/sst=1-sse/sst-0~1 사이에 존재
-사용하고 있는 예측과 반응변수의 분산을 얼마나 줄였는지
-y를 예측했을 대 대비 x 정보를 사용했을 때 성능향상 정도
 

> pred = predict(fit, df)
> df$wt
 [1] 2.620 2.875 2.320 3.215 3.440 3.460 3.570 3.190 3.150 3.440 3.440 4.070 3.730 3.780 5.250 5.424 5.345 2.200
[19] 1.615 1.835 2.465 3.520 3.435 3.840 3.845 1.935 2.140 1.513 3.170 2.770 3.570 2.780
> cor(df$wt, pred)^2 #실제값과 예측값의 상관관계
[1] 0.7528328
> summ=summary(fit)
> summ$r.squared
[1] 0.7528328
cor()

-r^2값을 구한식이 둘다 같다
 
*anova분석:분산을 분석한다
아직은 덜 배웠으니 대충하면
-MSR/MSE=F* 즉 F통계량이다
 
*선형회귀모델 기본 가정
-예측변수와 반응변수 간의 관계가 선형
-오차항의 분산이 동일
-오차항들이 서로 독립
-오차항의 분포가 평균이0인 정규분포
 
*다중회귀분석 hat matrix 구하기
 

식을 구해왔고 여기에 대입해보면

> df=mtcars
> names(df)
 [1] "mpg"  "cyl"  "disp" "hp"   "drat" "wt"   "qsec" "vs"   "am"   "gear" "carb"
> newdf=df[,1:4]
> y=as.matrix(df$mpg)
> x=as.matrix(df[,2:4])
> ones=matrix(1, nrow=nrow(x), ncol=1)
> new_x=cbind(ones,x)
> beta=solve(t(new_x)%*%new_x)%*%(t(new_x)%*%y)
> print(beta)
            [,1]
     34.18491917
cyl  -1.22741994
disp -0.01883809
hp   -0.01467933
> 
> 
> model=lm(newdf$mpg~.,data =newdf)
> summary(model)

Call:
lm(formula = newdf$mpg ~ ., data = newdf)

Residuals:
    Min      1Q  Median      3Q     Max 
-4.0889 -2.0845 -0.7745  1.3972  6.9183 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 34.18492    2.59078  13.195 1.54e-13 ***
cyl         -1.22742    0.79728  -1.540   0.1349    
disp        -0.01884    0.01040  -1.811   0.0809 .  
hp          -0.01468    0.01465  -1.002   0.3250    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 3.055 on 28 degrees of freedom
Multiple R-squared:  0.7679,	Adjusted R-squared:  0.743 
F-statistic: 30.88 on 3 and 28 DF,  p-value: 5.054e-09

위에 식을 적용한 기울기와 절편이 lm함수로 model에서 가져온 기울기와 절편이 같은 걸 볼 수있다.

'Language > R' 카테고리의 다른 글

선형대수  (0) 2024.04.21
미적분  (1) 2024.04.21
함수와 프로그래밍  (1) 2024.04.21
R의 기초  (1) 2024.04.20

벡터의 시각화

> install.packages("matlib")
> library(matlib)

> xlim=c(0,6)
> ylim=c(0,6)
#x축과 y축의 범위를 설정하는 변수들입니다. 여기서는 (0, 6) 범위를 설정하여 그래프의 크기를 결정합니다.
> plot(xlim, ylim, type="n", xlab = "X1", ylab = "X2", asp=1)
> plot(): 	#그래프를 그리는 함수입니다. 여기서는 아무것도 표시하지 않고,
			#x축과 y축의 범위만 설정한 후, 비어있는 그래프를 생성합니다.
> grid()    #그래프에 격자를 추가하는 함수입니다. 
> 
> a=c(4,2)
> b=c(1,3)
> 
> vectors(b,labels="b", pos.lab=4, frac.lab=.5, col="green")
> vectors(a,labels="a", pos.lab=4, frac.lab=.5)
> vectors(a+b,labels="a+b", pos.lab=4, frac.lab=.5, col="red")

 
-plot() 함수를 사용하여 그래프를 생성하는 부분입니다. 여기서 사용된 매개변수들의 의미는 다음과 같습니다:

  1. xlim, ylim: x축과 y축의 범위를 설정합니다. 여기서는 xlim 변수에 (0, 6) 범위를, ylim 변수에도 (0, 6) 범위를 설정하였습니다. 이는 그래프의 x축과 y축이 0부터 6까지의 범위를 가지도록 설정하는 것을 의미합니다.
  2. type="n": 이 매개변수는 그래프의 유형을 지정하는 것입니다. 여기서 "n"은 "none"을 의미하며, 데이터를 포함하지 않고 비어있는 그래프를 생성합니다. 이는 실제 데이터가 아니라 그래프의 구조를 설정하기 위한 것입니다.
  3. xlab, ylab: x축과 y축에 라벨을 추가하는 것을 지정합니다. 여기서는 "X1"과 "X2"라벨이 x축과 y축에 각각 추가됩니다.
  4. asp=1: 이 매개변수는 그래프의 종횡비(Aspect Ratio)를 설정합니다. 여기서는 1로 설정되어 있으므로, x축과 y축의 길이의 비율이 1:1이 되도록 그래프가 생성됩니다. 즉, 그래프가 정사각형 모양으로 보이도록 설정하는 것입니다.\

-pos.lab 및 frac.lab는 vectors() 함수의 옵션 중 일부입니다.

  1. pos.lab: "라벨"의 위치를 지정하는 매개변수입니다. 여기서는 숫자 4가 사용되었으며, 이것은 라벨이 벡터 끝에서부터 어느 정도 떨어진 위치에 표시되는지를 나타냅니다. 일반적으로 1은 벡터 시작점에 가깝고 2는 벡터 끝점에 가까운 위치를 의미합니다. 여기서 4는 끝점에서 시작점 쪽으로 이동하며, 끝점으로부터의 거리를 조절하는 역할을 합니다.
  2. frac.lab: "라벨"의 위치를 벡터의 어느 부분에 표시할지를 결정하는 상대적인 비율을 지정하는 매개변수입니다. 여기서는 0.5가 사용되었으며, 이것은 라벨이 벡터의 중간에 표시되도록 설정합니다. 예를 들어, 0은 벡터의 시작점에, 1은 벡터의 끝점에 라벨이 위치하도록 합니다. 따라서 0.5는 벡터의 중간에 라벨이 표시됩니다.

벡터의 길이

> #빗변의 길이
> x=c(3,5)
> y=c(1,2)
> y_x1=sqrt((3-1)^2+(5-2)^2)
> y_x1
[1] 3.605551
> y_x= x%*%y
> y_x
     [,1]
[1,]   13
> sqrt(y_x)
         [,1]
[1,] 3.605551

 
벡터의 각
-각은 곧 두 벡터간의 관계
-직각(90)=직교는 관계가 없다
-cos 세타가 0 or 180인 경우는 서로 관계가 깊다
 
벡터의 내적
-두 벡터의 크기(norm)과 각의 코사입 곱을 통한 연산
-실수 하나로 나옴
-각의 주는 의미와 마찬가지로 연관성을 표현
 
코사인 "각도"를 키울 수록 "코사인 값"을 계산하여 res행렬에 저장한 다음, 그 값을 시각화하고 0.7보다 작은 값을 가진 코사인의 각도를 반환

> res <- matrix(0, 980, 1)
> for (i in 1:980) {
+   res[i, 1] <- cos(i * pi / 180)
+ }
> plot(res, type = "l")
> which(res <= 0.7)
  [1]  46  47  48  49  50  51  52  53  54  55  56  57  58  59  60  61  62  63  64  65  66  67  68  69  70  71  72
 [28]  73  74  75  76  77  78  79  80  81  82  83  84  85  86  87  88  89  90  91  92  93  94  95  96  97  98  99
 [55] 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126
 [82] 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153
[109] 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180
[136] 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207
[163] 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234
[190] 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260 261
[217] 262 263 264 265 266 267 268 269 270 271 272 273 274 275 276 277 278 279 280 281 282 283 284 285 286 287 288
[244] 289 290 291 292 293 294 295 296 297 298 299 300 301 302 303 304 305 306 307 308 309 310 311 312 313 314 406
[271] 407 408 409 410 411 412 413 414 415 416 417 418 419 420 421 422 423 424 425 426 427 428 429 430 431 432 433
[298] 434 435 436 437 438 439 440 441 442 443 444 445 446 447 448 449 450 451 452 453 454 455 456 457 458 459 460
[325] 461 462 463 464 465 466 467 468 469 470 471 472 473 474 475 476 477 478 479 480 481 482 483 484 485 486 487
[352] 488 489 490 491 492 493 494 495 496 497 498 499 500 501 502 503 504 505 506 507 508 509 510 511 512 513 514
[379] 515 516 517 518 519 520 521 522 523 524 525 526 527 528 529 530 531 532 533 534 535 536 537 538 539 540 541
[406] 542 543 544 545 546 547 548 549 550 551 552 553 554 555 556 557 558 559 560 561 562 563 564 565 566 567 568
[433] 569 570 571 572 573 574 575 576 577 578 579 580 581 582 583 584 585 586 587 588 589 590 591 592 593 594 595
[460] 596 597 598 599 600 601 602 603 604 605 606 607 608 609 610 611 612 613 614 615 616 617 618 619 620 621 622
[487] 623 624 625 626 627 628 629 630 631 632 633 634 635 636 637 638 639 640 641 642 643 644 645 646 647 648 649
[514] 650 651 652 653 654 655 656 657 658 659 660 661 662 663 664 665 666 667 668 669 670 671 672 673 674 766 767
[541] 768 769 770 771 772 773 774 775 776 777 778 779 780 781 782 783 784 785 786 787 788 789 790 791 792 793 794
[568] 795 796 797 798 799 800 801 802 803 804 805 806 807 808 809 810 811 812 813 814 815 816 817 818 819 820 821
[595] 822 823 824 825 826 827 828 829 830 831 832 833 834 835 836 837 838 839 840 841 842 843 844 845 846 847 848
[622] 849 850 851 852 853 854 855 856 857 858 859 860 861 862 863 864 865 866 867 868 869 870 871 872 873 874 875
[649] 876 877 878 879 880 881 882 883 884 885 886 887 888 889 890 891 892 893 894 895 896 897 898 899 900 901 902
[676] 903 904 905 906 907 908 909 910 911 912 913 914 915 916 917 918 919 920 921 922 923 924 925 926 927 928 929
[703] 930 931 932 933 934 935 936 937 938 939 940 941 942 943 944 945 946 947 948 949 950 951 952 953 954 955 956
[730] 957 958 959 960 961 962 963 964 965 966 967 968 969 970 971 972 973 974 975 976 977 978 979 980

사영
-어떤 한 공간의 데이터를 다른 공간으로 보내는 것
-y정보에 x정보를 내리 꽂아 버리는 기술->y로 설명될 수 있는 x의 정보량
 
행렬
-n*p/p*g->열과 행이 맞아야 한다
- (N by p)*(p by N)
 
전치행렬

> mat=matrix(c(1,2,3,4), nrow=2)
> mat
     [,1] [,2]
[1,]    1    3
[2,]    2    4
> t(mat)
     [,1] [,2]
[1,]    1    2
[2,]    3    4

-곱하기 할 때 편함
 
정방행렬
-정사각형 n*n
 
행렬식 determinant(ad-bc)
-정보의 양

> # 2x2 행렬 정의
> A <- matrix(c(1, 2, 3, 4), nrow = 2, byrow = TRUE)
> 
> A
     [,1] [,2]
[1,]    1    2
[2,]    3    4
> 
> # 행렬식(det) 계산
> determinant <- det(A)
> 
> # 결과 출력
> print(determinant)
[1] -2

 
 
역행렬 inverse

>install.packages("pracma")
>library("pracma")

> mat=matrix(c(1,2,3,4), nrow=2)
> mat
     [,1] [,2]
[1,]    1    3
[2,]    2    4
> t(mat)
     [,1] [,2]
[1,]    1    2
[2,]    3    4
> inv(mat)
     [,1] [,2]
[1,]   -2  1.5
[2,]    1 -0.5
> solve(mat)
     [,1] [,2]
[1,]   -2  1.5
[2,]    1 -0.5

-inv/solve()함수 사용
-역수
 
TRACE(대각 행렬 원소들의 합)
-우선 알 필요는 없다 없다
 
벡터의 노름

> v=c(1,2,1)
> Norm(v, p=2)
[1] 2.44949
> 
> # 두 벡터 정의
> a <- c(1, 2, 3)
> b <- c(4, 5, 6)
> 
> # 각 벡터의 L2 norm 계산
> norm_a <- Norm(a, p = 2)
> norm_b <- Norm(b, p = 2)
> 
> # 코사인 세타 계산
> cos_theta <- (t(a) %*% b) / (Norm(a, p = 2) * Norm(b, p = 2))
> 
> print(cos_theta)
          [,1]
[1,] 0.9746318

-벡터의 거리
-메트릭스가 편하기는 하지만 대표값이나 강도를 알려면 노름이 편하다
-ㅣAㅣ
-p는 제곱
 
고유값과 고유벡터

> mat = matrix(c(5,25,35,25,155,175,35,175,325), ncol=3)
> mat
     [,1] [,2] [,3]
[1,]    5   25   35
[2,]   25  155  175
[3,]   35  175  325
> eanalysis =eigen(mat, symmetric = T)#symmetric = TRUE
> eanalysis
eigen() decomposition
$values #고유값
[1] 438.7997639  45.6005209   0.5997152

$vectors #고유벡터
            [,1]        [,2]        [,3]
[1,] -0.09848966 -0.05766723  0.99346579
[2,] -0.52858691 -0.84281026 -0.10132496
[3,] -0.84314629  0.53511248 -0.05252595

> 
> t(eanalysis$vectors)%*%eanalysis$vectors
             [,1]         [,2]         [,3]
[1,] 1.000000e+00 0.000000e+00 2.775558e-17
[2,] 0.000000e+00 1.000000e+00 4.510281e-17
[3,] 2.775558e-17 4.510281e-17 1.000000e+00
> det(mat)#정보의 양
[1] 12000
> prod(eanalysis$value)#고유값들의 곱을 의미한다
[1] 12000
> 
> a=matrix(c(1,2,3,4,5,6), ncol=1)
> a
     [,1]
[1,]    1
[2,]    2
[3,]    3
[4,]    4
[5,]    5
[6,]    6
> b=matrix(c(1,2,3,4,5,6), ncol=1)
> b
     [,1]
[1,]    1
[2,]    2
[3,]    3
[4,]    4
[5,]    5
[6,]    6
> t(a)%*%b
     [,1]
[1,]   91
> #메트릭스와 벡터는 다르다

 
=t(x)%*%x=단위행렬/1이된다/ 4.510281e-17이나 2.775...e..는 0에 가까운 매우 작은 숫자다
-고유벡터와 전치한 고유벡터의 곱은 단위행렬에 근접한 값으로 나온다
-그 의미는 고유벡터들이 서로 직교한다는 의미이다
 
- det(mat)=prod(eanalysis$value) 이건 무슨 의미?

  1. 행렬의 determinant(det): 행렬의 determinant는 부피 변화율을 나타내며, 행렬이 벡터를 변환할 때 부피의 변화를 결정합니다. 따라서 determinant는 해당 행렬의 크기와 구조에 대한 정보를 제공합니다.
  2. 고유값들의 곱(eigenvalues): 고유값들의 곱은 해당 행렬의 고유벡터들이 변환에서 어떻게 동작하는지를 나타냅니다. 고유값들은 행렬이 벡터를 변환할 때 벡터의 크기만을 변화시키고 방향을 유지하는데, 이 때 고유값들은 크기 변화율을 나타내며, 이 값들의 곱은 전체 변환의 크기 변화율을 나타냅니다.
  3. 따라서 행렬의 determinant(det)와 고유값들의 곱은 행렬의 변환 특성과 크기에 대한 중요한 정보를 제공합니다. 만약 행렬의 determinant가 0이 아니라면, 고유값들의 곱과 determinant는 서로 관련이 있습니다. 하지만 determinant가 0인 경우에는 추가적인 분석이 필요합니다.

     
     
     
     

'Language > R' 카테고리의 다른 글

선형회귀  (1) 2024.04.22
미적분  (1) 2024.04.21
함수와 프로그래밍  (1) 2024.04.21
R의 기초  (1) 2024.04.20

직접 미분식을 만들어 사용

> fd = function(f,x, h=x*sqrt(.Machine$double.eps)){# 작은 h
+   return((f(x+h)-f(x))/h) #전진차분
+ }
> 
> f= function(x){
+   return(-x^2+6*x-6)
+ }
> 
> fd(f,2, h=1)
[1] 1
> 
> curve(f,1,5)#함수f에서서 구간[1,5]
curve(f,1,5)#함수f에서서 구간[1,5]

D함수로 미분

> fx = expression(-x^2 + 6*x - 6)
> dfx = D(fx, 'x')
> dfx
6 - 2 * x
> f = function(x) eval(c(dfx)[[1]])
> f(3)
[1] 0

-expression은 함수를 만든거고
-D함수는 미분
- eval() 함수는 표현식을 평가하여 그 값을 계산합니다. 따라서 c(dfx)는 미분한 결과를 담은 벡터를 반환하고, eval(c(dfx))는 이를 평가하여 결과를 반환합니다. 여기서 [[1]]은 결과 벡터에서 첫 번째 값을 선택하는 것입니다.(chat gpt에서 가져옴)
 
적분(integrate 함수)

> #적분
> fx=function(x){
+   1/((x+1)*sqrt(x))
+ }
> integrate(fx, lower =0 , upper = Inf)#D함수랑 비슷슷
3.141593 with absolute error < 2.7e-05

 
여러개의 직사각형을 활용하여 적분하기(직사각형법)
-a에서b의 넓이는

> fx=function(x){
+   return(x^4-10*x^3+15*x^2-6*x+10)
+ }
> curve(fx)
> 
> integr_by_you=function(a,b,n){
+   sum=0#처음에는 0으로
+   
+   h=(b-a)/n#전체구간(1-0)을 n개로 나누면 직사각형 밑변의 길이 산출
+   
+   for (i in 1:n) {sum = sum+h*fx(a+i*h)#오른쪽 직사각형으로 가면서 높이(f(x))와 h를 곱해가며 더함함
+     
+   }
+   return(sum)
+ }
> 
> integr_by_you(0,1,10)
[1] 9.70333
> integrate(fx,0,1)#윗 값가 거의 비슷하다다
9.7 with absolute error < 1.1e-13
curve(fx)

시뮬레이션을 활용한 수치 적분 소개

> fx=function(x) x^2
> integrate(fx,-2,2)
5.333333 with absolute error < 5.9e-14
> #위와 같은 방식으로
> set.seed(132) #이 함수를 호출하면 이후에 생성되는 난수는 132에서부터 시작하여 동일한 순서로 생성됩니다.
> a=-2
> b=2
> c=0
> d=4
> n=10^5
> 
> x= runif(n,a,b)
#"x = runif(n, a, b)는 n개의 난수를 생성하고,
#이를 [a, b] 범위의 균일 분포에서 생성하여 x에 할당하는 것을 의미합니다.
> y= runif(n,c,d)
> 
> temp= sum(y<fx(x))
> 16*temp
[1] 532832

#temp는 y < fx(x)를 만족하는 경우의 수를 합산한 것입니다.
#즉, fx(x)의 값보다 y 값이 작은 경우의 수를 셉니다.

#그런 다음 16 * temp는 해당 영역의 근사치를 계산합니다.
#이 경우 16은 x의 범위가 -2에서 2까지이기 때문에 해당 영역의 넓이를 계산하기 위해 사용됩니다.
#temp는 이 영역에 속하는 균일한 무작위 점의 비율을 나타내므로,
#이를 영역의 넓이에 곱하여 전체 영역에 대한 근사치를 계산합니다//

'Language > R' 카테고리의 다른 글

선형회귀  (1) 2024.04.22
선형대수  (0) 2024.04.21
함수와 프로그래밍  (1) 2024.04.21
R의 기초  (1) 2024.04.20

기초적인 함수 만들어 보기

> sum1ton = function(n){
+   result= sum(1:n)
+   return(result)
+ }
> sum1ton(100)
[1] 5050

for/while(반복)

> i=0
> for (i in 1:10) {
+   print(i)
+ }
[1] 1
[1] 2
[1] 3
[1] 4
[1] 5
[1] 6
[1] 7
[1] 8
[1] 9
[1] 10
> number =1
> while (number<=10) {
+   print(number)
+   number = number+1
+ }
[1] 1
[1] 2
[1] 3
[1] 4
[1] 5
[1] 6
[1] 7
[1] 8
[1] 9
[1] 10

 

apply 반복문

반복문이 매우 귀찮은 경우가 존재->apply 사용

> a=matrix(1:12, nrow = 4, byrow = T)
> print(a)
     [,1] [,2] [,3]
[1,]    1    2    3
[2,]    4    5    6
[3,]    7    8    9
[4,]   10   11   12
> apply(a,MARGIN=1,FUN=sum)#margin 1은 rwo방향으로 더하라/ fun은 사용자 지정 함수수
[1]  6 15 24 33
> apply(a, 2, FUN=sum)#2는 col방향으로 다 더하라
[1] 22 26 30

 
array

> b=array(1:18, dim =c(3,3,2))#3*3배열열 2개
> b
, , 1

     [,1] [,2] [,3]
[1,]    1    4    7
[2,]    2    5    8
[3,]    3    6    9

, , 2

     [,1] [,2] [,3]
[1,]   10   13   16
[2,]   11   14   17
[3,]   12   15   18

> apply(b,3,diag)#3차원/diag 함수는 주어진 행렬의 주 대각선 요소를 반환하는 함수입니다
     [,1] [,2]
[1,]    1   10
[2,]    5   14
[3,]    9   18

 
if/else(조건문)

> for (i in 1:10) {
+   if(i%%2==0){
+     print("짝수")
+   }
+   else{
+     print("홀수")
+   }
+ }
[1] "홀수"
[1] "짝수"
[1] "홀수"
[1] "짝수"
[1] "홀수"
[1] "짝수"
[1] "홀수"
[1] "짝수"
[1] "홀수"
[1] "짝수"
> x=3
> y= -5:5
> ifelse(x>y,1,0)
 [1] 1 1 1 1 1 1 1 1 0 0 0

-%%로 나누고 나머지가 0
-ifelse로 사람 카운팅 할 때 사용 가능
 
범죄현장 함수
-잘 안되네...

> site = c(1:10)
> x=c(2,5,5,5,1,5,7,4,5,6)
> y=c(0,4,1,2,8,9,5,2,4,1)
> 
> name=c("a","b","c")
> axy=c(1,5,5)
> bxy=c(4,7,1)
> cxy=c(8,1,3)
> df=cbind(site,x,y)
> fix(df)
> 
> df2=rbind(axy,bxy,cxy)
> fix(df2)
> site=df
> 
> seller =axy[1:3]
> seller =bxy[1:3]
> seller =cxy[1:3]
> 
> distance = function(seller,site){
+   dist_mat = matrix(0,10,1)
+   for (i in 1:10) {
+     temp = sqrt((seller-site[i,1:2])%*%t(t(seller-site[i,1:2])))
+     dist_mat[i,1] =temp
+   }
+   return(dist_mat)
+ }
> 
> distance(seller,site[,2:3])
           [,1]
 [1,]  6.164414
 [2,]  4.690416
 [3,]  3.605551
 [4,]  3.741657
 [5,] 10.099505
 [6,]  8.774964
 [7,]  5.744563
 [8,]  4.242641
 [9,]  4.690416
[10,]  3.605551
20건의 경고들이 발견되었습니다 (이를 확인하기 위해서는 warnings()를 이용하시길 바랍니다).
> a=distance(seller, site/seller[3])
20건의 경고들이 발견되었습니다 (이를 확인하기 위해서는 warnings()를 이용하시길 바랍니다).
> b=distance(seller, site/seller[3])
20건의 경고들이 발견되었습니다 (이를 확인하기 위해서는 warnings()를 이용하시길 바랍니다).
> c=distance(seller, site/seller[3])
20건의 경고들이 발견되었습니다 (이를 확인하기 위해서는 warnings()를 이용하시길 바랍니다).
> 
> dat = cbind(a,b,c)
> 
> for(i in 1:10){
+   print(which.min(dat[i,]))
+ }
[1] 1
[1] 1
[1] 1
[1] 1
[1] 1
[1] 1
[1] 1
[1] 1
[1] 1
[1] 1
> if (identical(seller, axy)) {
+   distance(seller, site[, 2:3] / axy[3])
+ }
> 
> if(seller==axy){
+   distance(seller, site[,2:3]/axy[3])
+ }

-실패인듯

'Language > R' 카테고리의 다른 글

선형회귀  (1) 2024.04.22
선형대수  (0) 2024.04.21
미적분  (1) 2024.04.21
R의 기초  (1) 2024.04.20

R이란?

통계분석, 머신러닝, 인공지능을 위한 언어
 
R vs 파이썬(둘다 데이터를 사용하지만)
R-분석업무
파이썬-IT기술업무
 
*벡터
interger, numeric, character, logical 유형
 
벡터의 선언

> name = c("유비", "관우", "제갈량")
> print(name)
[1] "유비"   "관우"   "제갈량"

 
벡터의 주소

> name[1]
[1] "유비"
> length(name)
[1] 3

 
벡터의 주소 : 논리벡터

> name[c(T,T,F)]
[1] "유비" "관우"

 
seq:순차

> seq(5)
[1] 1 2 3 4 5
> seq(-1,1,by=0.5)
[1] -1.0 -0.5  0.0  0.5  1.0

 
 
*list
벡터와 리스트 차이

> name = c("유비", "관우", "제갈량")
> ability=c(7 , 8 ,9)
> print(c(name[1], ability[1]))
[1] "유비" "7"   
>       
> 관우 = list(
+ name = name[2],
+ ability = ability[2]
+ )
> print(관우)
$name
[1] "관우"

$ability
[1] 8

> 
> 관우$ability
[1] 8

 
-리스트를 활용할 경우, 특정 기준으로 데이터를 모아서 처리/호출 가능
-이름$가져오고싶은해당벡터를 활용하면 가져와진다.
 
*데이터프레임

> name= c("chan", "song", "jam")
> power=c(1,2,3)
> wisdom=c(3,2,3)
> job=c("a","b","c")
> chan=list(
+   name=name[1],
+   power=power[1],
+   wisdom=wisdom[1],
+   job=job[1]
+ )
> chan
$name
[1] "chan"

$power
[1] 1

$wisdom
[1] 3

$job
[1] "a"

> people=data.frame(name, power, wisdom, job)
> people
  name power wisdom job
1 chan     1      3   a
2 song     2      2   b
3  jam     3      3   c

-data.frame함수를 쓰면 fram이 형성된다
-행은 인물들, 열은 인물들의 특징과 직업을 표시하는 구조
 

> people[2:3,1:2]
  name power
2 song     2
3  jam     3

-영역별 호출 가능
 
*메트릭스

> a=matrix(c(1,2,3,4),nrow = 2, ncol = 2)
> a
     [,1] [,2]
[1,]    1    3
[2,]    2    4
> mat= matrix(0,10,2)
> mat
      [,1] [,2]
 [1,]    0    0
 [2,]    0    0
 [3,]    0    0
 [4,]    0    0
 [5,]    0    0
 [6,]    0    0
 [7,]    0    0
 [8,]    0    0
 [9,]    0    0
[10,]    0    0

matrix()
메트릭스 생성
 
메트릭스와 데이터프레임의 차이점
-데이터프레임은 열마다 다른 유형의 데이터를 가질 수 있다.
-메트릭스는 각 열은 같은 데이터 타입을 가지고 있다.
->데이터프레임은 데이터를 정리하고 조작하는데 유용(데이터 분석, 시각화, 전처리)
->메트릭스는 통계분석(숫자형 데이터에 적합)에 유용/수학적 연산을 빠르게(특히 선형대수학)
 
*색인(index)

> sel=seq(10)>5
> df=c("a","b","c","d","e","f","g","h","i","j")
> df[sel]
[1] "f" "g" "h" "i" "j"
> mat = matrix(df,5,2)
> mat
     [,1] [,2]
[1,] "a"  "f" 
[2,] "b"  "g" 
[3,] "c"  "h" 
[4,] "d"  "i" 
[5,] "e"  "j" 
> mat[5,1]
[1] "e"

 
*데이터 유형 확인 및 변환

> class(mat)
[1] "matrix" "array" 
> typeof(mat)
[1] "character"
> as.matrix(mat)
     [,1] [,2]
[1,] "a"  "f" 
[2,] "b"  "g" 
[3,] "c"  "h" 
[4,] "d"  "i" 
[5,] "e"  "j" 
> as.data.frame(mat)
  V1 V2
1  a  f
2  b  g
3  c  h
4  d  i
5  e  j
> a=1.2345
> as.integer(a)
[1] 1
> as.numeric(a)
[1] 1.2345

-class/typeof는 유형 확인
-as.matrix()/as.data.frame()/as.integer()/as.numeric()을 활용하면 변환
 
*데이터 읽기/확인/저장
 
사정상 파일이 없어 코드로만 올린다.

 df=read.csv("c://data/bearing.csv")

-데이터 가져오기=읽기
 

> head(mat,3)
     [,1] [,2]
[1,] "a"  "f" 
[2,] "b"  "g" 
[3,] "c"  "h"

-원하는 row확인 가능
 

> names(iris)
[1] "Sepal.Length" "Sepal.Width"  "Petal.Length" "Petal.Width"  "Species" 

-활용 변수의 종류 확인 가능
 

> str(iris)
'data.frame':	150 obs. of  5 variables:
 $ Sepal.Length: num  5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
 $ Sepal.Width : num  3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
 $ Petal.Length: num  1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
 $ Petal.Width : num  0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
 $ Species     : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...
> summary(iris)
  Sepal.Length    Sepal.Width     Petal.Length    Petal.Width          Species  
 Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100   setosa    :50  
 1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300   versicolor:50  
 Median :5.800   Median :3.000   Median :4.350   Median :1.300   virginica :50  
 Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199                  
 3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800                  
 Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500 

-str을 활용하면 데이터의 전체 구조를 볼 수 있음
-summary를 활용하면 전체적인 통계량 가늠 가능

> summary(iris)[1,2]
[1] "Min.   :2.000  "

-필요한 정보도 추출 가능

> fix(df)
> Views(df)

-데이터 전체를 볼 수도 있다

> dim(iris)
[1] 150   5

-데이터의 크기 확인 가능
 

> write.csv(iris, "c:/data/iris.csv")

-저장

'Language > R' 카테고리의 다른 글

선형회귀  (1) 2024.04.22
선형대수  (0) 2024.04.21
미적분  (1) 2024.04.21
함수와 프로그래밍  (1) 2024.04.21

*mysql 이 무엇인지? DB, 테이블, 컬럼


mysql을 알아보기 전 미리 알아야 하는 게 있다.

*데이터베이스(DB):특정 기업이나 조직 또는 개인이 필요에 의해 논리적으로 연관된 데이터를 모아 일정한 형태로 저장해 놓은 것
-->쉽게 말해 데이터(회원정보, 게시판 글 ,사진)들이 모여있는 곳을 데이터베이스(데베)라 부른다

*DBMS(data base management service):데이터베이스 관리 프로그램

특징
-통합된 데이터(공용)
-저장된 데이터
-운영 데이터(업무 목적으로)
-공용데이터(한 사람 한 업무를 위해 사용x)

엑셀과 다른 점
-엑셀은 같이 수정이 안됨=동시에 작업이 안된다
-엑셀은 사이즈의 한계가 있다.

DBMS의 장점
-중복 최소화
-공용
-일관성
-무결성
-보안
-표준화
-전체 데이터 요구 조정

종류
*관계형 데이터베이스-(ex:myspl)
데이터 항목 간에 사전 정의된 관계가 있을 때 데이터 항목들의 모음을 가리킨다. 이 항목들은 열과 행으로 이루어진 "테이블 집합"으로 구성됨. 

*즉 mysql이란?

mysql은 데이터를 저장하고 관리하는데 널리 사용되는 오픈 소스 관계형 데이터베이스 관리시스템이다.

*비관계형 데이터베이스-(ex.mongo db)
유연한 스키마를 갖추고 있는데 데이터 볼륨, 짧은 지연 시간과 "유연한 데이터 모델":이 필요한 애플리케이션에 최적화 되어 있다.

관계형 데이터베이스의 특징
-2차원 테이블로 표현(가로x세로=테이블)
-데이터 무결성
-SQL사용
-한번에 레코드 처리가 아닌 집합을 처리함
 

사진 출처:https://velog.velcdn.com/images/gyrud02/post/e138ba01-198c-4390-848a-419a94e23537/Table.png



*테이블

-실질적으로 자료가 저장되는 곳
-행과 컬럼으로 구성
-특정한 목적과 성격에 의해 생성되는 집합체(ex.고객테이블, 주문테이블)
-사용자의 접근이 가능한 모든 데이터 보유

*행=레코드=튜플

일련의 관련 자료를 나타낸다

*컬럼=항목

해당하는 데이터들의 속성=구조를 나타낸다


*필드
정보의 한 조각으로, 처리의 최소 단위가 되는 것

기본키/외부키(private key/foreign key)
-기본키:유일하게 번호값 구분할 수 있게 주는 값
-외부키:테이블의 연결을 시켜주는 키(참조하는 테이블의 기본키)

*SQL:데이터베이스와 대화하기 위해 디자인된 언어
-관계형 데이터베이스에서 데이터 조작과 데이터 정의를 하기 위해 사용하는 언어
-입력 조회 수정 삭제 하기 위해서  SQL사용
-데이터베이스 쿼리는 데이터베이스에서 데이터를 추출하여 읽을 수있는 형식으로 형식을 지정함.
-쿼리는 데이터베이스에 필요한 언어, 즉 일반적으로 해당 언어 SQL.

특징
-쉽다
-절차적인게 아닌 선억적 언어
-DBMS 종류 얽매이지 않고 사용 가능

작업종류
-데이터 조회
-테이블 행 삽입 갱신 및 삭제
-객체 생성, 변경 및 삭제
-엑세스 제어
-무결성 보장

*select, insert, delete, update 쿼리문에 대해서 이해해보기

-select-데이터 조회
select 컬럼명 from 테이블명

-insert-새 행 입력(ex.새로운 고객 정보를 집어 넣을 때)
insert into 테이블명(칼럼명1,칼럼명2) values(값1,값2)

-delete-행 제거(ex.데이터 지울 때)
delete from 테이블명

-update-기존 행 변경(ex.기존 사원의 주소가 바뀌었을 때)
update 테이블명 set칼럼명=변경할 값

*where 조건문이 무엇인지

-where 조건
oerder by 컬럼명 asc or desc

-selct column1 from table where 조건문 order by column2 asc or desc;
-column1 대신 *을 넣으면 컬럼 전체
--------------------------------------------------------------------------------------------------------------------------------------------

*테이블 생성 - 랭크를 저장하기 위해 테이블 생성 ( rank 테이블)
https://pinetreeday.tistory.com/145

 

DB MySQL WorkBench Tool을 이용한 Table 생성하는 방법

DB MySQL WorkBench Tool을 이용한 간단한 SQL문 작성 -> Mysql WorkBench를 실행 후 왼쪽 상단의 SCHEMA 항목에서 마우스 오른쪽 클릭 후 Create Schema... 을 선택합니다. -> Schma를 생성하게 되면 Name을 설정할 수

pinetreeday.tistory.com

위의 블로그 참고하여 테이블 생성(결과물은 제일 밑에 있다)
 

*파이썬에서 mysql 모듈을 설치하고 연결진행& 파이썬에서 가지고 온 데이터 내용을 테이블에 insert를 해본다.

pymysql 모듈을 설치해주고 가져온다

import pymysql

 
mysql과 연결 시켜주고(연결에 필요한 데이터를 넣어준)
conn은 데이터베이스에 연결할 때 사용되는 객체

# MySQL 연결 설정
conn = pymysql.connect(host="localhost", user="root", password="tjcks0035@", db="rs", charset="utf8")

 
커서 객체를 생성해준다
cursor: 데이터베이스에서 데이터를 쿼리하고 조작하게 도와주는 것

cursor = conn.cursor()

 
전글에서 크롤링한 데이터를 가져와 data리스트에 넣어준다.

data = requests.get('https://sports.news.naver.com/wfootball/index')
soup = BeautifulSoup(data.text, 'html.parser')

soccer_rank = soup.select('#_team_rank_epl > table > tbody > tr')

# 데이터를 담을 리스트 초기화
data = []

for tr in soccer_rank:
    span = tr.select_one("td > div > div.info > span")

    if span:
        print(span.text)
        data.append(span.text)

    else:
        print("Span not found")

 
앞에서 배운 insert쿼리문으로 데이터베이스에 data의 자료들을 넣어준다.

# 데이터 삽입 쿼리
insert_query ="""
INSERT INTO  rs.rs
(name) 
VALUES 
(%s)"""

# 데이터 삽입
cursor.executemany(insert_query, data)
conn.commit()

 
마무리로 커서와 conn을 종료시켜준다

# 연결 종료
cursor.close()
conn.close()

 
전체

import requests
import pymysql
from bs4 import BeautifulSoup

# MySQL 연결 설정
conn = pymysql.connect(host="localhost", user="root", password="----", db="rs", charset="utf8")

#MySQL 데이터베이스 연결 객체 conn을 사용하여 커서 객체를 생성하는 코드입니다.
#커서는 SQL 쿼리를 실행하고 결과를 가져오는 데 사용되는 객체입니다. 커서를 사용하여 데이터베이스에서 데이터를 쿼리하고 조작할 수 있습니다.

cursor = conn.cursor()
data = requests.get('https://sports.news.naver.com/wfootball/index')
soup = BeautifulSoup(data.text, 'html.parser')

soccer_rank = soup.select('#_team_rank_epl > table > tbody > tr')

# 데이터를 담을 리스트 초기화
data = []

for tr in soccer_rank:
    span = tr.select_one("td > div > div.info > span")

    if span:
        print(span.text)
        data.append(span.text)

    else:
        print("Span not found")

        # _team_rank_epl > table > tbody > tr:nth-child(2) > td:nth-child(2) > div > div.info > span

# 데이터 삽입 쿼리
insert_query ="""
INSERT INTO  rs.rs
(name) 
VALUES 
(%s)"""

# 데이터 삽입
cursor.executemany(insert_query, data)
conn.commit()

# 연결 종료
cursor.close()
conn.close()

 

 
결과





*함수
반복되는 코드를 사용할 때가 있는데. 이를 좀 더 효율적으로 만들기 위해 사용된다.

def 함수_이름(매개변수):
    수행할_문장
    ...
    return 리턴값

*키워드 매개변수,kwargs
>>> print_kwargs(a=1)
{'a': 1}
>>> print_kwargs(name='foo', age=3)
{'age': 3, 'name': 'foo'}

*lambda
lambda는 함수를 생성할 때 사용하는 예약어로 def와 동일한 역할을 한다. 보통 함수를 간결하게 만들 때 사용된다.

lambda 매개변수1, 매개변수2.... : 매개변수를 이용한 표현식

add = lambda a,b : a + b
result = add(3, 4)
print(result)

*input()
사용자 입력 값

*print()
출력 값

'Language > Python' 카테고리의 다른 글

파이썬-제어문  (2) 2024.03.15
파이썬-자료형  (2) 2024.03.15

+ Recent posts