-cofficient, 각 변수별 계수의 유의확률 -회귀 모델의 R2 값은 0.7528로, 모델이 설명하는 데이터의 분산의 약 75.28%를 설명한다는 것을 의미합니다 -F-통계량(anova)은 91.38이고, 자유도는 1 및 30입니다 -F-통계량(모델의 적합)은 회귀 분석에서 SSR(회귀제곱합)을 SSE(잔차제곱합)으로 나눈 값
------------>이 결과값에서 나온 R과 f통계량이 무엇인지 더 자세히 알아보자
*R^2의 결정계수
sst(평균과 점들간의 차이)=ssr(내가 만든 모델과 평균의 차이)+sse(잔차) ->회귀모델의 적합도를 판단할 수 있는 수치
-r^2은 상관계수 제곱-ssr/sst=1-sse/sst-0~1 사이에 존재 -사용하고 있는 예측과 반응변수의 분산을 얼마나 줄였는지 -y를 예측했을 대 대비 x 정보를 사용했을 때 성능향상 정도
> install.packages("matlib")
> library(matlib)
> xlim=c(0,6)
> ylim=c(0,6)
#x축과 y축의 범위를 설정하는 변수들입니다. 여기서는 (0, 6) 범위를 설정하여 그래프의 크기를 결정합니다.
> plot(xlim, ylim, type="n", xlab = "X1", ylab = "X2", asp=1)
> plot(): #그래프를 그리는 함수입니다. 여기서는 아무것도 표시하지 않고,
#x축과 y축의 범위만 설정한 후, 비어있는 그래프를 생성합니다.
> grid() #그래프에 격자를 추가하는 함수입니다.
>
> a=c(4,2)
> b=c(1,3)
>
> vectors(b,labels="b", pos.lab=4, frac.lab=.5, col="green")
> vectors(a,labels="a", pos.lab=4, frac.lab=.5)
> vectors(a+b,labels="a+b", pos.lab=4, frac.lab=.5, col="red")
-plot() 함수를 사용하여 그래프를 생성하는 부분입니다. 여기서 사용된 매개변수들의 의미는 다음과 같습니다:
xlim, ylim: x축과 y축의 범위를 설정합니다. 여기서는 xlim 변수에 (0, 6) 범위를, ylim 변수에도 (0, 6) 범위를 설정하였습니다. 이는 그래프의 x축과 y축이 0부터 6까지의 범위를 가지도록 설정하는 것을 의미합니다.
type="n": 이 매개변수는 그래프의 유형을 지정하는 것입니다. 여기서 "n"은 "none"을 의미하며, 데이터를 포함하지 않고 비어있는 그래프를 생성합니다. 이는 실제 데이터가 아니라 그래프의 구조를 설정하기 위한 것입니다.
xlab, ylab: x축과 y축에 라벨을 추가하는 것을 지정합니다. 여기서는 "X1"과 "X2"라벨이 x축과 y축에 각각 추가됩니다.
asp=1: 이 매개변수는 그래프의 종횡비(Aspect Ratio)를 설정합니다. 여기서는 1로 설정되어 있으므로, x축과 y축의 길이의 비율이 1:1이 되도록 그래프가 생성됩니다. 즉, 그래프가 정사각형 모양으로 보이도록 설정하는 것입니다.\
-pos.lab 및 frac.lab는 vectors() 함수의 옵션 중 일부입니다.
pos.lab: "라벨"의 위치를 지정하는 매개변수입니다. 여기서는 숫자 4가 사용되었으며, 이것은 라벨이 벡터 끝에서부터 어느 정도 떨어진 위치에 표시되는지를 나타냅니다. 일반적으로 1은 벡터 시작점에 가깝고 2는 벡터 끝점에 가까운 위치를 의미합니다. 여기서 4는 끝점에서 시작점 쪽으로 이동하며, 끝점으로부터의 거리를 조절하는 역할을 합니다.
frac.lab: "라벨"의 위치를 벡터의 어느 부분에 표시할지를 결정하는 상대적인 비율을 지정하는 매개변수입니다. 여기서는 0.5가 사용되었으며, 이것은 라벨이 벡터의 중간에 표시되도록 설정합니다. 예를 들어, 0은 벡터의 시작점에, 1은 벡터의 끝점에 라벨이 위치하도록 합니다. 따라서 0.5는 벡터의 중간에 라벨이 표시됩니다.
=t(x)%*%x=단위행렬/1이된다/ 4.510281e-17이나 2.775...e..는 0에 가까운 매우 작은 숫자다 -고유벡터와 전치한 고유벡터의 곱은 단위행렬에 근접한 값으로 나온다 -그 의미는 고유벡터들이 서로 직교한다는 의미이다
- det(mat)=prod(eanalysis$value) 이건 무슨 의미?
행렬의 determinant(det): 행렬의 determinant는 부피 변화율을 나타내며, 행렬이 벡터를 변환할 때 부피의 변화를 결정합니다. 따라서 determinant는 해당 행렬의 크기와 구조에 대한 정보를 제공합니다.
고유값들의 곱(eigenvalues): 고유값들의 곱은 해당 행렬의 고유벡터들이 변환에서 어떻게 동작하는지를 나타냅니다. 고유값들은 행렬이 벡터를 변환할 때 벡터의 크기만을 변화시키고 방향을 유지하는데, 이 때 고유값들은 크기 변화율을 나타내며, 이 값들의 곱은 전체 변환의 크기 변화율을 나타냅니다.
따라서 행렬의 determinant(det)와 고유값들의 곱은 행렬의 변환 특성과 크기에 대한 중요한 정보를 제공합니다. 만약 행렬의 determinant가 0이 아니라면, 고유값들의 곱과 determinant는 서로 관련이 있습니다. 하지만 determinant가 0인 경우에는 추가적인 분석이 필요합니다.
> fx = expression(-x^2 + 6*x - 6)
> dfx = D(fx, 'x')
> dfx
6 - 2 * x
> f = function(x) eval(c(dfx)[[1]])
> f(3)
[1] 0
-expression은 함수를 만든거고 -D함수는 미분 - eval() 함수는 표현식을 평가하여 그 값을 계산합니다. 따라서 c(dfx)는 미분한 결과를 담은 벡터를 반환하고, eval(c(dfx))는 이를 평가하여 결과를 반환합니다. 여기서 [[1]]은 결과 벡터에서 첫 번째 값을 선택하는 것입니다.(chat gpt에서 가져옴)
> fx=function(x){
+ return(x^4-10*x^3+15*x^2-6*x+10)
+ }
> curve(fx)
>
> integr_by_you=function(a,b,n){
+ sum=0#처음에는 0으로
+
+ h=(b-a)/n#전체구간(1-0)을 n개로 나누면 직사각형 밑변의 길이 산출
+
+ for (i in 1:n) {sum = sum+h*fx(a+i*h)#오른쪽 직사각형으로 가면서 높이(f(x))와 h를 곱해가며 더함함
+
+ }
+ return(sum)
+ }
>
> integr_by_you(0,1,10)
[1] 9.70333
> integrate(fx,0,1)#윗 값가 거의 비슷하다다
9.7 with absolute error < 1.1e-13
시뮬레이션을 활용한 수치 적분 소개
> fx=function(x) x^2
> integrate(fx,-2,2)
5.333333 with absolute error < 5.9e-14
> #위와 같은 방식으로
> set.seed(132) #이 함수를 호출하면 이후에 생성되는 난수는 132에서부터 시작하여 동일한 순서로 생성됩니다.
> a=-2
> b=2
> c=0
> d=4
> n=10^5
>
> x= runif(n,a,b)
#"x = runif(n, a, b)는 n개의 난수를 생성하고,
#이를 [a, b] 범위의 균일 분포에서 생성하여 x에 할당하는 것을 의미합니다.
> y= runif(n,c,d)
>
> temp= sum(y<fx(x))
> 16*temp
[1] 532832
#temp는 y < fx(x)를 만족하는 경우의 수를 합산한 것입니다.
#즉, fx(x)의 값보다 y 값이 작은 경우의 수를 셉니다.
#그런 다음 16 * temp는 해당 영역의 근사치를 계산합니다.
#이 경우 16은 x의 범위가 -2에서 2까지이기 때문에 해당 영역의 넓이를 계산하기 위해 사용됩니다.
#temp는 이 영역에 속하는 균일한 무작위 점의 비율을 나타내므로,
#이를 영역의 넓이에 곱하여 전체 영역에 대한 근사치를 계산합니다//
메트릭스와 데이터프레임의 차이점 -데이터프레임은 열마다 다른 유형의 데이터를 가질 수 있다. -메트릭스는 각 열은 같은 데이터 타입을 가지고 있다. ->데이터프레임은 데이터를 정리하고 조작하는데 유용(데이터 분석, 시각화, 전처리) ->메트릭스는 통계분석(숫자형 데이터에 적합)에 유용/수학적 연산을 빠르게(특히 선형대수학)
> class(mat)
[1] "matrix" "array"
> typeof(mat)
[1] "character"
> as.matrix(mat)
[,1] [,2]
[1,] "a" "f"
[2,] "b" "g"
[3,] "c" "h"
[4,] "d" "i"
[5,] "e" "j"
> as.data.frame(mat)
V1 V2
1 a f
2 b g
3 c h
4 d i
5 e j
*데이터베이스(DB):특정 기업이나 조직 또는 개인이 필요에 의해 논리적으로 연관된 데이터를 모아 일정한 형태로 저장해 놓은 것 -->쉽게 말해 데이터(회원정보, 게시판 글 ,사진)들이 모여있는 곳을 데이터베이스(데베)라 부른다
*DBMS(data base management service):데이터베이스 관리 프로그램
특징 -통합된 데이터(공용) -저장된 데이터 -운영 데이터(업무 목적으로) -공용데이터(한 사람 한 업무를 위해 사용x)
엑셀과 다른 점 -엑셀은 같이 수정이 안됨=동시에 작업이 안된다 -엑셀은 사이즈의 한계가 있다.
DBMS의 장점 -중복 최소화 -공용 -일관성 -무결성 -보안 -표준화 -전체 데이터 요구 조정
종류 *관계형 데이터베이스-(ex:myspl) 데이터 항목 간에 사전 정의된 관계가 있을 때 데이터 항목들의 모음을 가리킨다. 이 항목들은 열과 행으로 이루어진 "테이블 집합"으로 구성됨.
*즉 mysql이란?
mysql은 데이터를 저장하고 관리하는데 널리 사용되는 오픈 소스 관계형 데이터베이스 관리시스템이다.
*비관계형 데이터베이스-(ex.mongo db) 유연한 스키마를 갖추고 있는데 데이터 볼륨, 짧은 지연 시간과 "유연한 데이터 모델":이 필요한 애플리케이션에 최적화 되어 있다.
관계형 데이터베이스의 특징 -2차원 테이블로 표현(가로x세로=테이블) -데이터 무결성 -SQL사용 -한번에 레코드 처리가 아닌 집합을 처리함
*테이블
-실질적으로 자료가 저장되는 곳 -행과 컬럼으로 구성 -특정한 목적과 성격에 의해 생성되는 집합체(ex.고객테이블, 주문테이블) -사용자의 접근이 가능한 모든 데이터 보유
*행=레코드=튜플
일련의 관련 자료를 나타낸다
*컬럼=항목
해당하는 데이터들의 속성=구조를 나타낸다
*필드 정보의 한 조각으로, 처리의 최소 단위가 되는 것
기본키/외부키(private key/foreign key) -기본키:유일하게 번호값 구분할 수 있게 주는 값 -외부키:테이블의 연결을 시켜주는 키(참조하는 테이블의 기본키)
*SQL:데이터베이스와 대화하기 위해 디자인된 언어 -관계형 데이터베이스에서 데이터 조작과 데이터 정의를 하기 위해 사용하는 언어 -입력 조회 수정 삭제 하기 위해서 SQL사용 -데이터베이스 쿼리는 데이터베이스에서 데이터를 추출하여 읽을 수있는 형식으로 형식을 지정함. -쿼리는 데이터베이스에 필요한 언어, 즉 일반적으로 해당 언어SQL.
특징 -쉽다 -절차적인게 아닌 선억적 언어 -DBMS 종류 얽매이지 않고 사용 가능
작업종류 -데이터 조회 -테이블 행 삽입 갱신 및 삭제 -객체 생성, 변경 및 삭제 -엑세스 제어 -무결성 보장
*select, insert, delete, update 쿼리문에 대해서 이해해보기
-select-데이터 조회 select 컬럼명 from 테이블명
-insert-새 행 입력(ex.새로운 고객 정보를 집어 넣을 때) insert into 테이블명(칼럼명1,칼럼명2) values(값1,값2)
-selct column1 from table where 조건문 order by column2 asc or desc; -column1 대신 *을 넣으면 컬럼 전체 --------------------------------------------------------------------------------------------------------------------------------------------
*파이썬에서 mysql 모듈을 설치하고 연결진행& 파이썬에서 가지고 온 데이터 내용을 테이블에 insert를 해본다.
pymysql 모듈을 설치해주고 가져온다
import pymysql
mysql과 연결 시켜주고(연결에 필요한 데이터를 넣어준) conn은 데이터베이스에 연결할 때 사용되는 객체
# MySQL 연결 설정
conn = pymysql.connect(host="localhost", user="root", password="tjcks0035@", db="rs", charset="utf8")
커서 객체를 생성해준다 cursor: 데이터베이스에서 데이터를 쿼리하고 조작하게 도와주는 것
cursor = conn.cursor()
전글에서 크롤링한 데이터를 가져와 data리스트에 넣어준다.
data = requests.get('https://sports.news.naver.com/wfootball/index')
soup = BeautifulSoup(data.text, 'html.parser')
soccer_rank = soup.select('#_team_rank_epl > table > tbody > tr')
# 데이터를 담을 리스트 초기화
data = []
for tr in soccer_rank:
span = tr.select_one("td > div > div.info > span")
if span:
print(span.text)
data.append(span.text)
else:
print("Span not found")
앞에서 배운 insert쿼리문으로 데이터베이스에 data의 자료들을 넣어준다.
# 데이터 삽입 쿼리
insert_query ="""
INSERT INTO rs.rs
(name)
VALUES
(%s)"""
# 데이터 삽입
cursor.executemany(insert_query, data)
conn.commit()
마무리로 커서와 conn을 종료시켜준다
# 연결 종료
cursor.close()
conn.close()
전체
import requests
import pymysql
from bs4 import BeautifulSoup
# MySQL 연결 설정
conn = pymysql.connect(host="localhost", user="root", password="----", db="rs", charset="utf8")
#MySQL 데이터베이스 연결 객체 conn을 사용하여 커서 객체를 생성하는 코드입니다.
#커서는 SQL 쿼리를 실행하고 결과를 가져오는 데 사용되는 객체입니다. 커서를 사용하여 데이터베이스에서 데이터를 쿼리하고 조작할 수 있습니다.
cursor = conn.cursor()
data = requests.get('https://sports.news.naver.com/wfootball/index')
soup = BeautifulSoup(data.text, 'html.parser')
soccer_rank = soup.select('#_team_rank_epl > table > tbody > tr')
# 데이터를 담을 리스트 초기화
data = []
for tr in soccer_rank:
span = tr.select_one("td > div > div.info > span")
if span:
print(span.text)
data.append(span.text)
else:
print("Span not found")
# _team_rank_epl > table > tbody > tr:nth-child(2) > td:nth-child(2) > div > div.info > span
# 데이터 삽입 쿼리
insert_query ="""
INSERT INTO rs.rs
(name)
VALUES
(%s)"""
# 데이터 삽입
cursor.executemany(insert_query, data)
conn.commit()
# 연결 종료
cursor.close()
conn.close()