카테고리
'Language/R' 카테고리의 글 목록 :: West_Cold (tistory.com)

'Language/R' 카테고리의 글 목록

IT 스터디 기록장

eatitstory.tistory.com


R의 기초
https://eatitstory.tistory.com/m/13

R의 기초

R이란?통계분석, 머신러닝, 인공지능을 위한 언어 R vs 파이썬(둘다 데이터를 사용하지만) R-분석업무 파이썬-IT기술업무 *벡터 interger, numeric, character, logical 유형 벡터의 선언> name = c("유비", "관우"

eatitstory.tistory.com


함수와 프로그래밍
https://eatitstory.tistory.com/m/14

함수와 프로그래밍

기초적인 함수 만들어 보기> sum1ton = function(n){ + result= sum(1:n) + return(result) + } > sum1ton(100) [1] 5050for/while(반복)> i=0 > for (i in 1:10) { + print(i) + } [1] 1 [1] 2 [1] 3 [1] 4 [1] 5 [1] 6 [1] 7 [1] 8 [1] 9 [1] 10 > number =1 >

eatitstory.tistory.com


미적분
https://eatitstory.tistory.com/m/15

미적분

직접 미분식을 만들어 사용> fd = function(f,x, h=x*sqrt(.Machine$double.eps)){# 작은 h + return((f(x+h)-f(x))/h) #전진차분 + } > > f= function(x){ + return(-x^2+6*x-6) + } > > fd(f,2, h=1) [1] 1 > > curve(f,1,5)#함수f에서서 구간[1,5]

eatitstory.tistory.com


선형대수
https://eatitstory.tistory.com/m/16

선형대수

벡터의 시각화> install.packages("matlib") > library(matlib) > xlim=c(0,6) > ylim=c(0,6) #x축과 y축의 범위를 설정하는 변수들입니다. 여기서는 (0, 6) 범위를 설정하여 그래프의 크기를 결정합니다. > plot(xlim, ylim,

eatitstory.tistory.com



선형회귀
https://eatitstory.tistory.com/m/17

선형회귀

*변수간 연관성: 상관계수 상관계수는 변수간 공분산을 각각의 표준편차의 곱으로 나눠준 결과값 코사인 값가 비슷하다 두 벡터간 공유하는 정보가 얼마인지에 대한 측면에서 벡터의 내적과 상

eatitstory.tistory.com



 

'Major > Data Analysis' 카테고리의 다른 글

Decision Tree(의사결정나무)  (0) 2024.06.17
KNN  (0) 2024.06.17
Modeling & Validation & Visualization  (1) 2024.06.17
데이터기반의 수요예측 모델링과 의사결정 최적화  (2) 2024.06.17
머신러닝의 기초  (0) 2024.04.20

*지능이란

-어려움을 푸는 능력
-합리적
-너무 완벽하지 않다 

지능은
배우고+결정+적응 -> 인간의 합리적 사고
=모델링+의사결정(극대 최소)+업데이드(활용하기) -> AI 

모델링이란
-공통 특성을 뽑아 단순화/일반화와 상세화 그 사이 어딘가를 결정 시키는 것
- 최고의 모델은 최소한의 결정 오류를 줄이고 최소한의 상세화를 시키는 것 

모델링-단순화와 상세화 그 사이 적절한 어딘가를 결정
최적화-최소한의 결정오류와 최소한의 노력으로 일반화 시킨다
업데이트-최소한의 결정오류

*머신러닝의 기본개념

빅데이터를 데베에 넣어 전처리 후 테이블을 만들어 모델링을 한다
데이터 테이블- n*p개 데이터 

머신러닝의 과정: 빅데이터(자연)->데이터베이스->(etl)->데이터 마트->(전처리)->데이터 데이블->모델링 

모델의 종류 

*지도학습(종속 필요)
-분류(범주형):숫자로 표시x/예:성별 숫자
-예측/회귀(연속형): 데이터 자체를 숫자/예: 나이, 연봉.. 

모델을 만들때 데이터셋을 70퍼만 사용하고 30퍼는 만들고 나서 사용한다 

분류: 사전에 소속 그룹을 알고 있는 관측지들을 이용하여, 미래에 그룹이 알려지지 않은 관측지가 어떤 그룹에 분류될 것이가를 예측 

예측: 사전에 종속변수를 알고 있는 관측지들을 이용하여, 독립변수와의 관계를 파악하여 함수를 만들어 미래에 독립이 왔을때 종속을 예측함 

*비지도 학습(종속 필요없음)
-군집분석(clustering)
-연관성탐색(시장바구니분석) 

군집분석: clustering-가까운 거 끼리 묶는다(intra는 최소로 inter는 최대로)/데이터 패턴을 이해하는 도구/요약 가능/y가 없다
연관성분석:대량의 데이터에서 변수들간의 연관 규칙을 찾아내는 데이터마이닝 기법
confidence-높은면 ~한 증세에 주로 사용-anywhere
lift-special한가?


*모델링의 기초

모델이 필요한 이유: 변화를 표현하기 위해

데이터를 분석: 특정 대상으로부터 정보를 추출하고 분석하여 해당 대상이 어떤 구조로 이루어져 있는지, 어떤 규칙으로 움직이는지 객관적으로 이해하고 제어할 수있게 하는 일 

데이터 분석의 대상은 주로 시스템의 형태로 구성=하나의 개체라기보다는 일련의 프로세스

데이터의 관측과 생성
자연의 시스템에서 데이터를 얻어내는과정=관측
추출된 데이터로 시스템을 재구성하는 과정= 생성
데이터를 통해 자연을 이해하기는 어렵다->데이터부족, 변수 부족, 현상이 복잡한 경우 

두가지 접근법
요소환원적 접근
데이터 의존적 접근(최근에 요소에서 이쪽으로 점점 확대 되고 있다) 

데이터 요약 그 이상 미래를 예측하는 분석 즉 수리모델이 필요하다
수리모델: 그 대상이 되는 데이터의 생성 규칙을 수학적 수단을 활용하여 시뮬레이션 하는 것
4칙연산/미적분/선형대수학(다차원)/통계 

모델링의 기본원리: 나누고 묶고 

수학을 활용하여 나머지 정보를 가능한 한 무의미(설명할 여지가 있는 규칙이 없게/오차+규칙을 낮추자)하게 만드는 절차

수리 모델을 구성하는 요소와 종류
변수(x,y)
수리적구조(4칙연산)
매개변수(a,b 파라미터)

미분(변화하는 비율을 계한하여)을 이용하여 미래의 모습을 예측할 수 있음
경계조건(제약조건)
보통 경계조건을 완벽히 파악하기 어렵기 때문에 컴퓨터를 활용, 수치해석을 수행->r사용 

이해 지향형 모델링: 데이터가 생성되는 구조를 이해하는 것을 목표
-대상이 되는 현상에 강하게 영향을 끼치는 요인을 찾거나 발생 원인을 밝히는 것을 목표(공학/사회과학적 응용을 위함) 

응용 지향형 모델링: 데이터를 기반을 미래의 데이터에 관해 예측하고 제어하거나 새로운 데이터를 이용하는 것을 목표(ML적 관점)
-이미지 판별, AI번역, 자율주행(주로 컴공/패턴인식 분야의 응용을 위함)

수리모델의 한계와 적용 범위
만능이 아닌 근사한 것(격차와 불확실성 존재)
최적화=격차를 줄이는 문제
불확실성은 주로 통계라는 방법을 통해 이해하려고 함
모델링은 결국 해당 모델을 활용하여 어떤 일을 수행하는가가 가장 중요한 무제! 
 
 

*기초 수리 모델: 방정식 기반 모델 
선형모델
-변수 사이의 관계를 등식로 표현
-수리적으로 다루기 쉽다
-매개변수 값을 조정해서 모델의 예측하는 값과 실제값이 가까워지도록(무의미해지게) 해야함
-최적화 문제
-매개변수를 조정하는 것도 최적화
-formulation : 식을 정립하는 과정
-solver : 식을 풀어 최대값과 최댓값을 달성하는 x를 구하는 방법


*기초 수리 모델 : 미분방정식 모델
-특정 대상이 시간에 따라 변화하는 모습을 모델링할 때
-시간에 따라 n이 어떻게 변할것인가?(예측)
-미분방정식의 해는 하나의 값이 아니라 또 다른 식
-미분방정식 어디에 쓸까?->미래를 예측하는데(제어)

'Major > Data Analysis' 카테고리의 다른 글

Decision Tree(의사결정나무)  (0) 2024.06.17
KNN  (0) 2024.06.17
Modeling & Validation & Visualization  (1) 2024.06.17
데이터기반의 수요예측 모델링과 의사결정 최적화  (2) 2024.06.17
R을 활용한 데이터 분석  (0) 2024.05.13

+ Recent posts