본문 바로가기

분류 전체보기

(15)
[파이썬] ImportError: No module named sklearn.cross_validation kaggle 에서 LSTM (Tutorial) 연습을 하던 중에 cross_validation 에서 에러가 발생했다. ImportError: No module named sklearn.cross_validation으로 검색해보니 아래와 같은 답이 나왔다. 해결은 심플!! cross_validation 대신 model_selection 으로 바꾸면 된다.
[파이썬] 가상환경 생성(Anaconda Virtual Environment setup) 1. 아나콘다 설치 https://www.anaconda.com/products/distribution Anaconda | Anaconda Distribution Anaconda's open-source Distribution is the easiest way to perform Python/R data science and machine learning on a single machine. www.anaconda.com 2. Anaconda power shell / Terminal 열기 (Window : Anaconda power shell, MacOS: Terminal) 3. 가상환경 만들기 conda create --name lstm_221221 python=3.7 → lstm_221221 이라는 ..
[파이썬] 교집합/합집합/차집합 :: set 집합자료형 사용하기 set 집합자료형 중복이나 순서를 허용하지 않음 → 원하는 내용을 골라낼 수 없음 중복을 허용하지 않기 때문에 고유한 데이터를 찾아내는 데 용이 먼저, set 집합자료형을 만들 땐 괄호 { }를 이용하거나, set( [ ] ) 을 이용한다. set 함수를 사용하면 data가 어떤 것이 들어있는지 확인할 수 있는데, 중복 및 순서는 무시하고 나열한다. 교집합(두 집합이 공통으로 갖고 있는 것) & 합집합(두 집합에 있는 모든 것을 합한 것) | 차집합(한 집합에서공통 집합을 뺀 것) - 아까 앞에서 set1={1,2,3,4,5} 이고 set2=set([1,2,3]) 였다. set값을 더하거나 지우고 싶을 때? set 값 하나를 더할 때는 .add( ) , 많이 더할때는 .update( [ ] ) set 값..
[통계]t 분포(표) 목표 : 모평균 μ를 추정 문제 : 모표준편차(σ)를 모르고, 표본의 크기 n이 작다. ※ 가정 : 모집단이 정규분포 N(μ, σ^2)를 따른다. ※ 모집단이 정규분포를 따를 때, 모표준편차(σ)가 알려져 있다면 다음 식이 성립한다. 하지만 모표준편차(σ)를 모른다면???? 모표준편차(σ) 대신에 표본표준편차(s)를 사용해야 한다. (1) 표본표준편차(s)를 사용했을 때 표본의 크기(n)가 크다면, σ 대신 s를 사용해도 정규분포를 따른다. (2) 하지만 s를 사용하는데 표본의 크기(n)가 작다면, 정규분포를 따르지 않는다!! Q : 정규분포를 따르지 않으면 어떤 분포를 따르지?? A : 자유도(n-1)인 t-분포를 따른다. t-분포는 표준정규분포와 아주아주 비슷하게 생겼다. 아래 그림에서 정규분포(파란..
[통계] 엑셀로 줄기-잎 그림/사분위수 구하기/IQR/상자그림(BOX PLOT) 그리기 다음과 같은 자료가 있다. 320 370 388 334 325 315 334 301 270 310 274 308 315 368 332 260 295 356 333 248 줄기-잎 그림 작성 (1) 관측값을 보고 앞단위와 뒷단위를 정한다. - 자료의 MIN 값이 248, MAX 값이 388이므로 앞단위를 24~38로 정했다. (2) 앞 단위를 줄기로 하고, 뒷 단위를 잎으로 하여 해당하는 관측값을 오른쪽에 입력한다. (3) 관측값이 없는 줄기를 지우고, 잎 부분을 작은 숫자가 왼쪽에 오게 정리한다. 사분위수 구하기 사분위수(QUARTILE)란? 전체 데이터(관측값)를 작은 순서로 배열했을 때, 이를 4등분하는 값이다. 제 1사분위수 Q1 , 제 2사분위수 Q2, 제 3사분위수 Q3, 제 4사분위수 Q4 라..
[통계] 엑셀로 도수분포표 / 히스토그램 그리기 다음과 같은 자료가 있다. 0.07 0.07 0.12 0.95 0.35 0.13 0.06 0.72 0.13 0.17 0.15 0.27 0.38 0.09 0.06 0.58 0.31 0.12 0.86 0.05 0.06 0.20 0.39 0.12 0.07 0.14 1.13 0.10 0.15 0.20 0.05 0.22 0.10 0.10 0.19 2.40 0.57 0.11 0.40 0.50 0.14 0.12 0.08 0.29 0.09 2.70 0.12 0.11 0.05 0.22 0.10 엑셀로 위 자료의 도수분포표와 히스토그램을 그리려고 한다. 1. 도수 분포표 만들기 먼저, 도수분포표란, 자료를 일정 그룹으로 나눠 그룹에 속하는 데이터가 얼마나 되는지 보는 표이다. 아래 표는 기상청에서 제공하는「지진및지진해일발..
[통계] 모수(parameter) vs. 통계량(statistic) 대통령 선거 결과가 궁금하다고 할 때, 투표를 한 모든 사람들의 집단은 모집단이 되고, 출구조사에서 선택된 사람들의 집단은 표본이 된다. 즉, 모집단은 내가 알고싶은 집단 전체를 의미하고, 표본은 모집단의 일부를 의미한다. 모집단이 갖는 평균, 분산 등의 특성을 모수(Parameter) 라고 하고, 표본이 갖는 특성을 통계량(Statistic) 이라 한다. 우리의 목표는, 우리가 갖고 있는 Samples의 통계량(Statistic)들을 바탕으로 모수(Parameter)를 추청하는 것이다. 자료가 퍼진 정도를 '분산'이라고 하는데, 모분산은 아래와 같이 구한다. 표본분산은 아래와 같이 구한다. -------------------------------------------------------- N개의 sa..
[파이썬] 딕셔너리 구조 / 빈 딕셔너리 만들기 1. 딕셔너리 기본 구조 리스트, 튜플 딕셔너리 인덱스를 쓰거나 찾고 싶은 값의 위치를 찾아냄 데이터를 구별해낼 수 있는 다른 이름을 가지고 있음 딕셔너리는 요소가 키(key)를 갖고 있는 것이다. 무..무슨 소리야?? 예를 들면, 앞에서 리스트(list)와 튜플(tuple)은 각 요소에 '이름'이 붙지 않았다. data=[1,2,3,4,5] 라고 할 때 요소 1,2,3,4,5 는 인덱스를 기반으로 저장된 요소들이다. 반면 딕셔너리는 각 요소가 키(key)를 기반으로 저장되어 있다. 즉, data= { key : 요소, key : 요소, ... key : 요소 } 와 같이 key를 기반으로 각 요소들이 저장된다. 예를들어보자. 홍길동(HongGilDong)이라는 이름을 가진 사람의 data가 있다. 이 ..