데이터 분석
-
python json int형 datetime으로 바꾸고 mysql에 insert하기데이터 분석/SQL 2021. 11. 12. 15:45
excel 엑셀 파일을 json으로 바꾼 뒤 한줄씩 불러들여 sql에 insert하려고 했더니, datetime table에 0000-00-00 00:00:00으로 들어갔다. 알고봤더니 쥬피터노트북에서는 cs_start_date 칼럼이 datetime형이었는데 엑셀에서 json 변환할 때 int형으로 바뀌었다. 1627689600000 라는 숫자는 timestamp로 바뀌었기 때문에 안의 날짜도 변형된 것이었다. # Json 가져오기 with open('37900_customer_service_record.json', encoding='utf-8') as json_file: json_data = json.load(json_file) # print(json_data) # print(len(json_data..
-
Kolypy 실행 오류 SystemError: java.nio.file.InvalidPathException: Illegal char <*> at index 71:데이터 분석/Python 2021. 10. 9. 21:35
SystemError: java.nio.file.InvalidPathException: Illegal char at index 71: c:\users\tjfsu\.conda\envs\pr_tensorflow\lib\site-packages\konlpy\java\* Jpype 다운로드 https://www.lfd.uci.edu/~gohlke/pythonlibs/#jpype pype를 각자 파이썬 버전에 맞게(저의 경우 Python 3.6.13) 다운로드 받는다 python 버젼은 설정한 가상환경에 들어가 (Anacond Prompt) python이라고 명령어를 치면 확인할 수 있다 JPype1‑1.2.0‑cp36‑cp36m‑win_amd64.whl 이 파일로 받았다. Anaconda prompt에 들어가 ..
-
AttributeError: module 'tweepy' has no attribute 'StreamListener'데이터 분석/Python 2021. 10. 9. 18:02
from konlpy.tag import Okt NLP 자연어처리 예제 진행하는데 Konlpy import에서 아래와 같은 오류가 났다. AttributeError: module 'tweepy' has no attribute 'StreamListener' 해결방법 import tweepy tweepy.__version__ 만일 3.7.0~3.10.0 버전이 아닐 경우, 아래의 코드로 tweepy 버전을 바꿔준다 !pip install tweepy==3.10.0 -> 결과는 잘 실행됨
-
파이참 bs4 Installing packages failed: Installing packages: error occurred.데이터 분석/Python 2021. 7. 21. 12:46
file>setting>python Interpreter>설정모양>Add>OK 누르기 그러면 설치된 Package가 보여짐 + 버튼 눌러서 bs4 다시 설치하면 됨 자세한 내용 아래 블로그 참고하였음 파이썬 파이참 pip install lxml 설치 오류 해결 방법 파이썬 파이참 pip install lxml 설치 오류 해결 방법 파이썬, 파이참을 공부한다는 것은 pip 설치와의 싸움같다. 마치 환경변수와의 싸움같다. 온라인 블로그에 있는 자료를 하나씩 보며 학습하려니, shwank77.tistory.com
-
피어슨 상관계수(Pearson Correlation Coefficient)란?데이터 분석/Statistics 2021. 6. 28. 17:36
피어슨 상관계수(Pearson Correlation Coefficient)는 두 연속형 변수 사이의 선형관계의 강도와 방향을 조사하기 위해서 계량화한 상관분석 방법으로 Pearson상관계수를 사용한다 1일수록 한 변수가 증가하면 다른 변수도 증가하는 완전한 양의 선형관계를 나타내며 0에 가까운 상관 값은 선형관계가 없고 -1일수록 한 변수가 증가할수록 다른 변수가 감소하는 강한 음의 상관관계를 나타낸다 두 변수간의 식은 공분산을 각각의 표준 편차의 곱으로 나눈 값이다. 아래 대파 공공 데이터의 평균 거래가격과 한달전 평균 최저기온과는 음의 상관관계로 대파 평균 가격이 증가할수록 평균 최저기온은 감소하는 것을 알 수 있다. 하지만 상관분석이므로 서로 영향을 미쳤다는 인과관계가 있는 것으로 볼 수는 없다.
-
Boxplot, '상자 수염 그림'(Box-and-Whisker Plot), 상자그림, 설명 해석데이터 분석/Statistics 2021. 6. 28. 17:24
데이터를 분석하다보면 종종 boxplot 도표를 보게 된다. 상자수염그림이라고도 부르는 boxplot 을 어떻게 해석하는지 알아보려고 한다. 빅데이터를 다루다보면 데이터가 전체적으로 어떻게 분포하는지, 4분위 값과 이상치 등을 한눈에 알아보기 위해 boxplot 시각화할 때가 있다. 다음의 상자그림을 보면 최댓값, 최솟값과 4분위 값 (75%, 50%(중앙값), 25%), 최솟값을 확인할 수 있다. oulier에 위치한 x는 MinMax 범위를 넘어서는 이상치다. 실제로 대파의 2020년 1~3월과 2021년 1~3월 거래가격을 boxplot 시각화하면 2020년도 대파의 거래가는 이상치가 많고 MinMax범위가 2021년에 비해 매우 좁음을 알 수 있다. 2021년 거래가격의 중앙값은 75%에 위치한 ..
-
계절요소 추가한 시계열 선형 모델 SARIMAX 파이썬 (python)데이터 분석/MachineLearning 2021. 5. 31. 22:18
SARIMAX는 ARIMA와 함께 시계열 데이터 분석할 때 사용하는 모델이다. 기존의 ARIMAX 모형에서 계절성 패턴을 추가한 모델로 SARIMAX의 X는 외부 변수를 나타내는 eXogeneous의 줄임말로 학습과 예측에 포함시킬 수 있다 from statsmodels.tsa.statespace.sarimax import SARIMAX 주요파라미터 Parameter Description endog 관측된 시계열 데이터 exog 외부 변수 데이터 order ARIMA의 p, d, q seasonal_order SARIMA의 seasonal component (P, D, Q)s enforce_stationary AR항이 stationary를 띠게 함 (default=TRUE) enforce_invertib..
-
ARIMA 모형 알고리즘(시계열 데이터 분석), python 파이썬데이터 분석/MachineLearning 2021. 5. 30. 20:23
데이콘 funda 상점 매출 예측 분석 실습을 하던 중 ARIMA 시계열 데이터를 분석하여 매출을 예측하는 것을 연습해보았다. 해당 모형은 추천 시스템, 주가, 비트코인, 금값 등 금융 데이터 시세를 예측하는 방법에 많이 사용된다. ARIMA에 대해서 자세히 공부해보자. ARIMA(p, d, q) 모델이란? ARMA모델에 차분 과정 추가 AR-> Autoregressive-AR(p) 자기회귀 t 시점의 데이터와 이전 시점(t-p; lagged p)의 데이터 사이의 관계에 대한 회귀 모델(regression model) Integrated - I(d) 차분 (Difference) 미적분에서의 개념, 임의 두 점에서의 함수 값들의 차이 - 차분 : f(xi+Δx) - f(xi) 또는 fk+1 - fk ex)..