데이터 분석
-
단순/다항/다중 회귀분석 개념 및 차이데이터 분석/Python 2021. 5. 16. 23:01
상관분석이 단순이 두 변수 간 관련성을 파악하는 것이라면 회귀분석인 두 요인 간에 미치는 영향을 알 수 있다. 단순 회귀분석은 두 변수 간의 관계를 직선 형태로 설명하는 알고리즘이며, 다항 회귀분석은 2차함수를 이용하여 보다 복잡한 곡선 형태의 회귀선을 표현할 수 있다 단순/다항 회귀분석이 종속 변수 Y에 영향을 주는 독립변수 X가 하나인 경우라면, 다중 회귀분석은 여러 개의 독립 변수가 종속 변수에 영향을 주고 선형관계를 갖는 경우이다. 한 개 이외의 다양한 다른 요인이 있을 수 있기 때문이다. 모형의 예측값인 종속 변수에 대한 실제 데이터를 알고 있는 상태에서 학습하기 때문에 지도학습으로 분류된다. github 연습 참고 : https://github.com/Areum120/DataAnalysis_P..
-
분류 알고리즘 - 로지스틱 회귀분석데이터 분석/MachineLearning 2021. 5. 16. 22:49
로지스틱 회귀는 종속변수(Y)에 로짓 변환을 실시하여 로지스틱 회귀분석이라고 한다. 위 로지스틱 모형식은 독립변수(X)의 값에 관계 없이 종속변수(Y)의 값이 항상 0 - 1 사이에 있도록 한다. 결과가 이진형 변수(0 or 1) 라는 것을 빼면 다중선형회귀와 마찬가지로 독립변수와 종속변수를 선형관계로 가정한다. 종속변수(Y)의 결과가 범주형으로 분류 분석에 해당되는 지도 학습 유형 알고리즘이다. 즉, 연속형 자료(또는 범주형 자료)가 범주형 자료에 미치는 영향을 분류한다. 예) 타이타닉 생존자 예측 -> 나이, fare, pclass이 생존 여부(종속변수)에 미치는 영향 성별, 탑승등급 같은 종속변수도 -> 숫자로 바꿔서 로지스틱 회귀 분석이 가능하다. 분류 알고리즘 모형은 KNN, SVM, Decis..
-
[python 웹크롤링] 웹사이트에서 자동으로 검색어 입력 + 팝업 종료 하는 법데이터 분석/Python 2021. 4. 29. 21:33
파이썬을 통해 웹사이트에서 자동으로 검색 키워드 입력하기, 팝업창 자동종료 하는 법 웹크롤링을 해보도록 하겠습니다. 공공데이터 포털 사이트를 예시로 실행 해보겠습니다. https://www.data.go.kr 공공데이터 포털 국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Datase www.data.go.kr 웹크롤링을 위한 준비사항 HTML 소스코드에서 원하는 태그를 찾기 위해서 Beautiful Soup를 설치하고 web driver를 실행하여 웹 페이지를 실행하여 데이터를 수집할 selenium을 설치해야 합니다. 라이브러리 설치 방법 - cmd를 관리자 권한으로 ..
-
[데이터 분석 토이 프로젝트] 공공 데이터 API 사용법데이터 분석/Project 2021. 4. 27. 10:26
공공데이터 API Call 하는 법 사실 파일이 있으면 다운 받는 것이 제일 편하지만 대개 다운 받는 것은 운이 좋은 경우입니다. 대다수 Open API를 활용하여 데이터를 불러오는 경우가 많습니다. 저는 실제 open API를 활용하는 것을 연습하기 위해서 데이터 활용신청을 했습니다. 공공데이터 포털에서 데이터 사용 신청하면 마이페이지>OpenAPI>개발계정에서 활용 신청 내용을 확인할 수 있습니다. 승인은 바로 되는 편입니다. 활용신청 승인 내역을 클릭하면 인증키를 확인할 수 있습니다. Json과 XML 형태의 데이터포맷 모두 사용가능합니다. 보통 JSon 타입이 XML보다 훨씬 가볍고 파싱하기 쉬우므로 JSon으로 데이터를 불러옵니다. 일반인증키는 Encoding과 Decoding이 있는데 웹 브라..
-
[데이터 분석 토이 프로젝트] 대파 가격 상승 요인 분석해보자데이터 분석/Project 2021. 4. 27. 10:07
올 초 대파의 소비자가가 무섭게 치솟아 올랐습니다. 요즘 수입 대파 물량이 풀리면서 다시 소비자 가격이 지난달 대비 13.37% 내리면서 키로당 3500원 이하로 떨어졌지만 불과 한달 전까지만 해도 대파는 금파라고 할 정도로 한단(2Kg내외)에 7~8,000원을 오갔는데요, 이는 3월 18일 기준 대파(1㎏) 도매 가격 3,837원으로, 지난해 같은 시기(699원) 대비 448% 상승으로 네배가 뛴 것과 마찬가지입니다.(출처: 사라진 대파는 돌아왔지만 - 한국일보, 2021-03-20) 대파 가격이 상승한 요인은? 파는 국내 자급률 80%에 해당하며 최근 3~4년간 평년보다 따뜻한 기온 때문에 작년엔 대파 농사가 유난히 잘돼면서 생산량 급증하면서 올 대파 가격이 하락하였습니다. 인건비 상승으로 생산비가 ..
-
데이터 분석 연습문제 1데이터 분석/Python 2021. 4. 27. 09:34
문제 1 네이버(www.naver.com) 검색창에서 '여름여행'으로 검색하여 출력되는 섹션을 텍스트로 추출하여 텍스트 파일로 저장하기 #Step 1. 필요한 모듈과 라이브러리를 로딩하고 검색어와 파일경로를 입력 받는다. #Step 2. 크롬 드라이버를 사용해서 웹 브라우저를 실행한다. #Step 3. 검색창의 이름을 찾아서 검색어를 입력한다. # Step 4. 현재 페이지에 있는 내용을 화면에 출력하고, 파일저장한다. import sys orig_stdout = sys.stdout f = open(f_name , 'a' , encoding='UTF-8') sys.stdout = f time.sleep(1) sys.stdout = orig_stdout f.close() print(" 요청하신 데이터 수집..
-
Json 개념과 사용법데이터 분석/Python 2021. 3. 26. 10:58
(출처: 위키백과) JSON(JavaScript Object Notation)은 속성-값 쌍(attribute–value pairs and array data types (or any other serializable value)) 또는 "키-값 쌍"으로 이루어진 데이터 오브젝트를 전달하기 위해 인간이 읽을 수 있는 텍스트를 사용하는 개방형 표준 포맷입니다. 비동기 브라우저/서버 통신 (AJAX)을 위해, 넓게는 XML(AJAX가 사용)을 대체하는 주요 데이터 포맷이다. 특히, 인터넷에서 자료를 주고받을 때 그 자료를 표현하는 방법으로 알려져 있다. 자료의 종류에 큰 제한은 없으며, 특히 컴퓨터 프로그램의 변수 값을 표현하는 데 적합하다. 본래는 자바스크립트 언어로부터 파생되어 자바스크립트의 구문 형식을..