[python] window에 Anaconda 설치 및 JupyterLab 실행 후 titanic data 사용
Anaconda 설치
1. https://anaconda.org/ 접속하여 상단메뉴의 [Download Anaconda]를 클릭합니다.
2. 상단 우축의 [Download] 버튼을 클릭하여 다운로드 페이지로 이동합니다.
3. windows의 python 3.7 version을 다운받습니다.
4. 설치파일을 실행하여 아래 화면이 나오면 [Next] 버튼을 클릭합니다.
5. [I Agree] 버튼을 클릭하여 라이센스를 동의합니다.
6. 개인으로 사용할 것이기 때문에 Just Me를 선택하고 다음으로 넘어갑니다.
7. 원하는 설치 경로를 지정합니다.
8. '내 PATH 환경변수에 Anaconda 추가'를 권장하지 않지만, 공부용이기에 선택하여 설치하겠습니다.
9. 설치 진행
10. 설치 완료
JupyterLab 실행
1. cmd 창을 실행합니다.
2. python --version 명령어로 python 버전을 확인합니다.
3. 특정경로에 디렉토리 생성 후 jupyter lab 명령어로 JupyterLab을 실행하면 브라우저가 뜹니다.
4. 만약 브라우저가 뜨지않으면 copy and paste one of these URLs를 브라우저에 붙여넣기합니다.
5. JupyterLab이 실행됩니다. + 버튼을 클릭하면 Launcher가 추가되고, Notebook의 Python 3을 클릭합니다.
6. print('hello world!!') 를 입력한뒤, Shift+Enter 클릭하면 커맨드라인이 실행됩니다.
타이타닉 데이터를 이용하여 실습을 해보겠습니다.
https://www.kaggle.com/c/titanic/data 에 접속하여 train.csv 를 다운받습니다.
다운받은 train.csv를 위에서 생성했던 디렉토리 안에 넣습니다.
pandas를 import 합니다.
import pandas as pd
train.csv를 읽습니다.
df = pd.read_csv('train.csv')
데이터 초기 탐색(탐색적 분석, EDA)시 주요 메서드(속성)
shape
head(), tail()
info()
describe()
- df : 전체 데이터를 조회
- df.tail() : 마지막 데이터 5개 조회
- df.shape : 데이터 행렬수 조회
- df.info() : 누락된 데이터 정보 확인에 유용, 데이터타입 확인 가능 - 숫자(int, float) 혹은 문자(object)
- df.describe() : 기술통계관점으로 데이터를 조회
import pandas as pd
df = pd.read_csv('train.csv', index_col='PassengerId')
# 필터링 1 : 생존자만 필터링(조회)
df_survived = df.loc[df['Survived'] == 1]
# 필터링 2 : 요금이 300불 이상인 승객 필터링(조회)
df_Fare_300 = df.loc[df['Fare'] >= 300]
# 필터링 3 : 1등석 여성 승객 (&, |) ;각 조건을 괄호()로 묶어준다
df_Pclass1_Female = df.loc[(df['Pclass'] == 1) & (df['Sex'].str.contains('female'))]