본문 바로가기

컴퓨터/파이썬을 활용한 머신러닝 쿡북4

2. 데이터 적재 2. 데이터 적재 - 머신러닝의 첫 번째 단계는 시스템으로 원본 데이터를 불러오는 것 - 원본 데이터는 로그 파일(log file) 또는 데이터셋, 데이터 베이스(database), 이외 여러 소스에서 데이터 추출. - 이 장에서 CSV 파일, SQL 데이터베이스 등 다양한 소스에서 데이터 적재 방법 소개 - 실험에 필요한 특성을 가진 모의 데이터 생성 방법 - 외부 데이터를 적재할 때 사용하는 판다스(pandas) 라이브러리, 모의 데이터를 생성하는데 파이썬 오픈 소스 머신러닝 라이브러리 사이킷런(scikit-learn) 사용 샘플 데이터셋 적재하기 - 사이킷런에 포함된 데이터 셋 사용 # 사이킷런에서 데이터셋 불러옴 from sklearn import datasets # 데이터셋에서 데이터 불러와서 .. 2020. 7. 17.
1. 벡터, 행렬, 배열 1. 벡터, 행렬, 배열 이 카테고리의 내용은 파이썬을 활용한 머신러닝 쿡북의 각 챕터별 요약으로 코드는 생략될 수 있습니다. 코드가 필요하신 분들은 아래 GitHub를 통해 확인하세요. rickiepark/machine-learning-with-python-cookbook 파이썬을 활용한 머신러닝 쿡북. Contribute to rickiepark/machine-learning-with-python-cookbook development by creating an account on GitHub. github.com - 넘파이는 파이썬 머신러닝 스택의 기초 - 머신러닝에 자주 사용되는 벡터, 행렬, 텐서같은 데이터 구조에서 효율적인 연산 제공 - 넘파이 연산을 다룸 벡터 만들기 - 넘파이 핵심 데이터 구.. 2020. 6. 23.
21. 훈련된 모델 저장과 복원 21. 훈련된 모델 저장과 복원 이제까지 배운 내용을 활용하려면 훈련된 모델을 저장하고 필요할 때 복원 가능해야 함 사이킷런 모델 저장 복원 - 다른 앱이나 워크플로에서 사용할 수 있도록 모델을 파일로 저장 - 파이썬 고유 포맷인 피클 파일(.pkl)로 저장 - joblib를 사용해서 가능. 피클의 확장 라이브러리로 사이킷런의 훈련 모델에서 대규모 넘파이 배열 다룰 때 유용 - 사이킷런 모델을 저장할 때 저장된 모델이 사이킹런 버전 간에 호환되지 않는지 주의 - 파일 이름에 모델에 사용된 사이킷런 버전 포함 시키는걸 추천 케라스 모델 저장 복원 - 케라스는 HDF5 파일로 모델 저장 - HDF5 파일은 모델은 복원하여 예측하는 것(즉, 모델 구조와 훈련된 모델 파라미터)뿐 아니라 다시 훈련하기 위해 필요.. 2020. 6. 19.
18. 나이브 베이즈 18. 나이브 베이즈 (물러 터진 베이즈 이론) 베이즈 이론 : 새로운 정보 P(B|A)와 사건의 사전 확률 P(A)가 주어졌을 때 어떤 사건이 일어날 확률을 이해하는 방법 나이브 베이즈 : 머신러닝에서 베이즈 이론을 분류에 적용한 것 나이브 베이즈 기능 - 직관적인 방법 - 작은 데이터에서 사용 가능 - 훈련과 예측 계산 비용 적음 - 환경이 바뀌어도 안정적인 결과 나이브 베이지 분류기 식 : P(y|x1,...,xj) = P(x1,...,xj|y)P(y) / P(x1,...,xj) - P(y|x1,...,xj) : 사후 확률(posterior)이라 부르며 샘플의 j개 특성 값 x1,... , xj이 주어졌을 때 이 샘플이 클래스 y에 속할 확률 - P(x1,...,xj|y) : 클래스 y가 주어졌을 .. 2020. 6. 19.