Data Science

    링글 리뷰 데이터 크롤링 및 워드 클라우드 생성

    제3회 링글 서비스 기획 공모전 No.1 일대일 화상영어 링글 스탠퍼드 MBA출신이 만든 1:1 화상 영어 명문대 원어민 튜터의 똑똑한 수업을 경험하세요! www.ringleplus.com 공모전을 준비하면서 진행했던 활동 하나를 올려보려고 한다. 서비스 기획 공모전이었는데 배경 분석에서 이용자들의 리뷰 데이터로 워드클라우드를 만들어 어떤 점이 가장 큰 이슈인지 제시하면 좋을 것 같다는 생각이 들어 진행하였다. 안드로이드에서 주로 사용하는 플레이스토어와 애플에서 사용하는 앱스토어, 그리고 링글 홈페이지에 존재하는 리뷰 데이터들을 크롤링하여 사용하였다. 간단한 전처리를 진행한 뒤 링글 로고에 맞게 이쁜 워드클라우드 사진을 뽑아냈다. 전체 코드는 아래에 있다. 깃허브 코드 보기 GitHub - white-b..

    [핸즈온 머신러닝] 규제

    이전까지 선형 모델의 비용 함수는 RSS를 최소화하는, 즉 실제 값과 예측 값의 차이를 최소화하는 것만 고려 그 결과 학습 데이터에 과대적합되어 회귀 계수가 쉽게 커져 변동성이 오히려 심해져 테스트 데이터셋에서 예측 성능이 저하됨 alpha : 학습 데이터 적합 정도와 회귀 계수 값 크기 제어하는 튜닝 파라미터 alpha ↑ : 회귀 계수 W의 값 작게 해 과적합 개선 : 릿지(Ridge) 회귀 : 라쏘(Lasso) 회귀 릿지 회귀 규제항으로 회귀계수 제곱 합 대입 α가 0이면 선형 회귀 α가 매우 크면 모든 가중치는 거의 0에 가까워지고 결국 데이터의 평균 지나는 수평선이 됨 StandardScaler와 같은 라이브러리를 이용해 데이터 스케일 맞춰야 함 α를 증가시킬수록 직선에 가까워짐 릿지 회귀의 정..

    Selenium으로 인스타그램 크롤링하기

    최근 크롤링에 대해 공부를 진행하면서 selenium이라는 엄청난 친구를 만나게 되었다. selenium이란? - 웹 페이지 테스트 자동화용 모듈 - 개발/테스트용 드라이버(웹브라우저)를 사용해 실제 사용자가 사용하는 것처럼 동작 selenium을 시작하기 전에 - selenium 모듈 설치 - 크롬 드라이버 다운로드 (자기가 사용하는 크롬 버전 확인 필수!!!) selenium 모듈 설치하기 아나콘다 네비게이터의 Environments에 들어간다. selenium을 치고 오른쪽 하단의 apply 버튼을 눌러 설치를 진행하면 된다! 설치한 후에는 재시작해야함 크롬 드라이버 설치하기 아래 링크로 들어가 가지고 있는 크롬 버전에 맞는 드라이버를 설치해준다! 설치 경로가 필요하므로 아는 곳에 설치해준다! 크롬..

    40 Examples to Master Pandas (1) : 1번~10번

    참고 자료 : https://towardsdatascience.com/40-examples-to-master-pandas-c69d058f434e 40 Examples to Master Pandas A comprehensive practical guide towardsdatascience.com 위 자료를 참고해 만들었습니다. 참고로 사용한 데이터는 다음과 같습니다. https://www.kaggle.com/yoghurtpatil/direct-marketing https://www.kaggle.com/heeraldedhia/groceries-dataset 1. Reading csv files - read_csv 함수 사용해 pandas DataFrame 만들기 import numpy as np import..