전체 글33 [Python] 파이썬 크롤링, 웹 스크래핑 예제 - 네이버 영화 (코코) 리뷰(BeautifulSoup, Pandas) 네이버 영화 사이트에서 코코(Coco)의 관람객 평점과 한줄평을 총 100개를 긁어와 엑셀 파일로 저장하는 코드다. https://movie.naver.com/movie/bi/mi/basic.naver?code=151728 코코 뮤지션을 꿈꾸는 소년 미구엘은 전설적인 가수 에르네스토의 기타에 손을 댔다 ‘죽은 자들의 세상’에 ... movie.naver.com 해당 사이트에 접속한 뒤, "평점"을 클릭해 긁어와야하는 데이터인, 평점과 한줄평을 살펴보았다. 한 페이지당 10개씩 리뷰가 달려있었는데, 중요한건 페이지 하단의 버튼을 눌렀을때 전체 url 주소가 달라지지 않았다. 그래서 인스펙터(크롬 개발자도구)를 가지고 살펴봤는데 페이지 버튼의 href가 눈에 띄었다! 하이퍼링크의 마지막 옵션인 page 값으.. 2022. 3. 24. [멋사] AI SCHOOL 5기_ Day 11 데이터 시각화(Data visualization) GeoJSON GeoJSON(지오제이슨)은 JSON(JavaScript Object Notation)에 기반한 지리 공간 데이터 교환 포맷이다. 지리 좌표 참조 시스템인 World Geodetic을 사용한다. https://geojson.org/ GeoJSON GeoJSON GeoJSON is a format for encoding a variety of geographic data structures. { "type": "Feature", "geometry": { "type": "Point", "coordinates": [125.6, 10.1] }, "properties": { "name": "Dinagat Islands" } } GeoJSON supp.. 2022. 3. 24. [멋사] AI SCHOOL 5기_ Day 10 Pandas(판다스) 인덱스 설정 데이터프레임의 column(열)을 index로 가져오고 싶을 땐, df.set_index('열 이름', inplace=Ture) 로 사용한다. 설정했던 인덱스를 초기화하고 싶을 때는 df.reset_index(inplace=True)를 사용한다. 그런데 만약 인덱스로 설정하려는 열 값의 중복이 있다면 pivot_table을 추천한다. pd.pivot_table(데이터프레임, index='열 이름', aggfunc=np.sum) 결측치(N/A) 값 채우기 NaN(숫자가 아님) 타입의 결측치를 특정 값으로 채우고 싶을 때는 df.fillna('원하는 값')를 사용한다. 조건 검색 df[ (df['열 이름1'] 100) ] 두개 이상.. 2022. 3. 23. [멋사] AI SCHOOL 5기_ Day 9 람다 함수 람다(lambda) 함수는 익명 함수(Anonumous function)로 이름 없는 함수다. 1회용으로 잠깐만 쓰는 함수를 만들 때 사용한다. 그래서 코드가 굉장히 간결하다! 하지만 사람마다 코딩 스타일이 다르다보니 많은 코드들을 보다보면 아주 긴 람다 함수를 마주칠 때가 있다고한다. 그 때 가장 중요한건 " : " 을 찾는 것이다..! 콜론을 기준으로 왼쪽은 인풋, 오른쪽은 아웃풋을 나타내기 때문이다. 모듈? 라이브러리? 패키지?! 헷갈리는 용어들을 쉽게 정리해주셨다. 모듈은 가장 작은 단위로 python 파일 하나를 말한다. 그리고 그 파일들을 모아놓은 폴더를 라이브러리 또는 패키지 라고 말한다. 데이터 데이터의 종류는 크게 3가지로 분류할 수 있다. 정형 데이터 : 행과 열이 있는 데이.. 2022. 3. 22. [멋사] AI SCHOOL 5기_ Day 8 함수(function, method) 함수를 만들 때 생각해야될 4가지 x값 → y = test() y값 → test(x) 필요한 내부 처리 함수 이름 : 최대한 의미있게 쓰는게 좋다 * 참고) x 나 y 값이 없을 수도 있다 def total_nums(num1, num2=7): # 디폴트 값 지정도 가능하나 뒤에서부터 지정해야한다 total = num1 + num2 return total # return 값은 여러 개 만들 수 있다 total_nums(13) # 함수를 실행(호출)할 때 num1, num2 변수가 생기고, # return을 하는 순간 total이라는 변수가 아니라 그 안에 담긴 "값"이 나간다 매개변수(parameter) : 함수에 입력으로 전달된 값을 받는 변수. (여기서는 num1,.. 2022. 3. 21. [멋사] AI SCHOOL 5기_ Day 6 Numpy(넘파이) Numpy는 Numerical Python의 줄임말로 수치 계산을 위해 만들어진 라이브러리다. 넘파이의 자료구조는 Pandas, Matplotlib 라이브러리의 기본 데이터 타입으로 사용되기도 한다. 넘파이에서는 배열(array) 개념으로 변수를 사용하는데 이 배열은 넘파이 배열(Numpy array)이며, 파이썬의 기본 자료구조와는 다른 데이터 타입이다. 즉, 파이썬이라는 언어가 기본 자료구조인 리스트, 딕셔너리 등을 갖고 있는 것과 마찬가지로 데이터 분석이라는 언어가 기본 자료구조로 넘파이 배열을 갖고 있다. (출처: 이것이 데이터 분석이다 with 파이썬 - 윤기태) 슬라이싱 변수명[ 행의 범위, 열의 범위] # 마지막 값을 포함하지 않는 모든 값이 해당된다면?! data[ : .. 2022. 3. 19. 이전 1 2 3 4 5 6 다음