๋ค์ด๋ฒ ์ํ ์ฌ์ดํธ์์ ์ฝ์ฝ(Coco)์ ๊ด๋๊ฐ ํ์ ๊ณผ ํ์คํ์
์ด 100๊ฐ๋ฅผ ๊ธ์ด์ ์์ ํ์ผ๋ก ์ ์ฅํ๋ ์ฝ๋๋ค.
https://movie.naver.com/movie/bi/mi/basic.naver?code=151728
์ฝ์ฝ
๋ฎค์ง์ ์ ๊ฟ๊พธ๋ ์๋ ๋ฏธ๊ตฌ์์ ์ ์ค์ ์ธ ๊ฐ์ ์๋ฅด๋ค์คํ ์ ๊ธฐํ์ ์์ ๋๋ค โ์ฃฝ์ ์๋ค์ ์ธ์โ์ ...
movie.naver.com
ํด๋น ์ฌ์ดํธ์ ์ ์ํ ๋ค, "ํ์ "์ ํด๋ฆญํด ๊ธ์ด์์ผํ๋ ๋ฐ์ดํฐ์ธ, ํ์ ๊ณผ ํ์คํ์ ์ดํด๋ณด์๋ค.


ํ ํ์ด์ง๋น 10๊ฐ์ฉ ๋ฆฌ๋ทฐ๊ฐ ๋ฌ๋ ค์์๋๋ฐ,
์ค์ํ๊ฑด ํ์ด์ง ํ๋จ์ ๋ฒํผ์ ๋๋ ์๋ ์ ์ฒด url ์ฃผ์๊ฐ ๋ฌ๋ผ์ง์ง ์์๋ค.
๊ทธ๋์ ์ธ์คํํฐ(ํฌ๋กฌ ๊ฐ๋ฐ์๋๊ตฌ)๋ฅผ ๊ฐ์ง๊ณ ์ดํด๋ดค๋๋ฐ ํ์ด์ง ๋ฒํผ์ href๊ฐ ๋์ ๋์๋ค!
ํ์ดํผ๋งํฌ์ ๋ง์ง๋ง ์ต์ ์ธ page ๊ฐ์ผ๋ก ๊ตฌ๋ถํ ์ ์์ ๊ฒ ๊ฐ์๋ค.

ํ์ดํผ๋งํฌ๋ฅผ ํด๋ฆญํด ์ ์ํ๋ ๊ด๋๊ฐ ๋ฆฌ๋ทฐ๊ฐ 10๊ฐ์ฉ ๋ณด์ฌ์ง๋ ํ์ด์ง์๋ค.
๊ทธ๋ฆฌ๊ณ ์์๋๋ก page ์ต์ ๊ฐ์ผ๋ก ํ์ด์ง๊ฐ ๋ฌ๋ผ์ก๋ค.

ํ์ ์ div class = "star_score" ๋ฅผ ์ฌ์ฉํ๋ฉด ๋ ๊ฒ ๊ฐ์ ctrl+F ๋ก ์ฐพ์๋ณด๋ ๋ฑ 10๊ฐ๊ฐ ๋์๋ค. (๋น์ฒจ!!)
ํ์คํ์ id๋ก ๊ตฌ๋ถํ๋ฉด ๋ ๊ฒ ๊ฐ์๋ค. _filtered_ment_0~9 ๊น์ง๋ก ์ด๋ฃจ์ด์ ธ ์์๊ธฐ ๋๋ฌธ์ด๋ค.
์์ฑ ์ฝ๋
from bs4 import BeautifulSoup
from urllib.request import urlopen
import pandas as pd
# ๊ด๋๊ฐ ํ์ ์ ๋ณด์ฌ์ฃผ๋ url
url_pre = 'https://movie.naver.com/movie/bi/mi/pointWriteFormList.naver?code=151728&type=after&isActualPointWriteExecute=false&isMileageSubscriptionAlready=false&isMileageSubscriptionReject=false&page='
rate = []
review = []
for page in range(10):
url = url_pre + str(page+1) # page๋ณ url ์์ฑ
web = urlopen(url)
web_page = BeautifulSoup(web, 'html.parser')
scores = web_page.select('div.star_score em') # ํ์ ์ ๋ชจ๋ ์ฐพ์ ๋ฆฌ์คํธ๋ก ๋ง๋ฆ
for num in range(10):
score = scores[num].get_text()
review_id = '_filtered_ment_'+str(num) # ํ์คํ id ์์ฑ
contents = web_page.find('span',{'id':f'{review_id}'}) # ๋ง๋ id๋ฅผ ๊ฐ์ง๊ณ ํ์คํ ์ฐพ์๋
content = contents.get_text().strip() # ํ๊ทธ ๋ผ๊ณ ํ
์คํธ์ ์์ชฝ ๊ณต๋ฐฑ ์ ๊ฑฐ
rate.append(score)
review.append(content)
# ๋ฐ์ดํฐํ๋ ์ ๋ง๋ค๊ธฐ
result = pd.DataFrame({'ํ์ ':rate,'ํ์คํ':review})
# ์์
์ ์ฅ
result.to_excel('์ํ ์ฝ์ฝ ๋ฆฌ๋ทฐ.xlsx', index=False) # ์ธ๋ฑ์ค ๋ฏธํฌํจ
# ์๋ฃ ์๊ทธ๋
print("์คํฌ๋ํ์ด ์ฑ๊ณต์ ์ผ๋ก ์ข
๋ฃ๋์์ต๋๋ค.")
์คํ ๊ฒฐ๊ณผ


์ฃผํผํฐ ๋ ธํธ๋ถ์์ ๋๋ ค๋ณธ ๊ฒฐ๊ณผ ์ฑ๊ณต์ ์ผ๋ก ์๋ฃ ์๊ทธ๋์ด ๋ด๊ณ ,
ํด๋น ํ์ผ์ด ๋ค์ด์๋ ํด๋๋ฅผ ์ดํด๋ณด๋ "์ํ ์ฝ์ฝ ๋ฆฌ๋ทฐ.xlsx" ํ์ผ์ด ์์ฑ๋ ๊ฒ์ ๋ณผ ์ ์์๋ค.

์์ ํ์ผ์ ์ด์ด ํ์ ๊ณผ ํ์คํ์ด ์ด 100๊ฐ ์ ์ฅ๋ ๊ฒ์ ํ์ธํ๋ค๐
(์ค๊ฐ๋ถ๋ถ์ ์จ๊น ์ฒ๋ฆฌํ๊ณ ์บก์ณํ๋ค.)
๋๊ธ