TIL๐ฅ23 [๋ฉ์ฌ] AI SCHOOL 5๊ธฐ_ Day 12 The process of data analysis for text data Tokenize → POS Tagging → Stopwords ์ ๊ฑฐ →๋จ์ด์ฌ์ ์์ฑ → ์ฌ์ ๊ธฐ๋ฐ ๋ฐ์ดํฐ ์๊ฐํ → ๋จธ์ ๋ฌ๋/๋ฅ๋ฌ๋ ๋ชจ๋ธ ์ ์ฉ NLTK NLTK๋ Natural Language Toolkit์ ์ฝ์๋ก, ์์ฐ์ด ์ฒ๋ฆฌ ๋ฐ ๋ฌธ์ ๋ถ์์ฉ ํ์ด์ฌ ํจํค์ง๋ค. (์์ฐ์ด๋ ์ผ์์ ์ธ ์ํ์์ ์ฌ์ฉํ๋ ์ธ์ด๋ฅผ ๋งํ๋ค) ๋ถ์์ ์ํด์๋ ๊ธด ๋ฌธ์์ด์ ์์ ๋จ์๋ก ๋๋ ์ผ ํ๋๋ฐ, ์ด ๋จ์๋ฅผ token(ํ ํฐ)์ด๋ผ ํ๊ณ ๊ทธ ์์ ์ tokenizing(ํ ํฐ ์์ฑ)์ด๋ผ๊ณ ํ๋ค. word_tokenize() ๋ฅผ ์ฌ์ฉํ๋ฉด ๋ฌธ์ฅ์ ํ ํฐํํ ์ ์๋ค. ํ์ฌ(POS, part-of-speech) pos_tag() ๋ฅผ ์ฌ์ฉํ๋ฉด ํ ํฐํํ ๋ฌธ์ฅ์ ๋์์ผ๋ก .. 2022. 3. 25. [๋ฉ์ฌ] AI SCHOOL 5๊ธฐ_ Day 11 ๋ฐ์ดํฐ ์๊ฐํ(Data visualization) GeoJSON GeoJSON(์ง์ค์ ์ด์จ)์ JSON(JavaScript Object Notation)์ ๊ธฐ๋ฐํ ์ง๋ฆฌ ๊ณต๊ฐ ๋ฐ์ดํฐ ๊ตํ ํฌ๋งท์ด๋ค. ์ง๋ฆฌ ์ขํ ์ฐธ์กฐ ์์คํ ์ธ World Geodetic์ ์ฌ์ฉํ๋ค. https://geojson.org/ GeoJSON GeoJSON GeoJSON is a format for encoding a variety of geographic data structures. { "type": "Feature", "geometry": { "type": "Point", "coordinates": [125.6, 10.1] }, "properties": { "name": "Dinagat Islands" } } GeoJSON supp.. 2022. 3. 24. [๋ฉ์ฌ] AI SCHOOL 5๊ธฐ_ Day 10 Pandas(ํ๋ค์ค) ์ธ๋ฑ์ค ์ค์ ๋ฐ์ดํฐํ๋ ์์ column(์ด)์ index๋ก ๊ฐ์ ธ์ค๊ณ ์ถ์ ๋, df.set_index('์ด ์ด๋ฆ', inplace=Ture) ๋ก ์ฌ์ฉํ๋ค. ์ค์ ํ๋ ์ธ๋ฑ์ค๋ฅผ ์ด๊ธฐํํ๊ณ ์ถ์ ๋๋ df.reset_index(inplace=True)๋ฅผ ์ฌ์ฉํ๋ค. ๊ทธ๋ฐ๋ฐ ๋ง์ฝ ์ธ๋ฑ์ค๋ก ์ค์ ํ๋ ค๋ ์ด ๊ฐ์ ์ค๋ณต์ด ์๋ค๋ฉด pivot_table์ ์ถ์ฒํ๋ค. pd.pivot_table(๋ฐ์ดํฐํ๋ ์, index='์ด ์ด๋ฆ', aggfunc=np.sum) ๊ฒฐ์ธก์น(N/A) ๊ฐ ์ฑ์ฐ๊ธฐ NaN(์ซ์๊ฐ ์๋) ํ์ ์ ๊ฒฐ์ธก์น๋ฅผ ํน์ ๊ฐ์ผ๋ก ์ฑ์ฐ๊ณ ์ถ์ ๋๋ df.fillna('์ํ๋ ๊ฐ')๋ฅผ ์ฌ์ฉํ๋ค. ์กฐ๊ฑด ๊ฒ์ df[ (df['์ด ์ด๋ฆ1'] 100) ] ๋๊ฐ ์ด์.. 2022. 3. 23. [๋ฉ์ฌ] AI SCHOOL 5๊ธฐ_ Day 9 ๋๋ค ํจ์ ๋๋ค(lambda) ํจ์๋ ์ต๋ช ํจ์(Anonumous function)๋ก ์ด๋ฆ ์๋ ํจ์๋ค. 1ํ์ฉ์ผ๋ก ์ ๊น๋ง ์ฐ๋ ํจ์๋ฅผ ๋ง๋ค ๋ ์ฌ์ฉํ๋ค. ๊ทธ๋์ ์ฝ๋๊ฐ ๊ต์ฅํ ๊ฐ๊ฒฐํ๋ค! ํ์ง๋ง ์ฌ๋๋ง๋ค ์ฝ๋ฉ ์คํ์ผ์ด ๋ค๋ฅด๋ค๋ณด๋ ๋ง์ ์ฝ๋๋ค์ ๋ณด๋ค๋ณด๋ฉด ์์ฃผ ๊ธด ๋๋ค ํจ์๋ฅผ ๋ง์ฃผ์น ๋๊ฐ ์๋ค๊ณ ํ๋ค. ๊ทธ ๋ ๊ฐ์ฅ ์ค์ํ๊ฑด " : " ์ ์ฐพ๋ ๊ฒ์ด๋ค..! ์ฝ๋ก ์ ๊ธฐ์ค์ผ๋ก ์ผ์ชฝ์ ์ธํ, ์ค๋ฅธ์ชฝ์ ์์ํ์ ๋ํ๋ด๊ธฐ ๋๋ฌธ์ด๋ค. ๋ชจ๋? ๋ผ์ด๋ธ๋ฌ๋ฆฌ? ํจํค์ง?! ํท๊ฐ๋ฆฌ๋ ์ฉ์ด๋ค์ ์ฝ๊ฒ ์ ๋ฆฌํด์ฃผ์ จ๋ค. ๋ชจ๋์ ๊ฐ์ฅ ์์ ๋จ์๋ก python ํ์ผ ํ๋๋ฅผ ๋งํ๋ค. ๊ทธ๋ฆฌ๊ณ ๊ทธ ํ์ผ๋ค์ ๋ชจ์๋์ ํด๋๋ฅผ ๋ผ์ด๋ธ๋ฌ๋ฆฌ ๋๋ ํจํค์ง ๋ผ๊ณ ๋งํ๋ค. ๋ฐ์ดํฐ ๋ฐ์ดํฐ์ ์ข ๋ฅ๋ ํฌ๊ฒ 3๊ฐ์ง๋ก ๋ถ๋ฅํ ์ ์๋ค. ์ ํ ๋ฐ์ดํฐ : ํ๊ณผ ์ด์ด ์๋ ๋ฐ์ด.. 2022. 3. 22. [๋ฉ์ฌ] AI SCHOOL 5๊ธฐ_ Day 8 ํจ์(function, method) ํจ์๋ฅผ ๋ง๋ค ๋ ์๊ฐํด์ผ๋ 4๊ฐ์ง x๊ฐ → y = test() y๊ฐ → test(x) ํ์ํ ๋ด๋ถ ์ฒ๋ฆฌ ํจ์ ์ด๋ฆ : ์ต๋ํ ์๋ฏธ์๊ฒ ์ฐ๋๊ฒ ์ข๋ค * ์ฐธ๊ณ ) x ๋ y ๊ฐ์ด ์์ ์๋ ์๋ค def total_nums(num1, num2=7): # ๋ํดํธ ๊ฐ ์ง์ ๋ ๊ฐ๋ฅํ๋ ๋ค์์๋ถํฐ ์ง์ ํด์ผํ๋ค total = num1 + num2 return total # return ๊ฐ์ ์ฌ๋ฌ ๊ฐ ๋ง๋ค ์ ์๋ค total_nums(13) # ํจ์๋ฅผ ์คํ(ํธ์ถ)ํ ๋ num1, num2 ๋ณ์๊ฐ ์๊ธฐ๊ณ , # return์ ํ๋ ์๊ฐ total์ด๋ผ๋ ๋ณ์๊ฐ ์๋๋ผ ๊ทธ ์์ ๋ด๊ธด "๊ฐ"์ด ๋๊ฐ๋ค ๋งค๊ฐ๋ณ์(parameter) : ํจ์์ ์ ๋ ฅ์ผ๋ก ์ ๋ฌ๋ ๊ฐ์ ๋ฐ๋ ๋ณ์. (์ฌ๊ธฐ์๋ num1,.. 2022. 3. 21. [๋ฉ์ฌ] AI SCHOOL 5๊ธฐ_ Day 6 Numpy(๋ํ์ด) Numpy๋ Numerical Python์ ์ค์๋ง๋ก ์์น ๊ณ์ฐ์ ์ํด ๋ง๋ค์ด์ง ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ค. ๋ํ์ด์ ์๋ฃ๊ตฌ์กฐ๋ Pandas, Matplotlib ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ ๊ธฐ๋ณธ ๋ฐ์ดํฐ ํ์ ์ผ๋ก ์ฌ์ฉ๋๊ธฐ๋ ํ๋ค. ๋ํ์ด์์๋ ๋ฐฐ์ด(array) ๊ฐ๋ ์ผ๋ก ๋ณ์๋ฅผ ์ฌ์ฉํ๋๋ฐ ์ด ๋ฐฐ์ด์ ๋ํ์ด ๋ฐฐ์ด(Numpy array)์ด๋ฉฐ, ํ์ด์ฌ์ ๊ธฐ๋ณธ ์๋ฃ๊ตฌ์กฐ์๋ ๋ค๋ฅธ ๋ฐ์ดํฐ ํ์ ์ด๋ค. ์ฆ, ํ์ด์ฌ์ด๋ผ๋ ์ธ์ด๊ฐ ๊ธฐ๋ณธ ์๋ฃ๊ตฌ์กฐ์ธ ๋ฆฌ์คํธ, ๋์ ๋๋ฆฌ ๋ฑ์ ๊ฐ๊ณ ์๋ ๊ฒ๊ณผ ๋ง์ฐฌ๊ฐ์ง๋ก ๋ฐ์ดํฐ ๋ถ์์ด๋ผ๋ ์ธ์ด๊ฐ ๊ธฐ๋ณธ ์๋ฃ๊ตฌ์กฐ๋ก ๋ํ์ด ๋ฐฐ์ด์ ๊ฐ๊ณ ์๋ค. (์ถ์ฒ: ์ด๊ฒ์ด ๋ฐ์ดํฐ ๋ถ์์ด๋ค with ํ์ด์ฌ - ์ค๊ธฐํ) ์ฌ๋ผ์ด์ฑ ๋ณ์๋ช [ ํ์ ๋ฒ์, ์ด์ ๋ฒ์] # ๋ง์ง๋ง ๊ฐ์ ํฌํจํ์ง ์๋ ๋ชจ๋ ๊ฐ์ด ํด๋น๋๋ค๋ฉด?! data[ : .. 2022. 3. 19. ์ด์ 1 2 3 4 ๋ค์