๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ

TIL๐Ÿ”ฅ23

[๋ฉ‹์‚ฌ] AI SCHOOL 5๊ธฐ_ Day 12 The process of data analysis for text data Tokenize → POS Tagging → Stopwords ์ œ๊ฑฐ →๋‹จ์–ด์‚ฌ์ „ ์ƒ์„ฑ → ์‚ฌ์ „ ๊ธฐ๋ฐ˜ ๋ฐ์ดํ„ฐ ์‹œ๊ฐํ™” → ๋จธ์‹ ๋Ÿฌ๋‹/๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ ์ ์šฉ NLTK NLTK๋Š” Natural Language Toolkit์˜ ์•ฝ์ž๋กœ, ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ๋ฐ ๋ฌธ์„œ ๋ถ„์„์šฉ ํŒŒ์ด์ฌ ํŒจํ‚ค์ง€๋‹ค. (์ž์—ฐ์–ด๋Š” ์ผ์ƒ์ ์ธ ์ƒํ™œ์—์„œ ์‚ฌ์šฉํ•˜๋Š” ์–ธ์–ด๋ฅผ ๋งํ•œ๋‹ค) ๋ถ„์„์„ ์œ„ํ•ด์„œ๋Š” ๊ธด ๋ฌธ์ž์—ด์„ ์ž‘์€ ๋‹จ์œ„๋กœ ๋‚˜๋ˆ ์•ผ ํ•˜๋Š”๋ฐ, ์ด ๋‹จ์œ„๋ฅผ token(ํ† ํฐ)์ด๋ผ ํ•˜๊ณ  ๊ทธ ์ž‘์—…์„ tokenizing(ํ† ํฐ ์ƒ์„ฑ)์ด๋ผ๊ณ  ํ•œ๋‹ค. word_tokenize() ๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ๋ฌธ์žฅ์„ ํ† ํฐํ™”ํ•  ์ˆ˜ ์žˆ๋‹ค. ํ’ˆ์‚ฌ(POS, part-of-speech) pos_tag() ๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ํ† ํฐํ™”ํ•œ ๋ฌธ์žฅ์„ ๋Œ€์ƒ์œผ๋กœ .. 2022. 3. 25.
[๋ฉ‹์‚ฌ] AI SCHOOL 5๊ธฐ_ Day 11 ๋ฐ์ดํ„ฐ ์‹œ๊ฐํ™”(Data visualization) GeoJSON GeoJSON(์ง€์˜ค์ œ์ด์Šจ)์€ JSON(JavaScript Object Notation)์— ๊ธฐ๋ฐ˜ํ•œ ์ง€๋ฆฌ ๊ณต๊ฐ„ ๋ฐ์ดํ„ฐ ๊ตํ™˜ ํฌ๋งท์ด๋‹ค. ์ง€๋ฆฌ ์ขŒํ‘œ ์ฐธ์กฐ ์‹œ์Šคํ…œ์ธ World Geodetic์„ ์‚ฌ์šฉํ•œ๋‹ค. https://geojson.org/ GeoJSON GeoJSON GeoJSON is a format for encoding a variety of geographic data structures. { "type": "Feature", "geometry": { "type": "Point", "coordinates": [125.6, 10.1] }, "properties": { "name": "Dinagat Islands" } } GeoJSON supp.. 2022. 3. 24.
[๋ฉ‹์‚ฌ] AI SCHOOL 5๊ธฐ_ Day 10 Pandas(ํŒ๋‹ค์Šค) ์ธ๋ฑ์Šค ์„ค์ • ๋ฐ์ดํ„ฐํ”„๋ ˆ์ž„์˜ column(์—ด)์„ index๋กœ ๊ฐ€์ ธ์˜ค๊ณ  ์‹ถ์„ ๋•, df.set_index('์—ด ์ด๋ฆ„', inplace=Ture) ๋กœ ์‚ฌ์šฉํ•œ๋‹ค. ์„ค์ •ํ–ˆ๋˜ ์ธ๋ฑ์Šค๋ฅผ ์ดˆ๊ธฐํ™”ํ•˜๊ณ  ์‹ถ์„ ๋•Œ๋Š” df.reset_index(inplace=True)๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค. ๊ทธ๋Ÿฐ๋ฐ ๋งŒ์•ฝ ์ธ๋ฑ์Šค๋กœ ์„ค์ •ํ•˜๋ ค๋Š” ์—ด ๊ฐ’์˜ ์ค‘๋ณต์ด ์žˆ๋‹ค๋ฉด pivot_table์„ ์ถ”์ฒœํ•œ๋‹ค. pd.pivot_table(๋ฐ์ดํ„ฐํ”„๋ ˆ์ž„, index='์—ด ์ด๋ฆ„', aggfunc=np.sum) ๊ฒฐ์ธก์น˜(N/A) ๊ฐ’ ์ฑ„์šฐ๊ธฐ NaN(์ˆซ์ž๊ฐ€ ์•„๋‹˜) ํƒ€์ž…์˜ ๊ฒฐ์ธก์น˜๋ฅผ ํŠน์ • ๊ฐ’์œผ๋กœ ์ฑ„์šฐ๊ณ  ์‹ถ์„ ๋•Œ๋Š” df.fillna('์›ํ•˜๋Š” ๊ฐ’')๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค. ์กฐ๊ฑด ๊ฒ€์ƒ‰ df[ (df['์—ด ์ด๋ฆ„1'] 100) ] ๋‘๊ฐœ ์ด์ƒ.. 2022. 3. 23.
[๋ฉ‹์‚ฌ] AI SCHOOL 5๊ธฐ_ Day 9 ๋žŒ๋‹ค ํ•จ์ˆ˜ ๋žŒ๋‹ค(lambda) ํ•จ์ˆ˜๋Š” ์ต๋ช… ํ•จ์ˆ˜(Anonumous function)๋กœ ์ด๋ฆ„ ์—†๋Š” ํ•จ์ˆ˜๋‹ค. 1ํšŒ์šฉ์œผ๋กœ ์ž ๊น๋งŒ ์“ฐ๋Š” ํ•จ์ˆ˜๋ฅผ ๋งŒ๋“ค ๋•Œ ์‚ฌ์šฉํ•œ๋‹ค. ๊ทธ๋ž˜์„œ ์ฝ”๋“œ๊ฐ€ ๊ต‰์žฅํžˆ ๊ฐ„๊ฒฐํ•˜๋‹ค! ํ•˜์ง€๋งŒ ์‚ฌ๋žŒ๋งˆ๋‹ค ์ฝ”๋”ฉ ์Šคํƒ€์ผ์ด ๋‹ค๋ฅด๋‹ค๋ณด๋‹ˆ ๋งŽ์€ ์ฝ”๋“œ๋“ค์„ ๋ณด๋‹ค๋ณด๋ฉด ์•„์ฃผ ๊ธด ๋žŒ๋‹ค ํ•จ์ˆ˜๋ฅผ ๋งˆ์ฃผ์น  ๋•Œ๊ฐ€ ์žˆ๋‹ค๊ณ ํ•œ๋‹ค. ๊ทธ ๋•Œ ๊ฐ€์žฅ ์ค‘์š”ํ•œ๊ฑด " : " ์„ ์ฐพ๋Š” ๊ฒƒ์ด๋‹ค..! ์ฝœ๋ก ์„ ๊ธฐ์ค€์œผ๋กœ ์™ผ์ชฝ์€ ์ธํ’‹, ์˜ค๋ฅธ์ชฝ์€ ์•„์›ƒํ’‹์„ ๋‚˜ํƒ€๋‚ด๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ๋ชจ๋“ˆ? ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ? ํŒจํ‚ค์ง€?! ํ—ท๊ฐˆ๋ฆฌ๋Š” ์šฉ์–ด๋“ค์„ ์‰ฝ๊ฒŒ ์ •๋ฆฌํ•ด์ฃผ์…จ๋‹ค. ๋ชจ๋“ˆ์€ ๊ฐ€์žฅ ์ž‘์€ ๋‹จ์œ„๋กœ python ํŒŒ์ผ ํ•˜๋‚˜๋ฅผ ๋งํ•œ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ๊ทธ ํŒŒ์ผ๋“ค์„ ๋ชจ์•„๋†“์€ ํด๋”๋ฅผ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ ๋˜๋Š” ํŒจํ‚ค์ง€ ๋ผ๊ณ  ๋งํ•œ๋‹ค. ๋ฐ์ดํ„ฐ ๋ฐ์ดํ„ฐ์˜ ์ข…๋ฅ˜๋Š” ํฌ๊ฒŒ 3๊ฐ€์ง€๋กœ ๋ถ„๋ฅ˜ํ•  ์ˆ˜ ์žˆ๋‹ค. ์ •ํ˜• ๋ฐ์ดํ„ฐ : ํ–‰๊ณผ ์—ด์ด ์žˆ๋Š” ๋ฐ์ด.. 2022. 3. 22.
[๋ฉ‹์‚ฌ] AI SCHOOL 5๊ธฐ_ Day 8 ํ•จ์ˆ˜(function, method) ํ•จ์ˆ˜๋ฅผ ๋งŒ๋“ค ๋•Œ ์ƒ๊ฐํ•ด์•ผ๋  4๊ฐ€์ง€ x๊ฐ’ → y = test() y๊ฐ’ → test(x) ํ•„์š”ํ•œ ๋‚ด๋ถ€ ์ฒ˜๋ฆฌ ํ•จ์ˆ˜ ์ด๋ฆ„ : ์ตœ๋Œ€ํ•œ ์˜๋ฏธ์žˆ๊ฒŒ ์“ฐ๋Š”๊ฒŒ ์ข‹๋‹ค * ์ฐธ๊ณ ) x ๋‚˜ y ๊ฐ’์ด ์—†์„ ์ˆ˜๋„ ์žˆ๋‹ค def total_nums(num1, num2=7): # ๋””ํดํŠธ ๊ฐ’ ์ง€์ •๋„ ๊ฐ€๋Šฅํ•˜๋‚˜ ๋’ค์—์„œ๋ถ€ํ„ฐ ์ง€์ •ํ•ด์•ผํ•œ๋‹ค total = num1 + num2 return total # return ๊ฐ’์€ ์—ฌ๋Ÿฌ ๊ฐœ ๋งŒ๋“ค ์ˆ˜ ์žˆ๋‹ค total_nums(13) # ํ•จ์ˆ˜๋ฅผ ์‹คํ–‰(ํ˜ธ์ถœ)ํ•  ๋•Œ num1, num2 ๋ณ€์ˆ˜๊ฐ€ ์ƒ๊ธฐ๊ณ , # return์„ ํ•˜๋Š” ์ˆœ๊ฐ„ total์ด๋ผ๋Š” ๋ณ€์ˆ˜๊ฐ€ ์•„๋‹ˆ๋ผ ๊ทธ ์•ˆ์— ๋‹ด๊ธด "๊ฐ’"์ด ๋‚˜๊ฐ„๋‹ค ๋งค๊ฐœ๋ณ€์ˆ˜(parameter) : ํ•จ์ˆ˜์— ์ž…๋ ฅ์œผ๋กœ ์ „๋‹ฌ๋œ ๊ฐ’์„ ๋ฐ›๋Š” ๋ณ€์ˆ˜. (์—ฌ๊ธฐ์„œ๋Š” num1,.. 2022. 3. 21.
[๋ฉ‹์‚ฌ] AI SCHOOL 5๊ธฐ_ Day 6 Numpy(๋„˜ํŒŒ์ด) Numpy๋Š” Numerical Python์˜ ์ค„์ž„๋ง๋กœ ์ˆ˜์น˜ ๊ณ„์‚ฐ์„ ์œ„ํ•ด ๋งŒ๋“ค์–ด์ง„ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋‹ค. ๋„˜ํŒŒ์ด์˜ ์ž๋ฃŒ๊ตฌ์กฐ๋Š” Pandas, Matplotlib ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ์˜ ๊ธฐ๋ณธ ๋ฐ์ดํ„ฐ ํƒ€์ž…์œผ๋กœ ์‚ฌ์šฉ๋˜๊ธฐ๋„ ํ•œ๋‹ค. ๋„˜ํŒŒ์ด์—์„œ๋Š” ๋ฐฐ์—ด(array) ๊ฐœ๋…์œผ๋กœ ๋ณ€์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜๋Š”๋ฐ ์ด ๋ฐฐ์—ด์€ ๋„˜ํŒŒ์ด ๋ฐฐ์—ด(Numpy array)์ด๋ฉฐ, ํŒŒ์ด์ฌ์˜ ๊ธฐ๋ณธ ์ž๋ฃŒ๊ตฌ์กฐ์™€๋Š” ๋‹ค๋ฅธ ๋ฐ์ดํ„ฐ ํƒ€์ž…์ด๋‹ค. ์ฆ‰, ํŒŒ์ด์ฌ์ด๋ผ๋Š” ์–ธ์–ด๊ฐ€ ๊ธฐ๋ณธ ์ž๋ฃŒ๊ตฌ์กฐ์ธ ๋ฆฌ์ŠคํŠธ, ๋”•์…”๋„ˆ๋ฆฌ ๋“ฑ์„ ๊ฐ–๊ณ  ์žˆ๋Š” ๊ฒƒ๊ณผ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ๋ฐ์ดํ„ฐ ๋ถ„์„์ด๋ผ๋Š” ์–ธ์–ด๊ฐ€ ๊ธฐ๋ณธ ์ž๋ฃŒ๊ตฌ์กฐ๋กœ ๋„˜ํŒŒ์ด ๋ฐฐ์—ด์„ ๊ฐ–๊ณ  ์žˆ๋‹ค. (์ถœ์ฒ˜: ์ด๊ฒƒ์ด ๋ฐ์ดํ„ฐ ๋ถ„์„์ด๋‹ค with ํŒŒ์ด์ฌ - ์œค๊ธฐํƒœ) ์Šฌ๋ผ์ด์‹ฑ ๋ณ€์ˆ˜๋ช…[ ํ–‰์˜ ๋ฒ”์œ„, ์—ด์˜ ๋ฒ”์œ„] # ๋งˆ์ง€๋ง‰ ๊ฐ’์„ ํฌํ•จํ•˜์ง€ ์•Š๋Š” ๋ชจ๋“  ๊ฐ’์ด ํ•ด๋‹น๋œ๋‹ค๋ฉด?! data[ : .. 2022. 3. 19.