History
home
BDA ์—ฐํ˜
home

- NLP ๊ธฐ์ดˆ ์ดํ•ด

์ž์—ฐ์–ด ์ฒ˜๋ฆฌ(Natural Language Processing, NLP)๋ž€?

์ž์—ฐ์–ด๋Š” C,Python,Java์™€ ๊ฐ™์€ ํ”„๋กœ๊ทธ๋ž˜๋ฐ ์–ธ์–ด์™€ ๋‹ค๋ฅธ, ๋ฐ˜๋“œ์‹œ ํŠน์ • ์–ด๋ฒ•์„ ๋”ฐ๋ฅด์ง€ ์•Š๊ณ  ์‚ฌ๋žŒ๋“ค์ด ์ผ์ƒ์ ์œผ๋กœ ์‚ฌ์šฉํ•˜๋Š” ์–ธ์–ด๋ฅผ ๋งํ•œ๋‹ค. ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ๋Š” ์ด๋Ÿฌํ•œ ์ž์—ฐ์–ด๋ฅผ ์ปดํ“จํ„ฐ๊ฐ€ ์ดํ•ดํ•˜์—ฌ ํ•ด์„ํ•˜๊ณ  ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•ด์ฃผ๋Š” ๊ฒƒ์ด๋‹ค. ์ฆ‰, ์ธ๊ฐ„์˜ ํ…์ŠคํŠธ, ์Œ์„ฑ ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„์„ํ•˜์—ฌ ๊ตฌ์กฐ์™€ ์˜๋ฏธ๋ฅผ ํŒŒ์•…ํ•˜๊ณ , ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ํŠน์ • ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•˜๋Š” ์ผ๋ จ์˜ ๊ณผ์ •์ด๋‹ค.

NLP์˜ ์ฃผ์š” ์‘์šฉ ๋ถ„์•ผ

1.
๊ธฐ๊ณ„ ๋ฒˆ์—ญ(Machine Translation): ํ•œ ์–ธ์–ด์—์„œ ๋‹ค๋ฅธ ์–ธ์–ด๋กœ ํ…์ŠคํŠธ๋ฅผ ์ž๋™์œผ๋กœ ๋ฒˆ์—ญํ•œ๋‹ค. ๊ตฌ๊ธ€ ๋ฒˆ์—ญ(Google Translate)๊ณผ ๊ฐ™์€ ์„œ๋น„์Šค๊ฐ€ ์žˆ๋‹ค..
2.
์Œ์„ฑ ์ธ์‹(Speech Recognition): ์Œ์„ฑ ๋ฐ์ดํ„ฐ๋ฅผ ํ…์ŠคํŠธ๋กœ ๋ณ€ํ™˜ํ•œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์Šค๋งˆํŠธํฐ์˜ ์Œ์„ฑ ์ธ์‹ ๊ธฐ๋Šฅ์ด๋‚˜ ์Œ์„ฑ ๊ธฐ๋ฐ˜ ๊ฐ€์ƒ ๋น„์„œ(Amazon Alexa, Google Assistant ๋“ฑ)๊ฐ€ ์ด ๊ธฐ์ˆ ์„ ์‚ฌ์šฉํ•œ๋‹ค.
3.
์ž์—ฐ์–ด ์ดํ•ด(Natural Language Understanding, NLU): ํ…์ŠคํŠธ์˜ ์˜๋ฏธ๋ฅผ ๋ถ„์„ํ•˜์—ฌ ์‚ฌ์šฉ์ž์˜ ์˜๋„๋‚˜ ๋ฌธ๋งฅ์„ ์ดํ•ดํ•˜๋Š” ๊ณผ์ •์ด๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋” ๋ณต์žกํ•œ ์งˆ๋ฌธ์— ๋Œ€๋‹ตํ•˜๊ฑฐ๋‚˜, ์‚ฌ์šฉ์ž์˜ ์š”๊ตฌ๋ฅผ ์ถฉ์กฑ์‹œํ‚ค๋Š” ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋‹ค.
4.
์ž์—ฐ์–ด ์ƒ์„ฑ(Natural Language Generation, NLG): ๋ฐ์ดํ„ฐ์—์„œ ์ •๋ณด๋ฅผ ์ถ”์ถœํ•˜๊ณ  ์ด๋ฅผ ์ž์—ฐ์Šค๋Ÿฌ์šด ์–ธ์–ด๋กœ ํ‘œํ˜„ํ•˜๋Š” ๊ณผ์ •์ด๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์ž๋™ ๊ธฐ์‚ฌ ์ž‘์„ฑ, ์š”์•ฝ ์ƒ์„ฑ ๋“ฑ์— ์‚ฌ์šฉ๋œ๋‹ค.
5.
๊ฐ์ • ๋ถ„์„(Sentiment Analysis): ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ์—์„œ ์ €์ž์˜ ๊ฐ์ •์ด๋‚˜ ํƒœ๋„๋ฅผ ๋ถ„์„ํ•˜๋Š” ๊ธฐ์ˆ ์ด๋‹ค. ์†Œ์…œ ๋ฏธ๋””์–ด, ์ œํ’ˆ ๋ฆฌ๋ทฐ ๋“ฑ์—์„œ ์‚ฌ์šฉ์ž์˜ ๋ฐ˜์‘์„ ๋ถ„์„ํ•˜๋Š” ๋ฐ ๋„๋ฆฌ ์‚ฌ์šฉ๋œ๋‹ค.
6.
์ฑ—๋ด‡(Chatbots): ์‚ฌ์šฉ์ž์™€ ์ž์—ฐ์–ด๋กœ ๋Œ€ํ™”๋ฅผ ๋‚˜๋ˆŒ ์ˆ˜ ์žˆ๋Š” ์ปดํ“จํ„ฐ ํ”„๋กœ๊ทธ๋žจ์ด๋‹ค. ๊ณ ๊ฐ ์ง€์›, ์ •๋ณด ๊ฒ€์ƒ‰ ๋“ฑ ๋‹ค์–‘ํ•œ ๋ถ„์•ผ์—์„œ ํ™œ์šฉ๋œ๋‹ค.

NLP ๊ธฐ๋ฒ•์˜ ์˜ˆ์‹œ

์ž์—ฐ์–ด ์ฒ˜๋ฆฌ(NLP) ๋ถ„์•ผ๋Š” ๋งค์šฐ ๊ด‘๋ฒ”์œ„ํ•˜๋ฉฐ, ๋‹ค์–‘ํ•œ ๊ธฐ๋ฒ•๊ณผ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ์žˆ๋‹ค. ์ด๋“ค์€ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ์˜ ์ดํ•ด, ๋ถ„์„, ์ƒ์„ฑ ๋“ฑ์— ์‚ฌ์šฉ๋œ๋‹ค.
1.
ํ† ํฐํ™”(Tokenization): ํ…์ŠคํŠธ๋ฅผ ์ž‘์€ ๋‹จ์œ„์ธ ํ† ํฐ์œผ๋กœ ๋ถ„๋ฆฌํ•˜๋Š” ๊ณผ์ •์ด๋‹ค. ํ† ํฐ์€ ๋ณดํ†ต ๋‹จ์–ด, ๊ตฌ, ๋˜๋Š” ๋ฌธ์žฅ์ผ ์ˆ˜ ์žˆ๋‹ค. ํ† ํฐํ™”๋Š” ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„์„ํ•˜๊ธฐ ์œ„ํ•œ ์ฒซ ๋‹จ๊ณ„๋กœ, ๋‹ค์Œ ์ฒ˜๋ฆฌ ๋‹จ๊ณ„์˜ ๊ธฐ๋ฐ˜์ด ๋œ๋‹ค.
2.
๋ถˆ์šฉ์–ด ์ œ๊ฑฐ(Stop word romoval): ๋ถˆ์šฉ์–ด๋ž€ ํ…์ŠคํŠธ์—์„œ ์ž์ฃผ ๋“ฑ์žฅํ•˜์ง€๋งŒ ๋ถ„์„์— ์žˆ์–ด์„œ ์‹ค์งˆ์ ์ธ ์˜๋ฏธ๋ฅผ ๊ฐ€์ง€์ง€ ์•Š๋Š” ๋‹จ์–ด๋“ค์„ ๋งํ•œ๋‹ค. ๋ณดํ†ต ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ ํ–ฅ์ƒ, ์ฒ˜๋ฆฌ ์‹œ๊ฐ„๊ณผ ์ €์žฅ ๊ณต๊ฐ„์„ ์ค„์ด๊ธฐ ์œ„ํ•ด ๋ถˆ์šฉ์–ด๋ฅผ ์ œ๊ฑฐํ•ด์ค€๋‹ค.
3.
ํ’ˆ์‚ฌ ํƒœ๊น…(Part-of-Speech Tagging): ํ…์ŠคํŠธ ๋‚ด ๊ฐ ํ† ํฐ์˜ ํ’ˆ์‚ฌ(๋ช…์‚ฌ, ๋™์‚ฌ, ํ˜•์šฉ์‚ฌ ๋“ฑ)๋ฅผ ์‹๋ณ„ํ•˜๊ณ  ํƒœ๊น…ํ•˜๋Š” ๊ณผ์ •์ด๋‹ค. ์ด๋Š” ๋ฌธ์žฅ์˜ ๊ตฌ์กฐ์™€ ์˜๋ฏธ๋ฅผ ์ดํ•ดํ•˜๋Š” ๋ฐ ๋„์›€์ด ๋œ๋‹ค.
4.
์–ด๊ฐ„ ์ถ”์ถœ(Stemming)๊ณผ ํ‘œ์ œ์–ด ์ถ”์ถœ(Lemmatization): ์–ด๊ฐ„ ์ถ”์ถœ์€ ๋‹จ์–ด์—์„œ ์ ‘๋ฏธ์‚ฌ๋ฅผ ์ œ๊ฑฐํ•˜์—ฌ ๊ธฐ๋ณธ์ ์ธ ํ˜•ํƒœ, ์ฆ‰ '์–ด๊ฐ„'์„ ์ฐพ๋Š” ๊ณผ์ •์ด๋‹ค. ์–ด๊ฐ„ ์ถ”์ถœ์˜ ๋ชฉ์ ์€ ๊ด€๋ จ๋œ ๋‹จ์–ด๋“ค์„ ๋™์ผํ•œ ์–ด๊ฐ„์œผ๋กœ ์ค„์—ฌ์„œ ํ…์ŠคํŠธ์˜ ๋ณต์žก์„ฑ์„ ์ค„์ด๋Š” ๊ฒƒ์ด๋‹ค. ํ‘œ์ œ์–ด ์ถ”์ถœ์€ ๋‹จ์–ด๋ฅผ ๊ทธ๊ฒƒ์˜ ์‚ฌ์ „ํ˜• ๋˜๋Š” ํ‘œ์ œ์–ด ํ˜•ํƒœ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๊ณผ์ •์œผ๋กœ ๋‹จ์–ด์˜ ์˜๋ฏธ์™€ ๋ฌธ๋งฅ์„ ์ดํ•ดํ•˜๋ ค๊ณ  ํ•˜๋ฉฐ, ๊ฒฐ๊ณผ์ ์œผ๋กœ ์–ด๊ฐ„ ์ถ”์ถœ๋ณด๋‹ค ์ •ํ™•ํ•œ ๊ธฐ๋ณธ ํ˜•ํƒœ๋ฅผ ์ œ๊ณตํ•ด์ค€๋‹ค.
5.
๊ตฌ๋ฌธ ๋ถ„์„(Syntactic Parsing): ๋ฌธ์žฅ์˜ ๊ตฌ์กฐ๋ฅผ ๋ถ„์„ํ•˜์—ฌ ๊ทธ ๊ตฌ์กฐ๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ํŠธ๋ฆฌ(๊ตฌ๋ฌธ ํŠธ๋ฆฌ)๋ฅผ ์ƒ์„ฑํ•œ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋ฌธ์žฅ ๋‚ด์—์„œ ๋‹จ์–ด์™€ ๊ตฌ์˜ ๊ด€๊ณ„๋ฅผ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋‹ค.
6.
์˜๋ฏธ ๋ถ„์„(Semantic Analysis): ๋ฌธ์žฅ์ด๋‚˜ ํ‘œํ˜„์˜ ์˜๋ฏธ๋ฅผ ์ดํ•ดํ•˜๊ณ  ํ•ด์„ํ•˜๋Š” ๊ณผ์ •์ด๋‹ค. ๋‹จ์–ด๋‚˜ ๋ฌธ์žฅ์ด ์ฃผ์–ด์ง„ ๋ฌธ๋งฅ์—์„œ ์–ด๋–ค ์˜๋ฏธ๋ฅผ ๊ฐ€์ง€๋Š”์ง€๋ฅผ ๋ถ„์„ํ•œ๋‹ค.
7.
๋‹จ์–ด ์ž„๋ฒ ๋”ฉ(Word Embeddings): ๋‹จ์–ด๋ฅผ ๋ฐ€์ง‘ ๋ฒกํ„ฐ๋กœ ํ‘œํ˜„ํ•˜๋Š” ๊ธฐ๋ฒ•์ด๋‹ค. ์ด ๋ฒกํ„ฐ๋“ค์€ ๋‹จ์–ด ๊ฐ„์˜ ์˜๋ฏธ์  ๊ด€๊ณ„๋ฅผ ๋ฐ˜์˜ํ•œ๋‹ค. ๋Œ€ํ‘œ์ ์ธ ์˜ˆ๋กœ Word2Vec, GloVe ๋“ฑ์ด ์žˆ๋‹ค.
8.
ํŠธ๋žœ์Šคํฌ๋จธ(Transformer) ๋ชจ๋ธ: ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜(Attention Mechanism)์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜๋Š” ๋ชจ๋ธ๋กœ, ๋ฌธ์žฅ ๋‚ด์˜ ๋ชจ๋“  ๋‹จ์–ด ๊ฐ„์˜ ๊ด€๊ณ„๋ฅผ ํ•œ ๋ฒˆ์— ํŒŒ์•…ํ•  ์ˆ˜ ์žˆ๋‹ค. ์ด ๊ธฐ๋ฒ•์€ BERT, GPT ๊ฐ™์€ ์ตœ์‹  NLP ๋ชจ๋ธ์˜ ๊ธฐ๋ฐ˜์ด ๋˜๋ฉฐ, ๋†’์€ ์ดํ•ด๋„์™€ ๋ฌธ๋งฅ ๋ถ„์„ ๋Šฅ๋ ฅ์„ ์ œ๊ณตํ•œ๋‹ค.
9.
๊ฐ์ • ๋ถ„์„(Sentiment Analysis): ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ์—์„œ ๊ธ์ •์ , ๋ถ€์ •์ , ์ค‘๋ฆฝ์  ๊ฐ์ •์„ ์ž๋™์œผ๋กœ ๊ฐ์ง€ํ•˜๋Š” ๊ธฐ๋ฒ•์ด๋‹ค. ์ด๋Š” ์†Œ๋น„์ž ๋ฆฌ๋ทฐ, ์†Œ์…œ ๋ฏธ๋””์–ด ๊ฒŒ์‹œ๋ฌผ ๋“ฑ์—์„œ ์‚ฌ์šฉ์ž์˜ ํƒœ๋„๋‚˜ ๋ฐ˜์‘์„ ๋ถ„์„ํ•˜๋Š” ๋ฐ ํ™œ์šฉ๋œ๋‹ค.