-
[비공개] nltk15. scikit-learn incorporation
여기선 voting accuracy의 정확도를 올리기 위한 방법으로 nltk와 함께 쓸 수 있는 scikit-learn api를 추천하는 군요. cmd창에서 py -3.7 -m pip install sklearn 를 쳐서 sklearn 모듈들을 먼저 내 PC에다 install 하고선, 파이썬 에디터로 돌아와 import 문으로 여럿 voting algorithm을 쓸 수 있게 가져옵니다.(여기선 모두 default 기능만을 활용) 실습에선 일곱개의 각기 다른 방식의 알고리즘을 돌려서 나온 accuracy 결과치를 보고선 최종 decision을 보게 합니다.https://www.youtube.com/watch?v=nla4C-VYNEU&list=PLQVvvaa0QuDf2JswnfiGkliBInZnIC4HL&index=15#파이썬 #코딩어학원추천 -
[비공개] nltk14. save classifier with pickle
classifier 알고리즘을 적용해서 object를 만들어내고 나면, 우린 그걸 pickle로 세이브해 놓고 나중에 필요로 할 때 불러 쓰는 것이 유리합니다. 항상 트레이닝 데이터 셋을 새로 만들어내는 것이 번거롭기도 하고, 보다 바람직한 데이터 셋으로 시간을 두고선 점차로 개선해낼 수 있으니 좋다는 겁니다.wb write in byte, rb read in byte 옵션을 주어 트레이닝 데이터 셋 object를 pickle.dump() 세이브하고, pickle.load() 불러내는 걸 실습해보았습니다.https://www.youtube.com/watch?v=ReakZVh2Xwk&list=PLQVvvaa0QuDf2JswnfiGkliBInZnIC4HL&index=14#파이썬 #코딩추천 -
[비공개] nltk13. naive bayes algorithm
앞서 우린 영화리뷰 샘플 텍스트를 하나 랜덤 선정해서 데이터 셋을 하나 만들어내는 실습을 했습니다. 이제 그 데이터 셋을 앞과 뒤에서 부터 1900개씩의 워드만을 뽑아내서 테스트와 트래이닝 데이터 셋이라 정의하고선, 가장 단순한 방식의 classifier로 일컫는 naive bayes algorithm 를 실습해볼려 합니다. 여기선 테스트 셋과 트래이닝 셋의 호감/비호감 정확도가 어떻게 나왔는지를 백분율로 보여줍니다. 상위 15개의 워드를 선별해서 구체적인 호감/비호감의 비율도 참고로 보여주게 했습니다.https://www.youtube.com/watch?v=rISOsUaTrO4&list=PLQVvvaa0QuDf2JswnfiGkliBInZnIC4HL&index=13#파이썬 #코딩추천 -
[비공개] nltk12. words as features for learning
우린 FreqDist() 를 해서 all_words를 만들어냈습니다. 그리고선 그 all_words를 출현빈도 상위 3천개를 뽑아내서 word_features에다 담았습니다. 그리고는 find_features() 기능을 define하고선(이게 우리가 만든 text classifier 알고리즘) 영화리뷰한 샘플 텍스트를 하나 선정해서 거기 나오는 워드가 word_features에 있는 상위 3천개에 해당하는지를 비교해서 해당할 때엔 그 워드를 하나씩 출력하고선 tuple로 정의한 list 에다 담는 실습을 해보았습니다.로직이 좀 복잡하긴 하지만, 그냥 지금은 따라해서 아웃풋이 비슷하게라도 나오면 다행이라 생각됩니다. 이 sentdex란 친구가 프로그래밍 하는 걸 보면 느끼시겠지만, 지금은 코딩이.......추천 -
[비공개] nltk11. text classifier
Text Classifier를 우리가 만들어내는 알고리즘을 일컫는 말로 쓴 것 같습니다. 여기선 센티멘트 즉, 우리 기분에 긍정적인 영향(호감)을 주는 말들이 그리고 부정적인 영향(비호감)을 주는 말들이 얼마나 많이 언급되었는 지를 분류해서 살피게 해주는 알고리즘을 만들어내고자 합니다.처음엔 어떤 화일아이디(워드), 카테고리(호감, 비호감)에서 우리가 원하는 바 조건을 충족하는 놈을 찾아 튜플로 다큐멘트 리스트 structure를 하나 만들어 내었습니다. 그리곤 임의의 무비를 하나 택해서 shuffle(가볍게 밟아보는) 실습을 해보았습니다. 그리고나선 전체 무비리뷰 데이터에서 상위 15번째로 많이 언급된 워드들은 무엇인지, 또 "stup.......추천 -
[비공개] nltk10. wordnet
Corpora(복수형이 Corpus)에는 수도없이 많은 데이터가 담겨 있다 한다. 그 많은 데이터를 조회해서 쓸 수 있는 모듈이 wordnet 이다.Wordnet 에서 쉽게 쓸 수 있는 기능으론 synsets, synonyms, antonyms, wud_similarity 등이 있다. 앞서 배운 lemmatizing의 변형인 lemmas(단수형이 lemma) 기능으로 어원을 찾아내어 보기도.synsets은 파라미터를 넘겨서 동일 혹은 유사한 단어를 찾아내는 기능. synonums는 유사말 단어를, 그리고 antonyms는 반댓말 단어가 무엇인지를 찾아내는 기능. similarity는 두 단어를 비교해서 얼마나 비슷한지를 퍼센티지로 측정해서 보여주는 기능을 한다. 이젠 제법 유용하게 써먹을 수도 있겠구나~ 는 생각이 들.......추천 -
[비공개] nltk9. Corpora
내 윈도우나 맥의 어디에 nltk_data가 저장되어 있는 지를 살펴보세요. 윈도우 같으면 화일창에서 %appdata% 를 치면 대개는 나옵니다. 그 nltk_data를 클릭해 들어가면 여럿 DB 들이 나오고, 거기에 Corpora 라고 있는 걸 발견하실 겁니다.오늘 실습한 것은 거기 Corpora의 Gutenberg 디렉토리에 있는 성경 KJV 창세기 1장 5-15절을 tokenize로 옮겨왔습니다. 내용을 함 읽어 보실래요?https://www.youtube.com/watch?v=TKAXDqoG2dc&list=PLQVvvaa0QuDf2JswnfiGkliBInZnIC4HL&index=9#파이썬 #코딩추천 -
[비공개] nltk8. lemmatizing
Stemming 은 가끔씩 비현실적인(쓰지도 않는) 단어들을 드러내지만, lemmatizing은 실제 현실에서 쓰는 단어들로만 보여준다. 그런 의미에선 stemming 보다 파워풀하다 하겠다.https://www.youtube.com/watch?v=uoHVztKY6S4&fbclid=IwAR0FlmrWDk887O_no7s8Z4sWRs_Z5016dxzJhja8WYEYcn_7dPh2Ei0jRTI#파이썬 #코딩추천 -
[비공개] nltk7. named entity recognition
추석 명절 잘 보내셨나요? 우리 이제 또 keeping on running 하셔야죠~~^원하는 명사형 주제를 찾고자 할 때에 유용하게 쓰일 수 있는 모듈. 여러 다양한 방식으로 주제 이름을 찾아내어 보여준다. binary 조건 파라미터를 넣었을 때엔 유관 이름들을 한 우산 아래에서 같이 묶어 보여준다.nltk doc 7. Extracting Information from Text 엘 가면 nltk 산출물을 독해할 수 있는 태그 사례가 나옵니다. 그 가운데에 NE관련 입니다::*** Commonly Used Types of Named Entity ***NE Type ExamplesORGANIZATION Georgia-Pacific Corp., WHOPERSON Eddy Bonte, President ObamaLOCATION Murray River, Mount EverestDATE June, 2008-06-29TIME two fi.......추천 -
[비공개] KID에 둥지를 틀게 되었습니다^^
축하해주세요~^ 드디어 코딩어학원 1기를 개설할 수 있게 되었습니다.한국산업개발연구원(KID, 서초동 예술의 전당 맞은편에 위치)에서 지역 커뮤니티 발전에 이바지 하기 위해 같이 하시는 시니어 프로그램 학회 회원님들, 연구원 입주 창업자들, 연구원들, 그리고 이웃 주민들과 함께 하는 평생학습 프로그램의 하나로 코딩어학원 강좌를 개설하게 되었습니다.많이 성원바랍니다^^www.CodingLanguageSchool.com#파이썬 #코딩추천