목록머신러닝 (3)
맘야의 이런저런 이야기들
pandas와 mglearn 모듈을 import 하고 mglearn 모듈을 사용하려 할 때 오류가 발생한다. 위 사진은 구글 colab 환경인데, 문제 해결 이후에도 계속 오류가 난다. colab 에서의 오류는 아직도 해결을 못하였고, jupyter notebook 환경에서 결국에는 몇 시간 만에 성공을 했는데 의외로 간단한 오류였다. ( 줄여서 jn 이라고 하겠다. ) 바로 mglearn 모듈에서 버전이 맞지 않아서였다. jn 에서는 해결되어 문제없이 로딩이 되니 colab 에서 계속 오류가 난다면 jn 에서 실행해 보자. 우선, jn 환경에서 sklearn, joblib, mglearn 을 버전에 맞게 설치해 주자. 버전이 맞지 않을 경우 계속해서 오류가 나니 주의 바란다. 필자는 이것 때문에 몇 시..
sklearn 모듈에서 분석결과를 시각화한 것이다. 현재까지는 sklearn 모듈이 자주 언급되고 있다. 그만큼 많이 쓰이는 모듈인 것 같다. 위 그래프는 특성중요도를 나타낸 것으로 머신러닝을 할 데이터 특성이 차지하는 비중을 나타낸 것이다. 이렇게 나무 모양으로 시각화를 시켜볼 수 있다. 0, 1로 나타내지는 데이터 분류가 참, 거짓을 나타내면서 분류가 된다. 그런데, 가지가 너무 많으면 오히려 분석이 난해지 질 수 있어서 트리를 일정 수준까지 만으로 제한을 두는 경우가 많다고 한다. 3단계로 제한을 둔 상태이다. 이렇게 분석을 해야만 데이터가 난해해지지 않고 분석 정확도가 높아진다. 의사결정나무 앙상블에 대한 자료인데 좀 앙상블해 보이는가?? ㅎ 필자는 이게 뭔지 기억이 가물하다 -_-; 선형회귀 모..
파이썬 기초수업을 마쳤다. 빅데이터 관련 공부라서 시각화를 하는 것까지 해서 마무리되었다. 선택을 잘한 것 같다. 앞으로의 생활에 도움이 많이 될 것이라 생각한다. 투자에도 충분히 접목을 해볼 만하니 참 좋은 것 같다. 데이터를 입력받아서 Topic 별로 분류를 한 다음 시각화를 해본 것이다. 같은 단어라도 중요도가 다르게 나타난다. 자주 언급되는 단어보다 적은 횟수로 언급된 단어를 더 중요하게 분석하는 도구이다. 활용을 해볼 만한 가치가 있다. 파이썬을 마치고 머신러닝을 시작했다. KNN 분류인데, 꽃에 관한 데이터를 입력받아서 시각화를 한 것이다. 분포가 다양하게 나타나고 있다. 다른 모듈로 시각화를 해 본 것이다. 그룹이 더 세분화되고 색도 입혀졌다. 아직은 머신러닝 개념을 파악하기도 어려운 상태라..