APAC 머신러닝 & Data Science Community Summit 세미나 참석 정리

  • TensorFlow / Caffe2 → 가장 활발하게 개발 진행되고 있음(그 외 MxNet)
  • Neural Networks
  • Decision Tree(많이 쓰고 있는 모델 방법)
  • 앙상블.. Ensembles(1987) → 사용하여 나온 다양한 모델들을 엮어서 만들고 있음
  • Global Models VS Local Models
  • 개인의 정보는 온프라미스, 클라우드, 개인 모바일 장비 등 다양하게 저장(모든 데이터는 나만 확인하고 쓰는..)
  • 정보를 다른쪽이 아닌 내가 직접 받아 확인하고 서로 공유하는.. + AI(Machine Learning) 활용하는 방향..

* Ditfalls fo Machine Learning(머신러닝의 함정)

모든 문제는 기술쪽에 문제가 아니다

  • LGD, PD(금융 부도 관련 단어)
  • 집 값을 예상하는 부분에 대해 계산하는 Machine Learning 구현
  • Machine Learning이 자신의 문제 해결에 적합한 것인가?
  • Data의 적정성(Validation)
  • Data Science가 먼저 나와야 한다(Machine Learning 보다)
  • Governance.. 많은 단계를 거쳐야 하지만 그 방법이 현재 Best Practice
  • Machine Learning은 답을 주지는 않는다.

* Fun With TensorFlow

  • Deep Learning Machine Setup이 어려운 점이 있다.
  • Google의 Tacotron
  • pix2pix
  • Facebook : CNN for tracstion
  • 강화학습(Reinforcement learning) → 구글, 아마존에서 활용하는 다양한 방법
  • Q-Learning
  • Bubble Braker 게임에 대해 Learning to Play(그나마 쉽게 공부 시킬 수 있는)
  • 데모는 Phyton 으로 제작
  • 자신의 PC에서 직접 확인하고 결과를 확인해 볼 것
  • MOOCS 광장 참고해도 좋긴 함 → Data Science

* Apache Spark

  • Spark 특징
    • Scala, Java, Phyton, R 언어 사용 가능
    • 분산 Data 처리, 분산 자료구조
  • Apache Zepplin on Spark
    • 시각화
    • Jupiter와 차이점은 대용량 처리가 가능
  • BigData & Spark Data Science Approach
  • Spark Machine Learning(Mllib)
Share