Data Preparation

1. feature extraction and portability
2. data cleaning
3. data reduction and transformation

본문내용

1. feature extraction and portability
feature extraction은 다양한 출처(센서, 이미지, 웹 기록, 침입감지, 문서 등)에서 데이터를 얻는 것을 말한다. portability는 다른 유형으로 데이터를 변환하는 것을 말한다.
Portability Example Discretization: 가장 흔하게 사용되는 변환이며, 정보를 일부분 소실하는 것이 특징이다. 문제점은 일정하지 않은 간격으로 데이터들이 불일치하게 분배되어 있다는 것이다. ① Equi-width ranges: 각 범위 [a,b]는 b-a와 같은 방식으로 선택 되고, 불일치하게 분배되어 있는 데이터에는 적용되지 않는다. [최솟값, 최댓값]은 φ정도의 일정한 길이로 나누어 진다. ② Equi-log ranges: 각 범위 [a,b]는 log(b)-log(a)와 같은 방식으로 선택된다. 이러한 방법의 범위 선택은 기하학적으로 크기가 증가하는 효과가 있다. ③ Equi-depth ranges: 각 범위는 동일한 수의 기록을 갖고, 각 범위에 세분화를 제공하는 것을 말한다. Binarization: categorical한 성질을 binary한 형태로 바꾸고 binary된 데이터에 대해서 numeric algorithms를 사용한다. φ속성 중 하나는 1값을 가지고, 나머지는 0값을 가진다. LSA: 차원이 높아지면 공간의 크기는 기하급수적으로 커져서 데이터 분포가 sparse하게 되고 성능은 기하급수적으로 떨어지는 것을 차원의 저주라고 부른다. 따라서 LSA는 낮은 차원에서 데이터를 sparse하지 않은 표현으로 변환하는 것을 말한다. 변환 후 스케일링을 적용하기도 하는데, 스케일링은 다양한 길이의 문자들을 균일하게 변환하는데 필요하다.

출처 : 해피캠퍼스

[태그:] Data Preparation