작업형 제 1유형 : 데이터 처리 영역 (3문제) X 10점
데이터 수집 작업 | 데이터 수집하기 |
|
데이터 전처리 작업 | 데이터 정제하기 |
|
데이터 변환하기 |
|
|
데이터 모형 구축 작업 | 분석모형 선택하기 |
|
분석모형 구축하기 |
|
|
데이터 모형 평가 작업 | 구축된 모형 평가하기 |
|
분석결과 활용하기 |
|
범주형, 숫자인 컬럼 찾기
df.select_dtypes(include=object).columns
df.select_dtypes(include=np.number).columns
범주형 -> 숫자
from sklearn.preprocessing import LabelEncoder
enc = LabelEncoder()
product = enc.fit_transform(X_train['주구매상품'])
연속형 -> 범주형
pd.cut
np.histogram
범주형 더미변수화 : 0, 1로 이진화
print(pd.get_dummies(X_train['주구매상품'], prefix='주구매상품', drop_first='True').shape)
특정 컬럼의 유니크값 출력
print(X_train['주구매상품'].unique())
특정 컬럼의 각 도수 세기
print(X_train['주구매상품'].value_counts())
열 삭제
del X_train['cust_id']
X_train = X_train.drop('cust_id', axis=1)
행 삭제
X_train = X_train.drop(X_train['cust_id'][30])
중복 행 확인
duplicated()
데이터 병합
pd.merge
pd.concat
스케일링
- StandardScaler
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
qsec = pd.DataFrame(mtcars['qsec'])
qsec = scaler.fit_transform(qsec)
- RobustScaler
- MinMaxScaler
- Normalizer
NA값 처리
dropna
fillna
이상치 처리
q25, q50, q75 = np.percentile(mtcars['wt'], [25,50,75])
IQR = q75 - q25
outlier = mtcars['wt'][(mtcars['wt']> q75 + IQR*1.5) | (mtcars['wt']< q25 - IQR*1.5)].values
텍스트 추출
mtcars['brand'] = mtcars.iloc[:,0].str.split(' ', expand=True)[0]
끝이 특정문구로 끝나는 행 찾기
str.endswith('many')
상관계수
print(mtcars.corr())
데이터 정렬
sort_values(ascending=False))
Groupby
groupby(['Area']).count()
'Career > Certificate' 카테고리의 다른 글
[빅데이터분석기사] 실기 - 단답형 준비 (5) | 2021.06.18 |
---|---|
[빅데이터분석기사] 실기 - sklearn (1) | 2021.06.10 |
[빅데이터분석기사] 실기 예시 풀이 (2) | 2021.05.31 |
[빅데이터분석기사] 필기 - 4. 빅데이터 결과 해석 (0) | 2021.05.30 |
[빅데이터분석기사] 필기 - 3. 빅데이터 모델링 (0) | 2021.05.30 |
댓글