안녕하세요? 수구리입니다.
벌써 9월이 다 지나가고 10월이네요
다들 점점 쌀쌀해지는 날씨에 감기 조심하세요..!
코앞으로 다가온 빅 분기 3회 필기시험을 대비하기 위해서
이번 포스팅은 수제비 카페에 올라온 데일리 문제를 정리해보려고 합니다!
https://cafe.naver.com/soojebi
1과목 - 빅데이터 분석 기획
1. 다음 중 데이터 거버넌스의 구성요소가 아닌 것은 무엇인가?
- 원칙
- 절차(Process)
- 조직
- 방법론 및 산출물
데이터 거버넌스의 구성요소 : 원 조 절(프)
2. 다음 중 데이터 분석 방법론의 구성 요소가 아닌 것은 무엇인가?
- 목적
- 절차
- 방법
- 템플릿과 산출물
데이터 분석 방법론의 구성요소
= 절차, 방법, 도구와 기법, 템플릿과 산출물
3. 분석 과제 운선순위 평가 기준으로 다음 괄호( ) 안에 들어갈 단어로 가장 적합한 것은 무엇인가?
- 목표 가치와 전략적 중요도에 부합하는지에 따른 ( )이/가 가장 중요한 기준
- ( )의 판단 기준은 전략적 중요도가 핵심사항
- ROI
- 용이성
- 시급성
- 난이도
5. 다음 중 데이터에 관한 구조화된 데이터로서 다른 데이터를 설명해주는 데이터는 무엇인가?
- 메타 데이터
- 데이터 사전
- 테이블 정의서
- 도메인 정의서
6. 빅데이터 저장 기술은 분산 파일 시스템, 데이터베이스 클러스터, NoSQL, 클라우드 파일 저장 시스템 등이 있다. 다음 중에서 NoSQL과 관련이 없는 도구는 다음 중 무엇인가?
- HBase
- Redis
- MySQL
- MongoDB
2과목 - 빅데이터 탐색
7. 다음 중 이상 값 검출에 대한 설명으로 적합하지 않은 것은?
- ESD는 평균으로부터 3 표준편차 떨어진 값을 이상 값으로 판단한다.
- 제1 사분위, 제3 사분위를 기준으로 사분위 간 범위의 1.5배 이상 떨어진 값을 이상 값으로 판단할 수 있다.
- 기하평균으로부터 1.5 표준편차 떨어진 값을 이상값으로 판단할 수 있다.
- 표준화 점수(Z-Score)를 활용하여 이상 값을 검출할 수 있다.
기하평균으로부터 2.5 표준편차 떨어진 값을 이상 값으로 판단
12. 반도체를 생산하는 회사에서 불량률을 관리하기 위해 임의로 100개를 추출하여 조사하였다. 그중 불량 난 반도체의 수를 X라 할 때, X의 기댓값이 10이면 X의 분산은 얼마인가?
- 9
- 0.1
- 0.9
- 1
이항 분포의 기댓값 공식 E(X) = np이므로 10 = 100 * p이다. 따라서 p는 0.1이 되고,
따라서 X의 분산은 V(X) = np(1-p)로 계산하면 된다.
16. 다음 중 피어슨 상관계수에 대한 설명으로 가장 옳지 않은 것은?
- 상관계수의 절댓값이 클수록 두 변수 간의 선형 관계가 강하다고 할 수 있다.
- 상관계수의 부호는 회귀계수의 기울기의 부호와 항상 같다.
- 상관계수의 값은 변수의 단위가 변경이 되면 영향을 받는다.
- 변수 간에 선형 관계가 있는지를 나타내는 통계량이다.
피어슨 상관계수의 값은 변수의 단위가 변경되어도 영향을 받지 않는다.
변수의 단위가 변경되면 영향받는 것? => 공분산
3과목 - 빅데이터 모델링
4. 다음 중 리프 중심(Leaf Wise) 트리 분할 방식을 사용하는 부스팅 알고리즘은?
- 랜덤 포레스트
- XGBoost
- Light GBM
- AdaBoost
랜덤 포레스트 : 베깅을 이용한 대표적인 알고리즘
XGBoost와 AdaBoost는 균형 트리(Level Wise) 분할 방식을 이용하는 부스팅 알고리즘
8. 인공 신경망에서 오차 역전파를 진행함에 따라 각 노드를 연결하는 가중치의 절댓값이 커져서 조정이 더 이상 힘든 문제는 다음 중 무엇인가?
- 포화(Saturation) 문제
- 지역 최적화 (Local Optimization) 문제
- 기울기 폭주(Gradient Exploding) 문제
- 장기 의존성(Long-Term Dependency) 문제
포화 문제 : 인공 신경망에서 오차 역전파를 진행함에 따라 각 노드를 연결하는 가중치의 절댓값이 켜져서 조정이 더 이상 힘들어 과소 적합이 발생하는 문제
지역 최적화 문제 : 단시간에 일부 탐색 영역 내에서 최적의 해를 찾아 전체 탐색 영역에서 최적의 해가 아닌 문제
기울기 폭주 문제 : 기울기 소실 문제의 반대의 경우로 기울기가 점차 커지다가 가중치들이 비정상적으로 큰 값이 되면서 발산하는 문제
장기 의존성 문제 : RNN에서 발생하는 문제로 현재 노드 위치와 먼 과거 상태를 사용한 문맥 처리가 어려운 문제
9. 다음 중 이산 확률분포의 종류로 적합하지 않은 것은?
- 포아송 분포
- 베르누이 분포
- 이항 분포
- 지수 분포
이산 확률분포 : 포베이
10. 다음 중 인공신경망에 대한 설명으로 가장 바람직하지 않은 것은?
- 은닉 노드의 수가 너무 적으면 네트워크가 복잡한 의사 결정 경계를 만들 수 없다.
- 시그모이드 함수는 기울기 소실 문제가 있다.
- 은닉층의 수와 은닉 노드의 수는 자동으로 결정된다.
- 은닉층의 수와 은닉 노드가 많으면 과대 적합이 발생할 수 있다.
은닉층의 수와 은닉 노드의 수는 초매개변수이다.
11. 다음 중 회귀모형의 가정인 정상성을 설명한 것으로 가장 적절하지 않은 것은?
- Q-Q plot에서 잔차가 대각 방향의 직선 형태를 띠면 잔차는 정규분포를 따른다고 할 수 있다.
- 더빗-왓슨 검정을 통해 통계량을 확인할 수 있다.
- 정상성은 잔차항이 정규분포의 형태를 이뤄야 한다는 특성이다.
- 샤피로-월크 검정을 통해 통계량을 확인할 수 있다.
회귀모형의 가정
- 독립성 : 더빗-왓슨 검정
- 정상성 : 샤피로-월크 검정 -> 잔차항이 정규분포의 형태를 이뤄야 함 -> Q-Q plot 대각방향 직선
13. 다음 중 서포트 벡터 머신에서 사용되는 커널 함수로 적절하지 않은 것은?
- 선형 커널
- 다항 커널
- 가우시안 RBF 커널
- ReLU
ReLU 함수는 시그모이드 함수의 기울기 소실 문제를 해결한 활성화 함수이다.
15. 다음이 설명하는 명목형 변수를 측정하는 거리로 적합한 것은?
- 두 집합 사이의 유사도를 측정하는 기법
- 0과 1 사이의 값을 가지며 두 집합이 동일하면 1의 값, 공통의 원소가 하나도 없다면 0의 값을 갖는다.
- 유클리드 거리
- 맨해튼 거리
- 자카드 계수
- 순위 상관계수
두 집합 사이의 유사도를 측정하는 기법은 자카드 계수임.
17. 자기 조직화 지도(SOM)에서 2차원 격자로 구성된 층으로 입력 벡터의 특성에 따라 벡터의 한 점으로 클러스터링 되는 층은 다음 중 무엇인가?
- 입력층
- 경쟁층
- 은닉층
- 출력층
SOM은 입력층과 경쟁층으로 나뉜다.
- 경쟁층 : 2차원 격자로 구성, 입력 벡터의 특성에 따라 한 점으로 클러스터링 되는 층
- SOM은 경쟁학습으로 각 뉴런이 입력 벡터와 얼마나 가까운가를 계산하여 연결 강도를 반복적으로 재조정하여 학습
4과목 - 빅데이터 결과 해석
14. 아래 오 분류표에 대한 F1-Score는 다음 중 무엇인가?
실제값\예측값 | True | False |
---|---|---|
True | 10 | 5 |
False | 5 | 10 |
- 1/3
- 2/3
- 1/2
- 1
'🎁 자격증 > 빅데이터처리기사' 카테고리의 다른 글
[ 빅데이터 처리 기사 필기 ] 혼동 행렬과 ROC 곡선 (2) | 2021.09.27 |
---|