🎁 자격증/빅데이터처리기사

[ 빅분기 Daily 문제 정리 ]

반응형

 

안녕하세요? 수구리입니다.

 

 

벌써 9월이 다 지나가고 10월이네요

 

 

다들 점점 쌀쌀해지는 날씨에 감기 조심하세요..!

 

 

코앞으로 다가온 빅 분기 3회 필기시험을 대비하기 위해서

 

 

이번 포스팅은 수제비 카페에 올라온 데일리 문제를 정리해보려고 합니다!

 

 

https://cafe.naver.com/soojebi

 

수제비- IT 커뮤니티 (정보처리기사... : 네이버 카페

수제비-수험생 입장에서 제대로 쓴 비법서(정보처리기사, 정보처리기능사, 빅데이터 분석기사 등 시리즈)

cafe.naver.com

 

 

 


1과목 - 빅데이터 분석 기획

1. 다음 중 데이터 거버넌스의 구성요소가 아닌 것은 무엇인가?

  1. 원칙
  2. 절차(Process)
  3. 조직
  4. 방법론 및 산출물

데이터 거버넌스의 구성요소 : 원 조 절(프)


2. 다음 중 데이터 분석 방법론의 구성 요소가 아닌 것은 무엇인가?

  1. 목적
  2. 절차
  3. 방법
  4. 템플릿과 산출물

데이터 분석 방법론의 구성요소
= 절차, 방법, 도구와 기법, 템플릿과 산출물




3. 분석 과제 운선순위 평가 기준으로 다음 괄호( ) 안에 들어갈 단어로 가장 적합한 것은 무엇인가?

  • 목표 가치와 전략적 중요도에 부합하는지에 따른 ( )이/가 가장 중요한 기준
  • ( )의 판단 기준은 전략적 중요도가 핵심사항
  1. ROI
  2. 용이성
  3. 시급성
  4. 난이도

 

 

5. 다음 중 데이터에 관한 구조화된 데이터로서 다른 데이터를 설명해주는 데이터는 무엇인가?

  1. 메타 데이터
  2. 데이터 사전
  3. 테이블 정의서
  4. 도메인 정의서

 

 

6. 빅데이터 저장 기술은 분산 파일 시스템, 데이터베이스 클러스터, NoSQL, 클라우드 파일 저장 시스템 등이 있다. 다음 중에서 NoSQL과 관련이 없는 도구는 다음 중 무엇인가?

  1. HBase
  2. Redis
  3. MySQL
  4. MongoDB

 

 

2과목 - 빅데이터 탐색

7. 다음 중 이상 값 검출에 대한 설명으로 적합하지 않은 것은?

  1. ESD는 평균으로부터 3 표준편차 떨어진 값을 이상 값으로 판단한다.
  2. 제1 사분위, 제3 사분위를 기준으로 사분위 간 범위의 1.5배 이상 떨어진 값을 이상 값으로 판단할 수 있다.
  3. 기하평균으로부터 1.5 표준편차 떨어진 값을 이상값으로 판단할 수 있다.
  4. 표준화 점수(Z-Score)를 활용하여 이상 값을 검출할 수 있다.

 

기하평균으로부터 2.5 표준편차 떨어진 값을 이상 값으로 판단


12. 반도체를 생산하는 회사에서 불량률을 관리하기 위해 임의로 100개를 추출하여 조사하였다. 그중 불량 난 반도체의 수를 X라 할 때, X의 기댓값이 10이면 X의 분산은 얼마인가?

  1. 9
  2. 0.1
  3. 0.9
  4. 1

이항 분포의 기댓값 공식 E(X) = np이므로 10 = 100 * p이다. 따라서 p는 0.1이 되고,
따라서 X의 분산은 V(X) = np(1-p)로 계산하면 된다.


16. 다음 중 피어슨 상관계수에 대한 설명으로 가장 옳지 않은 것은?

  1. 상관계수의 절댓값이 클수록 두 변수 간의 선형 관계가 강하다고 할 수 있다.
  2. 상관계수의 부호는 회귀계수의 기울기의 부호와 항상 같다.
  3. 상관계수의 값은 변수의 단위가 변경이 되면 영향을 받는다.
  4. 변수 간에 선형 관계가 있는지를 나타내는 통계량이다.

피어슨 상관계수의 값은 변수의 단위가 변경되어도 영향을 받지 않는다.

변수의 단위가 변경되면 영향받는 것? => 공분산


3과목 - 빅데이터 모델링

4. 다음 중 리프 중심(Leaf Wise) 트리 분할 방식을 사용하는 부스팅 알고리즘은?

  1. 랜덤 포레스트
  2. XGBoost
  3. Light GBM
  4. AdaBoost

 

랜덤 포레스트 : 베깅을 이용한 대표적인 알고리즘

XGBoost와 AdaBoost는 균형 트리(Level Wise) 분할 방식을 이용하는 부스팅 알고리즘


8. 인공 신경망에서 오차 역전파를 진행함에 따라 각 노드를 연결하는 가중치의 절댓값이 커져서 조정이 더 이상 힘든 문제는 다음 중 무엇인가?

  1. 포화(Saturation) 문제
  2. 지역 최적화 (Local Optimization) 문제
  3. 기울기 폭주(Gradient Exploding) 문제
  4. 장기 의존성(Long-Term Dependency) 문제

 

포화 문제 : 인공 신경망에서 오차 역전파를 진행함에 따라 각 노드를 연결하는 가중치의 절댓값이 켜져서 조정이 더 이상 힘들어 과소 적합이 발생하는 문제

지역 최적화 문제 : 단시간에 일부 탐색 영역 내에서 최적의 해를 찾아 전체 탐색 영역에서 최적의 해가 아닌 문제

기울기 폭주 문제 : 기울기 소실 문제의 반대의 경우로 기울기가 점차 커지다가 가중치들이 비정상적으로 큰 값이 되면서 발산하는 문제

장기 의존성 문제 : RNN에서 발생하는 문제로 현재 노드 위치와 먼 과거 상태를 사용한 문맥 처리가 어려운 문제

 

9. 다음 중 이산 확률분포의 종류로 적합하지 않은 것은?

  1. 포아송 분포
  2. 베르누이 분포
  3. 이항 분포
  4. 지수 분포

이산 확률분포 : 포베이

10. 다음 중 인공신경망에 대한 설명으로 가장 바람직하지 않은 것은?

  1. 은닉 노드의 수가 너무 적으면 네트워크가 복잡한 의사 결정 경계를 만들 수 없다.
  2. 시그모이드 함수는 기울기 소실 문제가 있다.
  3. 은닉층의 수와 은닉 노드의 수는 자동으로 결정된다.
  4. 은닉층의 수와 은닉 노드가 많으면 과대 적합이 발생할 수 있다.

 

은닉층의 수와 은닉 노드의 수는 초매개변수이다.

11. 다음 중 회귀모형의 가정인 정상성을 설명한 것으로 가장 적절하지 않은 것은?

  1. Q-Q plot에서 잔차가 대각 방향의 직선 형태를 띠면 잔차는 정규분포를 따른다고 할 수 있다.
  2. 더빗-왓슨 검정을 통해 통계량을 확인할 수 있다.
  3. 정상성은 잔차항이 정규분포의 형태를 이뤄야 한다는 특성이다.
  4. 샤피로-월크 검정을 통해 통계량을 확인할 수 있다.

 

회귀모형의 가정

- 독립성 : 더빗-왓슨 검정
- 정상성 : 샤피로-월크 검정 -> 잔차항이 정규분포의 형태를 이뤄야 함 -> Q-Q plot 대각방향 직선

 

13. 다음 중 서포트 벡터 머신에서 사용되는 커널 함수로 적절하지 않은 것은?

  1. 선형 커널
  2. 다항 커널
  3. 가우시안 RBF 커널
  4. ReLU

 

ReLU 함수는 시그모이드 함수의 기울기 소실 문제를 해결한 활성화 함수이다.


15. 다음이 설명하는 명목형 변수를 측정하는 거리로 적합한 것은?

  • 두 집합 사이의 유사도를 측정하는 기법
  • 0과 1 사이의 값을 가지며 두 집합이 동일하면 1의 값, 공통의 원소가 하나도 없다면 0의 값을 갖는다.
  1. 유클리드 거리
  2. 맨해튼 거리
  3. 자카드 계수
  4. 순위 상관계수

두 집합 사이의 유사도를 측정하는 기법은 자카드 계수임.



17. 자기 조직화 지도(SOM)에서 2차원 격자로 구성된 층으로 입력 벡터의 특성에 따라 벡터의 한 점으로 클러스터링 되는 층은 다음 중 무엇인가?

  1. 입력층
  2. 경쟁층
  3. 은닉층
  4. 출력층

 

SOM은 입력층과 경쟁층으로 나뉜다.
- 경쟁층 : 2차원 격자로 구성, 입력 벡터의 특성에 따라 한 점으로 클러스터링 되는 층
- SOM은 경쟁학습으로 각 뉴런이 입력 벡터와 얼마나 가까운가를 계산하여 연결 강도를 반복적으로 재조정하여 학습

 

 

4과목 - 빅데이터 결과 해석

14. 아래 오 분류표에 대한 F1-Score는 다음 중 무엇인가?

실제값\예측값 True False
True 10 5
False 5 10
  1. 1/3
  2. 2/3
  3. 1/2
  4. 1

 

 

반응형