전문 데이터 엔지니어 덤프 PDF 2023 프로그램 준비 시험 성공 [Q95-Q111]


이 게시물 평가하기

전문 데이터 엔지니어 덤프 PDF 2023 프로그램 당신의 준비 시험 성공

프리미엄 전문가-데이터 엔지니어 덤프로 완벽한 결과를 얻으세요 270개 질문이 업데이트되었습니다.

새 질문 95
다음 중 BigQuery 웹 UI에서 수행할 수 있는 작업은 무엇인가요?

 
 
 
 

새 질문 96
다음 중 기능 엔지니어링 기술이란 무엇인가요? (정답 2개 선택)

 
 
 
 

새 질문 97
회사에서 쉼표로 구분된 값(CSV) 파일을 Google BigQuery로 로드하고 있습니다. 데이터는 완전히 성공적으로 가져왔지만 가져온 데이터가 소스 파일과 바이트 단위로 일치하지 않습니다.
이 문제의 가장 유력한 원인은 무엇인가요?

 
 
 
 

새 질문 98
귀사는 연말연시 시즌 동안 실시간 데이터를 분석하여 다양한 혜택을 제공하는 첫 번째 동적 캠페인을 실행하고 있습니다. 데이터 과학자들은 30일간의 캠페인 기간 동안 매시간 빠르게 증가하는 테라바이트 규모의 데이터를 수집하고 있습니다. 이들은 데이터를 전처리하고 Google Cloud Bigtable에서 머신 러닝 모델에 필요한 기능(신호) 데이터를 수집하기 위해 Google Cloud Dataflow를 사용하고 있습니다. 이 팀은 초기 10TB의 데이터에 대한 읽기 및 쓰기로 인해 최적의 성능이 저하되는 것을 관찰하고 있습니다.
a. 비용을 최소화하면서 이 성능을 개선하고 싶습니다. 어떻게 해야 할까요?

 
 
 
 

새 질문 99
조직에서 6개월 동안 Google BigQuery에서 데이터를 수집하고 분석해 왔습니다. 분석된 데이터의 대부분은 events_partitioned라는 시간 분할 테이블에 배치되어 있습니다. 쿼리 비용을 줄이기 위해 조직에서는 지난 14일간의 데이터만 쿼리하는 events라는 뷰를 만들었습니다. 이 뷰는 레거시 SQL에 설명되어 있습니다. 다음 달에는 기존 애플리케이션이 ODBC 연결을 통해 이벤트 데이터를 읽기 위해 BigQuery에 연결할 것입니다. 애플리케이션이 연결할 수 있는지 확인해야 합니다. 다음 중 어떤 두 가지 조치를 취해야 하나요? (두 가지를 선택하세요.)

 
 
 
 
 

새 질문 100
최상의 성능을 위해 컴퓨팅 엔진 인스턴스 및 클라우드 빅테이블 인스턴스에 권장되는 영역은 무엇인가요?

 
 
 
 

새로운 질문 101
클라우드 스토리지에 데이터를 보관하려고 합니다. 일부 데이터는 매우 민감하기 때문에 클라우드 제공업체 직원이 데이터를 해독하지 못하도록 '아무도 신뢰하지 않음(TNO)' 방식을 사용하여 데이터를 암호화하려고 합니다. 어떻게 해야 하나요?

 
 
 
 

새 질문 102
MySQL을 사용하여 Cloud SQL을 배포할 계획입니다. 영역 장애 발생 시 고가용성을 보장해야 합니다. 어떻게 해야 하나요?

 
 
 
 

새 질문 103
Google Cloud에서 새 파이프라인을 만들어 Cloud Pub/Sub에서 Cloud Dataflow를 통해 BigQuery로 IoT 데이터를 스트리밍하려고 합니다. 데이터를 미리 보는 동안 약 2%의 데이터가 손상된 것으로 보입니다. 이 손상된 데이터를 필터링하기 위해 Cloud 데이터 흐름 파이프라인을 수정해야 합니다. 어떻게 해야 하나요?

 
 
 
 

새 질문 104
사례 연구 1 - 플로우로지스틱
회사 개요
플로우로지스틱은 선도적인 물류 및 공급망 제공업체입니다. 전 세계 기업이 자원을 관리하고 최종 목적지까지 운송할 수 있도록 지원합니다. 이 회사는 빠르게 성장하여 철도, 트럭, 항공기, 해상 운송으로 서비스를 확장하고 있습니다.
회사 배경
이 회사는 지역 트럭 운송 회사로 시작한 후 다른 물류 시장으로 사업을 확장했습니다.
인프라를 업데이트하지 않았기 때문에 주문과 배송을 관리하고 추적하는 것이 병목 현상이 발생했습니다. 플로우로지스틱은 운영을 개선하기 위해 소포 수준에서 실시간으로 배송을 추적하는 독자적인 기술을 개발했습니다. 하지만 아파치 카프카 기반의 기술 스택이 처리량을 감당할 수 없어 이를 배포할 수 없었습니다. 또한 플로우로지스틱은 주문과 배송을 추가로 분석하여 리소스를 가장 잘 배치하는 방법을 결정하고자 합니다.
솔루션 개념
플로우로지스틱은 클라우드를 사용하여 두 가지 개념을 구현하고자 합니다:
* 실시간 재고 추적 시스템에서 독점 기술을 사용하여 적재 위치를 표시합니다.
* 정형 및 비정형 데이터가 모두 포함된 모든 주문 및 배송 로그에 대한 분석을 수행하여 리소스를 가장 잘 배치하는 방법과 정보를 확장할 시장을 결정합니다. 또한 예측 분석을 사용하여 배송이 지연되는 시기를 더 일찍 파악하고자 합니다.
기존 기술 환경
플로우로지스틱 아키텍처는 단일 데이터 센터에 상주합니다:
* 데이터베이스
2개의 클러스터에 8개의 물리적 서버
- SQL Server - 사용자 데이터, 인벤토리, 정적 데이터
물리적 서버 3개
- 카산드라 - 메타데이터, 메시지 추적
10개의 Kafka 서버 - 추적 메시지 집계 및 배치 삽입
* 애플리케이션 서버 - 고객 프런트엔드, 주문/통관용 미들웨어
20개의 물리적 서버에서 60개의 가상 머신
- Tomcat - Java 서비스
- Nginx - 정적 콘텐츠
- 배치 서버
* 스토리지 어플라이언스
- 가상 머신(VM) 호스트용 iSCSI
- 파이버 채널 스토리지 영역 네트워크(FC SAN) - SQL 서버 스토리지
- NAS(네트워크 연결 스토리지) 이미지 스토리지, 로그, 백업
* 10개의 Apache Hadoop/Spark 서버
- 핵심 데이터 레이크
- 데이터 분석 워크로드
* 기타 서버 20개
- 젠킨스, 모니터링, 바스티온 호스트,
비즈니스 요구 사항
* 확장된 생산 팬티로 안정적이고 재현 가능한 환경을 구축하세요.
* 분석을 위해 중앙 집중식 데이터 레이크에서 데이터 집계
* 과거 데이터를 사용하여 향후 배송에 대한 예측 분석 수행
* 독점 기술을 사용하여 전 세계 모든 배송을 정확하게 추적합니다.
* 새로운 리소스의 신속한 프로비저닝을 통한 비즈니스 민첩성 및 혁신 속도 향상
* 클라우드에서 성능을 위한 아키텍처 분석 및 최적화
* 다른 모든 요구 사항이 충족되는 경우 클라우드로 완전히 마이그레이션하세요.
기술 요구 사항
* 스트리밍 및 배치 데이터 모두 처리
* 기존 Hadoop 워크로드 마이그레이션
* 변화하는 회사의 요구 사항을 충족할 수 있도록 아키텍처의 확장성과 탄력성을 보장합니다.
* 가능하면 관리형 서비스 사용
* 비행 중 및 미사용 데이터 암호화
* 프로덕션 데이터 센터와 클라우드 환경 사이에 VPN 연결 SEO 선언문 우리는 너무 빠르게 성장하여 인프라를 업그레이드할 수 없어 더 큰 성장과 효율성을 저해하고 있습니다. 전 세계로 배송물을 이동하는 데는 효율적이지만 데이터를 이동하는 데는 비효율적입니다.
고객이 어디에 있고 무엇을 배송하는지 더 쉽게 파악할 수 있도록 정보를 체계적으로 정리해야 합니다.
CTO 성명서
IT는 우리에게 우선순위가 아니었기 때문에 데이터가 증가함에 따라 기술에 충분히 투자하지 못했습니다. IT를 관리하는 훌륭한 직원이 있지만 인프라 관리에 너무 바빠서 데이터 정리, 분석 구축, CFO의 추적 기술 구현 방법 파악 등 정말 중요한 업무에 집중할 수 없었습니다.
CFO 성명서
우리의 경쟁 우위 중 하나는 배송 및 배송 지연에 대한 불이익을 감수한다는 점입니다. 배송이 항상 어디에 있는지 파악하는 것은 수익과 수익성에 직접적인 상관관계가 있습니다. 또한 서버 환경을 구축하는 데 자본을 투입하고 싶지 않습니다.
Flowlogistic의 CEO는 영업팀이 현장에서 더 나은 정보를 제공할 수 있도록 고객 기반에 대한 신속한 인사이트를 얻고자 합니다. 이 팀은 기술에 능숙하지 않기 때문에 BigQuery 보고서 작성을 간소화하기 위해 시각화 도구를 구입했습니다. 그러나 테이블에 있는 모든 데이터에 압도되어 필요한 데이터를 찾기 위해 쿼리에 많은 시간을 소비하고 있습니다. 가장 비용 효율적인 방법으로 문제를 해결하고 싶습니다. 어떻게 해야 할까요?

 
 
 
 

새 질문 105
최근 가격 기록을 기반으로 특정 주식의 가격을 예측하는 머신 러닝 모델을 만들려면 어떤 유형의 추정기를 사용해야 하나요?

 
 
 
 

새 질문 106
애플리케이션 이벤트를 게시/서브 토픽에 게시하는 파이프라인을 설계하고 있습니다. 분석을 위해 BigQuery에 결과를 로드하기 전에 시간별 간격으로 이벤트를 집계해야 합니다. 솔루션은 확장성이 있어야 대량의 이벤트를 처리하고 BigQuery에 로드할 수 있습니다. 어떻게 해야 하나요?

 
 
 
 

새 질문 107
BigQuery에서 테이블을 비정규화하는 데 사용할 수 있는 두 가지 방법에는 어떤 것이 있나요?

 
 
 
 

새 질문 108
Google Cloud에서 데이터 파이프라인을 위한 대용량 텍스트 파일용 스토리지를 설계하고 있습니다. ANSI SQL 쿼리를 지원하려고 합니다. 또한 Google 권장 사례를 사용하여 입력 위치에서 압축 및 병렬 로드를 지원하려고 합니다. 어떻게 해야 하나요?

 
 
 
 

새 질문 109
데이터플로우가 배치 데이터 파이프라인 또는 스트리밍 데이터 파이프라인을 처리하나요?

 
 
 
 

새 질문 110
Google Cloud의 데이터 파이프라인을 위해 Cloud Pub/Sub에서 BigQuery로 JSON 메시지를 작성하고 변환할 서비스를 선택하려고 합니다. 서비스 비용을 최소화하고자 합니다. 또한 최소한의 수동 개입으로 크기가 달라지는 입력 데이터 볼륨을 모니터링하고 수용하고자 합니다. 어떻게 해야 할까요?

 
 
 
 

새 질문 111
신경망이 범주형 기능에서 범주 간의 관계를 학습하도록 하려면 어떻게 해야 하나요?

 
 
 
 

전문 데이터 엔지니어 PDF 덤프 매우 빠른 준비 방법: https://www.dumpsmaterials.com/Professional-Data-Engineer-real-torrent.html

         

댓글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

아래 이미지에서 텍스트를 입력합니다.