이 페이지는 무료 시험 덤프 자료 [ http://exams.dumpsmaterials.com ]에서 가져온 것입니다. 내보내기 날짜:Thu Dec 5 2:11:01 2024 / +0000 GMT ___________________________________________________ Title: 프로페셔널-데이터 엔지니어 덤프 PDF 2023 프로그램 준비 시험 성공 [Q95-Q111] --------------------------------------------------- Professional-Data-Engineer 덤프 PDF 2023 프로그램 당신의 준비 시험 성공 270 개의 질문이 업데이트 된 프리미엄 Professional-Data-Engineer 덤프로 완벽한 결과를 얻으십시오. 새로운 질문 95다음 중 BigQuery 웹 UI에서 수행할 수 있는 작업은 무엇입니까? SQL 형식의 파일을 업로드합니다. 중첩 및 반복 필드가 있는 데이터를 로드합니다. 20MB 파일을 업로드합니다. 와일드카드를 사용하여 여러 파일을 업로드합니다. 웹 UI를 사용하여 중첩 및 반복 필드가 있는 데이터를 로드할 수 있습니다.웹 UI를 사용할 수 없는 작업은 :- 크기가 10MB보다 큰 파일 업로드- 여러 파일을 동시에 업로드- SQL 형식의 파일 업로드 위의 세 가지 작업은 모두 "bq" 명령을 사용하여 수행할 수 있습니다.참조: https://cloud.google.com/bigquery/loading-dataNEW 질문 96다음 중 기능 엔지니어링 기술이란 무엇입니까? (정답 2개 선택) 숨겨진 기능 레이어 기능 우선 순위 지정 교차 피처 열 연속 피처의 버킷화 설명효과적인 모델을 학습하려면 올바른 특징 열 집합을 선택하고 만드는 것이 핵심이며, 버킷화는 연속 특징의 전체 범위를 연속된 구간차원/버킷 집합으로 나눈 다음 해당 값이 어느 버킷에 속하는지에 따라 원래 숫자 특징을 버킷 ID로 변환하는 과정으로, 각 기본 특징 열을 개별적으로 사용하면 데이터를 설명하기에 충분하지 않을 수 있습니다. 서로 다른 기능 조합 간의 차이점을 알아보기 위해 교차 기능 열을 모델에 추가할 수 있습니다.참조:https://www.tensorflow.org/tutorials/wide#selecting_and_engineering_features_for_the_modelNEW 질문 97회사에서 쉼표로 구분된 값(CSV) 파일을 Google BigQuery에 로드하고 있습니다. 데이터는 완전히 성공적으로 가져왔지만 가져온 데이터가 소스 파일과 바이트 단위로 일치하지 않습니다. 이 문제의 가장 가능성이 높은 원인은 무엇인가요? BigQuery에 로드된 CSV 데이터가 CSV로 플래그가 지정되지 않았습니다. 가져올 때 건너뛴 유효하지 않은 행이 CSV 데이터에 있습니다. BigQuery에 로드된 CSV 데이터가 BigQuery의 기본 인코딩을 사용하지 않습니다. CSV 데이터가 BigQuery에 로드되기 전에 ETL 단계를 거치지 않았습니다. Bigquery는 UTF-8 인코딩 이외의 인코딩은 스키마에 데이터 문제가 발생할 수 있음을 알고 있습니다.새로운 질문 98귀사는 휴가 시즌 동안 실시간 데이터를 분석하여 다양한 오퍼를 제공하는 첫 번째 동적 캠페인을 실행하고 있습니다. 데이터 과학자들은 30일간의 캠페인 기간 동안 매시간 빠르게 증가하는 테라바이트 규모의 데이터를 수집하고 있습니다. 이들은 데이터를 전처리하고 Google Cloud Bigtable에서 머신 러닝 모델에 필요한 기능(신호) 데이터를 수집하기 위해 Google Cloud Dataflow를 사용하고 있습니다. 이 팀은 초기 10TB의 데이터에 대한 읽기 및 쓰기에서 최적이 아닌 성능을 관찰하고 있습니다. 이 팀은 비용을 최소화하면서 이 성능을 개선하고자 합니다. 어떻게 해야 할까요? 테이블의 행 공간 전체에 읽기 및 쓰기를 균등하게 분산하여 스키마를 재정의합니다. 이 성능 문제는 시간이 지남에 따라 BigDate 클러스터의 사이트가 증가함에 따라 해결될 것입니다. 클러스터에서 자주 업데이트해야 하는 값을 식별하기 위해 단일 행 키를 사용하도록 스키마를 재설계합니다. 오퍼를 보는 사용자당 순차적으로 증가하는 숫자 ID를 기반으로 행 키를 사용하도록 스키마를 다시 디자인합니다. 새로운 질문 99귀사의 조직은 6개월 동안 Google BigQuery에서 데이터를 수집하고 분석해 왔습니다. 분석된 데이터의 대부분은 events_partitioned라는 시간 분할 테이블에 배치되어 있습니다. 쿼리 비용을 줄이기 위해 조직에서는 지난 14일간의 데이터만 쿼리하는 events라는 뷰를 만들었습니다. 이 뷰는 레거시 SQL에 설명되어 있습니다. 다음 달에는 기존 애플리케이션이 ODBC 연결을 통해 이벤트 데이터를 읽기 위해 BigQuery에 연결할 것입니다. 애플리케이션이 연결할 수 있는지 확인해야 합니다. 다음 중 어떤 두 가지 조치를 취해야 하나요? (두 가지를 선택하세요.) 표준 SQL을 사용하여 이벤트에 대한 새 보기 만들기 표준 SQL 쿼리를 사용하여 분할된 새 테이블 만들기 표준 SQL을 사용하여 이벤트_파티션에 대한 새 뷰 만들기 인증에 사용할 ODBC 연결에 대한 서비스 계정 만들기 ODBC 연결 및 공유 '이벤트'에 대한 Google Cloud IAM(클라우드 ID 및 액세스 관리) 역할 만들기 새로운 질문 100최상의 성능을 위해 Compute Engine 인스턴스 및 Cloud Bigtable 인스턴스에 권장되는 영역은 무엇인가요? 컴퓨팅 엔진 인스턴스는 클라우드 빅테이블 인스턴스에서 가장 먼 영역에 배치하는 것이 좋습니다. 컴퓨트 엔진 인스턴스와 클라우드 빅테이블 인스턴스를 모두 다른 영역에 두세요. 컴퓨트 엔진 인스턴스와 클라우드 빅테이블 인스턴스가 모두 같은 영역에 있어야 합니다. 모든 데이터 소비자와 동일한 영역에 Cloud Bigtable 인스턴스가 있어야 합니다. 최상의 성능을 위해 Cloud Bigtable 인스턴스와 동일한 영역에 Compute Engine 인스턴스를 생성하는 것이 좋으며, 동일한 영역에 인스턴스를 생성할 수 없는 경우 동일한 리전 내의 다른 영역에 인스턴스를 생성해야 합니다. 예를 들어, Cloud Bigtable 인스턴스가 us-central1-b에 있는 경우, us-central1-f에 인스턴스를 생성할 수 있습니다. 이렇게 변경하면 각 Cloud Bigtable 요청에 대해 몇 밀리초의 추가 지연 시간이 발생할 수 있으며, 각 Cloud Bigtable 요청에 수백 밀리초의 지연 시간이 추가될 수 있으므로 Cloud Bigtable 인스턴스와 다른 리전에 Compute Engine 인스턴스를 생성하지 않는 것이 좋습니다.새로운 질문 101클라우드 스토리지에 데이터를 보관하고 싶습니다. 일부 데이터는 매우 민감하기 때문에 클라우드 제공업체 직원이 데이터를 해독하지 못하도록 데이터를 암호화하는 '아무도 신뢰하지 않음'(TNO) 방식을 사용하려고 합니다. 어떻게 해야 하나요? 대칭 키를 만들려면 gcloud kms 키 생성을 사용하세요. 그런 다음 gcloud kms encrypt를 사용하여 이 키와 고유한 추가 인증 데이터(AAD)로 각 보관 파일을 암호화합니다. gsutil cp를 사용하여 암호화된 각 파일을 클라우드 스토리지 버킷에 업로드하고 AAD를 Google 클라우드 외부에 보관합니다. gcloud kms keys create를 사용하여 대칭 키를 만듭니다. 그런 다음 gcloud kms encrypt를 사용하여 이 키로 각 보관 파일을 암호화합니다. gsutil cpt를 사용하여 암호화된 각 파일을 클라우드 스토리지 버킷에 업로드하고, 이전에 암호화에 사용된 키를 수동으로 파기하고 키를 한 번 회전합니다. .botoconfiguration 파일에 고객 제공 암호화 키(CSEK)를 지정합니다. gsutil cpt를 사용하여 각 아카이브 파일을 클라우드 스토리지 버킷에 업로드합니다. 클라우드 메모리스토어에 CSEK를 비밀의 영구 저장소로 저장합니다. .botoconfiguration 파일에 고객 제공 암호화 키(CSEK)를 지정합니다. gsutil cpt를 사용하여 각 보관 파일을 클라우드 스토리지 버킷에 업로드합니다. 보안 팀만 액세스할 수 있는 다른 프로젝트에 CSEK를 저장하세요. 새 질문 102MySQL을 사용하여 Cloud SQL을 배포할 계획입니다. 영역 장애 발생 시 고가용성을 보장해야 합니다. 어떻게 해야 하나요? 한 영역에 Cloud SQL 인스턴스를 만들고, 같은 지역 내의 다른 영역에 장애 조치 복제본을 만드세요. 한 영역에 Cloud SQL 인스턴스를 생성하고, 같은 리전 내의 다른 영역에 읽기 복제본을 생성합니다. 한 영역에서 Cloud SQL 인스턴스를 생성하고 다른 영역의 영역에 외부 읽기 복제본을 구성합니다. 한 리전에서 Cloud SQL 인스턴스를 생성하고, 같은 리전의 클라우드 스토리지 버킷에 자동 백업을 구성합니다. https://cloud.google.com/sql/docs/mysql/high-availabilityNEW 질문 103Google Cloud에서 새 파이프라인을 만들어 Cloud Pub/Sub에서 Cloud Dataflow를 통해 BigQuery로 IoT 데이터를 스트리밍하려고 합니다. 데이터를 미리 보는 동안 약 2%의 데이터가 손상된 것으로 보입니다. 이 손상된 데이터를 필터링하기 위해 Cloud 데이터 흐름 파이프라인을 수정해야 합니다. 어떻게 해야 할까요? 요소가 손상된 경우 부울을 반환하는 SideInput을 추가합니다. 클라우드 데이터 흐름에 ParDo 트랜스폼을 추가하여 손상된 요소를 삭제합니다. 클라우드 데이터 흐름에 Partition 트랜스폼을 추가하여 유효한 데이터와 손상된 데이터를 분리합니다. 클라우드 데이터 흐름에 GroupByKey 트랜스폼을 추가하여 모든 유효한 데이터를 함께 그룹화하고 나머지는 삭제합니다. 새로운 질문 104사례 연구 1 - Flowlogistic회사 개요Flowlogistic은 선도적인 물류 및 공급망 제공업체입니다. 전 세계 기업들이 자원을 관리하고 최종 목적지까지 운송할 수 있도록 지원합니다. 이 회사는 철도, 트럭, 항공기, 해상 운송으로 서비스를 확장하며 빠르게 성장했습니다.회사 배경이 회사는 지역 트럭 운송 회사로 시작한 후 다른 물류 시장으로 확장했으며, 인프라를 업데이트하지 않아 주문과 배송을 관리하고 추적하는 것이 병목 현상이 발생했습니다. 플로우로지스틱은 운영을 개선하기 위해 소포 수준에서 실시간으로 배송을 추적하는 독자적인 기술을 개발했습니다. 하지만 아파치 카프카 기반의 기술 스택이 처리량을 감당할 수 없어 이를 배포할 수 없었습니다. 또한 플로우로지스틱은 주문과 배송을 추가로 분석하여 리소스를 가장 잘 배포하는 방법을 결정하고자 합니다.솔루션 개념플로우로지스틱은 클라우드를 사용하여 다음과 같은 두 가지 개념을 구현하고자 합니다.* 적재 위치를 나타내는 실시간 재고 추적 시스템에 독점 기술을 사용* 정형 및 비정형 데이터가 모두 포함된 모든 주문과 배송 로그에 대한 분석을 수행하여 리소스 배포 방법, 정보를 확장할 시장을 결정하기 위해. 또한 예측 분석을 사용하여 배송이 지연되는 시기를 조기에 파악하고자 합니다.기존 기술 환경플로로지스틱 아키텍처는 단일 데이터 센터에 상주합니다:* 데이터베이스2개 클러스터의 물리적 서버 8개 - SQL Server - 사용자 데이터, 재고, 정적 데이터3개 물리적 서버 - Cassandra - 메타데이터, 추적 메시지 10개 Kafka 서버 - 추적 메시지 집계 및 일괄 삽입* 애플리케이션 서버 - 고객 프런트엔드, 주문/통관용 미들웨어20대의 물리적 서버에 걸쳐 60대의 가상 머신- Tomcat - Java 서비스-Nginx - 정적 콘텐츠- 배치 서버* 스토리지 어플라이언스- 가상 머신(VM) 호스트용 iSCSI- 파이버 채널 저장 영역 네트워크(FC SAN)- SQL 서버 스토리지- 네트워크 연결 스토리지(NAS) 이미지 스토리지, 로그, 백업* 10대의 Apache Hadoop/Spark 서버- 코어 데이터 레이크- 데이터 분석 워크로드* 20대의 기타 서버- 젠킨스, 모니터링, 바스티온 호스트,비즈니스 요구사항* 확장된 생산 팬티로 안정적이고 재현 가능한 환경을 구축하세요.* 중앙 집중식 데이터 레이크에서 데이터를 집계하여 분석* 과거 데이터를 사용하여 향후 배송에 대한 예측 분석 수행* 독점 기술을 사용하여 전 세계 모든 배송을 정확하게 추적* 새로운 리소스의 신속한 프로비저닝을 통해 비즈니스 민첩성과 혁신 속도 향상* 클라우드에서 성능을 위해 아키텍처 분석 및 최적화* 다른 모든 요구 사항이 충족되면 클라우드로 완전히 마이그레이션기술 요구 사항* 스트리밍 및 배치 데이터 모두 처리* 기존 Hadoop 워크로드 마이그레이션* 아키텍처가 회사의 변경 요구 사항에 맞게 확장 가능하고 탄력적으로 유지되도록 보장합니다.* 가능한 경우 관리형 서비스 사용* 데이터 전송 및 미사용 데이터 암호화* 프로덕션 데이터 센터와 클라우드 환경 간에 VPN 연결 SEO 설명 우리는 너무 빠르게 성장하여 인프라를 업그레이드할 수 없어 더 큰 성장과 효율성을 저해하고 있습니다. 전 세계로 배송물을 이동하는 데는 효율적이지만 데이터를 이동하는 데는 비효율적입니다. 고객이 어디에 있고 무엇을 배송하는지 더 쉽게 이해할 수 있도록 정보를 정리해야 합니다.CTO 진술 IT는 우리에게 우선 순위가 아니었기 때문에 데이터가 증가하면서 기술에 충분히 투자하지 못했습니다. IT를 관리하는 훌륭한 직원이 있지만 인프라 관리에 너무 바빠서 데이터 정리, 분석 구축, CFO의 추적 기술 구현 방법 파악 등 정말 중요한 일을 할 수 없었습니다.CFO 진술우리의 경쟁력 중 하나는 배송 및 배송이 늦어지면 불이익을 받는다는 점입니다. 배송이 항상 어디에 있는지 파악하는 것은 수익과 수익성에 직접적인 상관관계가 있습니다. 또한 서버 환경을 구축하는 데 자본을 투입하고 싶지 않습니다. Flowlogistic의 CEO는 영업팀이 현장에서 더 나은 정보를 제공할 수 있도록 고객 기반에 대한 신속한 인사이트를 얻고 싶어 합니다. 이 팀은 기술적인 지식이 많지 않기 때문에 BigQuery 보고서 작성을 간소화하기 위해 시각화 도구를 구입했습니다. 하지만 테이블에 있는 모든 데이터에 압도되어 필요한 데이터를 찾기 위해 쿼리에 많은 시간을 소비하고 있습니다. 가장 비용 효율적인 방법으로 문제를 해결하고 싶습니다. 어떻게 해야 할까요? 가상화를 위해 데이터를 Google 스프레드시트로 내보내세요. 필요한 열만 있는 추가 테이블을 만듭니다. 테이블에 가상화 도구에 표시할 뷰를 만듭니다. 해당 열에 ID 및 액세스 관리(IAM) 역할을 만들어 해당 역할만 쿼리에 표시되도록 합니다. 새로운 질문 105최근 가격 기록을 기반으로 특정 주식의 가격을 예측하는 머신 러닝 모델을 만들려면 어떤 유형의 추정기를 사용해야 하나요? 비지도 학습 회귀자 분류기 클러스터링 추정기 회귀는 연속적인 숫자 변수를 모델링하고 예측하기 위한 지도 학습 작업입니다. 예를 들면 부동산 가격, 주가 변동 또는 학생의 시험 점수 예측 등이 있으며, 분류는 범주형 변수를 모델링하고 예측하기 위한 지도 학습 작업입니다. 예를 들면 직원 이탈, 이메일 스팸, 금융 사기, 학생의 편지 성적 예측 등이 있으며, 클러스터링은 데이터 세트 내의 고유한 구조를 기반으로 자연스러운 관찰 그룹(즉, 군집)을 찾기 위한 비지도 학습 작업입니다. 고객 세분화, 전자상거래에서 유사한 항목 그룹화, 소셜 네트워크 분석 등이 그 예입니다.참조: https://elitedatascience.com/machine-learning-algorithmsNEW 질문 106애플리케이션 이벤트를 게시/서브 토픽에 게시하는 파이프라인을 설계하고 있습니다. 분석을 위해 BigQuery에 결과를 로드하기 전에 시간별 간격으로 이벤트를 집계해야 합니다. 솔루션은 확장성이 있어야 대량의 이벤트를 처리하고 BigQuery에 로드할 수 있습니다. 어떻게 해야 할까요? 스트리밍 데이터 흐름 작업을 만들어 게시/서브 주제에서 지속적으로 읽고 텀블링 창을 사용하여 필요한 집계를 수행합니다. 일괄 데이터 흐름 작업이 매시간 실행되도록 예약하여 Pub-Sub 항목에서 사용 가능한 모든 메시지를 가져오고 필요한 집계를 수행합니다. 클라우드 함수가 매시간 실행되도록 예약하여, 게시/서브 주제에서 회피 가능한 모든 메시지를 가져오고 필요한 집계를 수행합니다. 새 메시지가 토픽에 게시될 때마다 게시/서브 트리거를 사용하여 실행되는 필요한 데이터 처리를 수행하는 클라우드 함수를 만듭니다. 새로운 질문 107BigQuery에서 테이블을 비정규화하는 데 사용할 수 있는 두 가지 방법은 무엇인가요? 1) 테이블을 여러 테이블로 분할; 2) 분할된 테이블 사용 1) 테이블을 하나의 테이블로 조인, 2) 중첩된 반복 필드 사용 1) 분할된 테이블 사용, 2) 테이블을 하나의 테이블로 조인하기 1) 중첩된 반복 필드 사용; 2) 파티션된 테이블 사용 데이터를 비정규화하는 기존의 방법에는 단순히 모든 차원과 함께 사실을 평면 테이블 구조에 쓰는 것이 포함됩니다. 예를 들어, 판매 거래를 다루는 경우, 주문 및 고객 정보와 같은 수반되는 차원과 함께 각 개별 사실을 레코드에 기록합니다.데이터를 비정규화하는 다른 방법은 JSON 또는 Avro 입력 데이터에서 중첩 및 반복 구조에 대한 BigQuery의 기본 지원을 활용합니다. 중첩 및 반복 구조를 사용하여 레코드를 표현하면 기본 데이터를 보다 자연스럽게 표현할 수 있습니다. 판매 주문의 경우 JSON 구조의 외부 부분에는 주문 및 고객 정보가 포함되고 구조의 내부 부분에는 주문의 개별 라인 항목이 중첩되고 반복되는 요소로 표현됩니다.새로운 질문 108Google Cloud의 데이터 파이프라인을 위해 매우 큰 텍스트 파일용 스토리지를 설계하고 있습니다. ANSI SQL 쿼리를 지원하려고 합니다. 또한 Google 권장 사례를 사용하여 입력 위치에서 압축 및 병렬 로드를 지원하려고 합니다. 어떻게 해야 하나요? Cloud Dataflow를 사용하여 텍스트 파일을 압축된 Avro로 변환합니다. 저장 및 쿼리에는 BigQuery를 사용합니다. 클라우드 데이터 플로우를 사용하여 텍스트 파일을 압축 Avro로 변환합니다. 쿼리를 위해 클라우드 스토리지 및 BigQuery 영구 링크 테이블을 사용합니다. 그리드 컴퓨팅 도구를 사용하여 텍스트 파일을 gzip으로 압축합니다. 저장 및 쿼리에 BigQuery를 사용합니다. 그리드 컴퓨팅 도구를 사용하여 텍스트 파일을 gzip으로 압축합니다. 클라우드 스토리지를 사용한 다음 쿼리를 위해 클라우드 빅테이블로 가져옵니다. 병렬 파이프라인은 압축된 형식과 데이터 플로우를, 저장소는 빅쿼리를 사용합니다.새로운 질문 109데이터 플로우는 배치 데이터 파이프라인을 처리하나요 아니면 스트리밍 데이터 파이프라인을 처리하나요? 배치 데이터 파이프라인만 배치 데이터 파이프라인 및 스트리밍 데이터 파이프라인 모두 스트리밍 데이터 파이프라인만 모두 없음 설명 데이터 흐름은 통합 처리 모델이며 스트리밍 및 배치 데이터 파이프라인을 모두 실행할 수 있습니다. 참조: https://cloud.google.com/dataflow/NEW 질문 110Google Cloud의 데이터 파이프라인을 위해 Cloud Pub/Sub에서 BigQuery로 JSON 메시지를 쓰고 변환할 서비스를 선택하고 있습니다. 서비스 비용을 최소화하려고 합니다. 또한 최소한의 수동 개입으로 크기가 달라지는 입력 데이터 볼륨을 모니터링하고 수용하고자 합니다. 어떻게 해야 할까요? Cloud Dataproc을 사용해 변환을 실행하세요. 클러스터의 CPU 사