이 페이지는 무료 시험 덤프 자료 [ http://exams.dumpsmaterials.com ]에서 가져온 것입니다. 내보내기 날짜 :수 12 4 18:53:46 2024 / +0000 GMT ___________________________________________________ 제목: 구글 클라우드 공인 자격증 시험 문제 및 답변 [Q41-Q64]을 위한 전문가-데이터 엔지니어 덤프로 연습하기 --------------------------------------------------- Professional-Data-Engineer 덤프로 Google Cloud 공인 인증 시험 문제 및 답변 연습 100% 환불 보증을 제공하는 실제 Professional-Data-Engineer 시험 문제 Google Professional-Data-Engineer 시험은 데이터 엔지니어링을 전문으로하는 전문가에게 Google에서 제공하는 인증입니다. 전문 데이터 엔지니어 시험은 데이터 처리 시스템, 데이터 모델링, 데이터 거버넌스 및 데이터 변환에 대한 응시자의 이해도를 테스트하기 위해 고안되었습니다. Google 공인 데이터 엔지니어 시험 인증은 응시자가 Google Cloud Platform의 데이터 엔지니어링 기술에 대한 전문 지식과 효과적인 데이터 솔루션을 설계 및 개발할 수 있는 능력을 검증하는 것을 목표로 합니다. Q41. 타임스탬프 및 ID 열에 WHERE 절을 사용하여 BigQuery 테이블을 필터링하는 쿼리가 있습니다. bq 쿼리 - -dry_run을 사용하면 타임스탬프 및 ID의 필터가 전체 데이터의 아주 작은 부분을 선택하더라도 쿼리가 테이블의 전체 스캔을 트리거한다는 것을 알게 됩니다. 기존 SQL 쿼리를 최소한으로 변경하여 BigQuery에서 스캔하는 데이터의 양을 줄이고 싶습니다. 어떻게 해야 할까요? 각 ID에 대해 별도의 테이블을 만듭니다. LIMIT 키워드를 사용하여 반환되는 행 수를 줄입니다. 파티셔닝 열과 클러스터링 열을 사용하여 테이블을 다시 만듭니다. 청구되는 바이트 수를 제한하려면 bq 쿼리 - -maximum_bytes_billed 플래그를 사용합니다. Q42. 조직의 마케팅 팀에서 고객 데이터 집합의 세그먼트에 대한 정기 업데이트를 제공하며, 마케팅 팀에서 BigQuery에서 업데이트해야 하는 1백만 개의 레코드가 포함된 CSV를 제공했습니다. BigQuery에서 UPDATE 문을 사용할 때 쿼터 초과 오류가 발생합니다. 어떻게 해야 하나요? 매일 업데이트되는 레코드 수를 줄여 BigQuery UPDATE DML 문 한도 내에서 유지합니다. Google Cloud Platform 콘솔의 할당량 관리 섹션에서 BigQuery UPDATE DML 문 제한을 늘립니다. 소스 CSV 파일을 클라우드 저장소에서 더 작은 CSV 파일로 분할하여 BigQuery 작업당 BigQuery UPDATE DML 문 수를 줄입니다. CSV 파일에서 새 레코드를 새 BigQuery 테이블로 가져옵니다. 새 레코드를 기존 레코드와 병합하고 결과를 새 BigQuery 테이블에 쓰는 BigQuery 작업을 만듭니다. https://cloud.google.com/blog/products/gcp/performing-large-scale-mutations-in-bigqueryQ43. 다음 중 와이드 및 딥 러닝 모델에 대한 설명 중 참은 어느 것입니까? (정답 2개를 선택하세요.) 와이드 모델은 암기에 사용되며 딥 모델은 일반화에 사용됩니다. 와이드 모델과 딥 모델의 좋은 용도는 추천 시스템입니다. 와이드 모델은 일반화에 사용되는 반면 딥 모델은 암기에 사용됩니다. 와이드 모델과 딥 모델의 좋은 용도는 소규모 선형 회귀 문제입니다. 설명암기와 일반화의 힘을 결합하여 컴퓨터가 인간처럼 학습하도록 가르칠 수 있을까요? 대답하기 쉬운 질문은 아니지만, 광역 선형 모델(암기용)과 심층 신경망(일반화용)을 함께 훈련하면 두 가지의 강점을 결합하여 한 걸음 더 다가갈 수 있습니다. Google에서는 이를 와이드 & 딥러닝이라고 부릅니다. 추천 시스템, 검색 및 순위 문제와 같이 희소 입력(가능한 특징값이 많은 범주형 특징)이 있는 일반적인 대규모 회귀 및 분류 문제에 유용합니다.참조: https://research.googleblog.com/2016/06/wide-deep-learning-better-together-with.htmlQ44. BigQuery에서 실행되도록 ETL 작업을 마이그레이션한 후에는 마이그레이션된 작업의 출력이 원본의 출력과 동일한지 확인해야 합니다. 원래 작업의 출력이 포함된 테이블을 로드하고 그 내용을 마이그레이션된 작업의 출력과 비교하여 동일한지 확인하려고 합니다. 테이블에 비교를 위해 함께 조인할 수 있는 기본 키 열이 포함되어 있지 않은데 어떻게 해야 하나요? RAND() 함수를 사용하여 테이블에서 무작위 샘플을 선택하고 샘플을 비교합니다. HASH() 함수를 사용하여 테이블에서 임의의 샘플을 선택하고 샘플을 비교합니다. Dataproc 클러스터와 BigQuery Hadoop 커넥터를 사용하여 각 테이블에서 데이터를 읽고 정렬 후 테이블의 타임스탬프가 아닌 열에서 해시를 계산합니다. 각 테이블의 해시를 비교합니다. OVER() 함수를 사용하여 계층화된 무작위 샘플을 생성하고 각 테이블의 동등한 샘플을 비교합니다. 이 옵션으로 전체 비교를 하고 나머지는 샘플에 대한 비교로 모든 데이터가 정상인지 확인하지 않습니다.Q45. 클라우드 빅테이블 성능 저하의 타당한 이유가 아닌 것은 무엇인가요? 워크로드가 Cloud Bigtable에 적합하지 않습니다. 테이블의 스키마가 올바르게 설계되지 않았습니다. Cloud Bigtable 클러스터에 노드 수가 너무 많습니다. 네트워크 연결에 문제가 있습니다. 설명 Cloud Bigtable 클러스터에 노드가 충분하지 않습니다. Cloud Bigtable 클러스터에 과부하가 걸린 경우 노드를 더 추가하면 성능이 향상될 수 있습니다. 모니터링 도구를 사용하여 클러스터가 과부하되었는지 확인하세요.참조: https://cloud.google.com/bigtable/docs/performanceQ46. 클라우드 스토리지에 데이터를 보관하려고 합니다. 일부 데이터는 매우 민감하기 때문에 클라우드 제공업체 직원이 데이터를 해독하지 못하도록 '아무도 신뢰하지 않음(TNO)' 방식을 사용하여 데이터를 암호화하려고 합니다. 어떻게 해야 하나요? 대칭 키를 만들려면 gcloud kms 키 생성을 사용하세요. 그런 다음 gcloud kms encrypt를 사용하여 이 키와 고유한 추가 인증 데이터(AAD)로 각 보관 파일을 암호화합니다. gsutil cp를 사용하여 암호화된 각 파일을 클라우드 스토리지 버킷에 업로드하고 AAD를 Google 클라우드 외부에 보관합니다. gcloud kms keys create를 사용하여 대칭 키를 만듭니다. 그런 다음 gcloud kms encrypt를 사용하여 이 키로 각 보관 파일을 암호화합니다. gsutil cpt를 사용하여 암호화된 각 파일을 클라우드 스토리지 버킷에 업로드하고, 이전에 암호화에 사용된 키를 수동으로 파기하고 키를 한 번 회전합니다. .botoconfiguration 파일에 고객 제공 암호화 키(CSEK)를 지정합니다. gsutil cpt를 사용하여 각 아카이브 파일을 클라우드 스토리지 버킷에 업로드합니다. 클라우드 메모리스토어에 CSEK를 비밀의 영구 저장소로 저장합니다. .botoconfiguration 파일에 고객 제공 암호화 키(CSEK)를 지정합니다. gsutil cpt를 사용하여 각 보관 파일을 클라우드 스토리지 버킷에 업로드합니다. 보안팀만 액세스할 수 있는 다른 프로젝트에 CSEK를 저장합니다. Q47. 휴대용 스캐너를 사용하여 배송 라벨을 판독하는 배송 회사에서 일하고 있습니다. 회사에는 스캐너가 수신자의 개인 식별 정보(PII)만 분석 시스템으로 전송하도록 하는 엄격한 데이터 개인정보 보호 표준이 있으며, 이는 사용자 개인정보 보호 규칙을 위반하는 것입니다. 클라우드 네이티브 관리형 서비스를 사용하여 확장 가능한 솔루션을 신속하게 구축하여 분석 시스템에 PII가 노출되지 않도록 하려면 어떻게 해야 할까요? 민감한 데이터가 있는 테이블에 대한 액세스를 제한하기 위해 BigQuery에서 권한이 부여된 보기를 만듭니다. Compute Engine 가상 머신에 타사 데이터 유효성 검사 도구를 설치하여 들어오는 데이터에 민감한 정보가 있는지 확인합니다. Stackdriver 로깅을 사용하여 전체 파이프라인을 통해 전달되는 데이터를 분석하여 민감한 정보를 포함할 수 있는 트랜잭션을 식별합니다. 주제를 읽고 클라우드 데이터 손실 방지 API를 호출하는 클라우드 함수를 빌드하고, 태깅 및 신뢰 수준을 사용하여 검토를 위해 데이터를 버킷에 전달하거나 격리하세요. Q48. 날씨 앱은 15분마다 데이터베이스를 쿼리하여 현재 온도를 가져옵니다. 프런트엔드는 Google 앱 엔진으로 구동되며 수백만 명의 사용자를 서버로 지원합니다. 데이터베이스 장애에 대응하기 위해 프런트엔드를 어떻게 설계해야 하나요? 데이터베이스 서버를 다시 시작하는 명령을 실행합니다. 최대 15분까지 기하급수적인 백오프를 사용하여 쿼리를 다시 시도합니다. 온라인 상태가 될 때까지 매초마다 쿼리를 다시 시도하여 데이터의 유실을 최소화합니다. 데이터베이스가 다시 온라인 상태가 될 때까지 쿼리 빈도를 1시간에 한 번으로 줄이세요. 설명/참조:Q49. 회사의 고객 및 주문 데이터베이스는 종종 과부하 상태입니다. 이로 인해 운영에 영향을 주지 않으면서 분석을 수행하기가 어렵습니다. 데이터베이스는 MySQL 클러스터에 있으며, mysqldump를 사용하여 야간 백업을 수행합니다. 운영에 미치는 영향을 최소화하면서 분석을 수행하려면 어떻게 해야 하나요? MySQL 클러스터에 노드를 추가하고 거기에 OLAP 큐브를 구축합니다. ETL 도구를 사용하여 MySQL의 데이터를 Google BigQuery로 로드합니다. 온프레미스 Apache Hadoop 클러스터를 MySQL에 연결하고 ETL을 수행합니다. Google Cloud SQL에 백업을 마운트한 다음 Google Cloud Dataproc을 사용하여 데이터를 처리합니다. Q50. 클라우드 스토리지에 기록 데이터를 저장합니다. 기록 데이터에 대한 분석을 수행해야 합니다. 잘못된 데이터 항목을 감지하고 프로그래밍이나 SQL에 대한 지식이 필요 없는 데이터 변환을 수행하는 솔루션을 사용하고 싶은데 어떻게 해야 하나요? Beam과 함께 Cloud Dataflow를 사용하여 오류를 감지하고 변환을 수행하세요. Cloud Dataprep를 레시피와 함께 사용하여 오류를 감지하고 변환을 수행하세요. 오류를 감지하고 변환을 수행하려면 Hadoop 작업과 함께 Cloud Dataproc을 사용하세요. BigQuery의 페더레이션 테이블을 쿼리와 함께 사용하여 오류를 감지하고 변환을 수행합니다. Q51. 다음 중 데이터 흐름 파이프라인에 대해 사실이 아닌 것은 무엇입니까? 파이프라인은 일련의 작업입니다. 파이프라인은 데이터 처리 작업을 나타냅니다. 파이프라인은 단계의 방향성 그래프를 나타냅니다. 파이프라인은 인스턴스 간에 데이터를 공유할 수 있습니다. 파이프라인의 데이터와 변환은 해당 파이프라인에 고유하며 해당 파이프라인이 소유합니다. 프로그램에서 여러 파이프라인을 만들 수는 있지만 파이프라인은 데이터나 변환을 공유할 수 없습니다Q52. 사용자가 원하는 음식을 예측하는 머신 러닝 기반 음식 주문 서비스를 위한 데이터베이스 스키마를 설계하고 있습니다. 저장해야 할 몇 가지 정보는 다음과 같습니다. 사용자 프로필: 사용자가 좋아하는 음식과 싫어하는 음식사용자 계정 정보: 이름, 주소, 선호하는 식사 시간주문 정보: 언제, 어디서, 누구에게 주문했는지 데이터베이스는 제품의 모든 트랜잭션 데이터를 저장하는 데 사용됩니다. 데이터 스키마를 최적화하려고 합니다. 어떤 Google Cloud Platform 제품을 사용해야 하나요? BigQuery Cloud SQL Cloud Bigtable Cloud Datastore Q53. Cloud Bigtable은 매우 많은 양의____________________________? 지연 시간이 매우 긴 다중 키 데이터 지연 시간이 매우 짧은 다중 키 데이터 지연 시간이 매우 짧은 단일 키 데이터 지연 시간이 매우 긴 단일 키 데이터 설명클라우드 빅테이블은 수십억 개의 행과 수천 개의 열로 확장할 수 있어 테라바이트 또는 페타바이트의 데이터를 저장할 수 있는 드문드문 채워진 테이블입니다. 각 행의 단일 값이 인덱싱되며, 이 값을 행 키라고 합니다. 클라우드 빅테이블은 매우 짧은 지연 시간으로 매우 많은 양의 단일 키 데이터를 저장하는 데 이상적입니다. 짧은 지연 시간으로 높은 읽기 및 쓰기 처리량을 지원하며, MapReduce 작업에 이상적인 데이터 소스입니다.참조: https://cloud.google.com/bigtable/docs/overviewQ54. 다음 중 레거시 SQL과 표준 SQL에 대한 설명 중 사실이 아닌 것은 무엇입니까? 표준 SQL은 BigQuery에 선호되는 쿼리 언어입니다. 레거시 SQL로 쿼리를 작성한 경우, 표준 SQL로 실행하려고 하면 오류가 발생할 수 있습니다. 두 쿼리 언어의 한 가지 차이점은 정규화된 테이블 이름(즉, 연결된 프로젝트 이름이 포함된 테이블 이름)을 지정하는 방법입니다. 각 데이터 집합에 대해 쿼리 언어를 설정해야 하며 기본값은 표준 SQL입니다. 각 데이터 집합에 대해 쿼리 언어를 설정하지 않습니다. 쿼리를 실행할 때마다 쿼리 언어가 설정되며 기본 쿼리 언어는 레거시 SQL입니다. 레거시 SQL에서는 프로젝트 한정 이름이 있는 테이블을 쿼리하려면 콜론(:)을 구분 기호로 사용합니다. 표준 SQL에서는 마침표인 . 대신 마침표를 사용합니다.두 쿼리 언어 간의 구문 차이(예: 프로젝트 한정 테이블 이름)로 인해 레거시 SQL로 쿼리를 작성하는 경우 표준 SQL로 실행하려고 하면 오류가 발생할 수 있습니다.참조: https://cloud.google.com/bigquery/docs/reference/standard-sql/migrating-from-legacy-sqlQ55. Google Cloud의 데이터 파이프라인을 위해 Cloud Pub/Sub에서 BigQuery로 JSON 메시지를 작성하고 변환할 서비스를 선택하고 있습니다. 서비스 비용을 최소화하려고 합니다. 또한 최소한의 수동 개입으로 크기가 달라지는 입력 데이터 볼륨을 모니터링하고 수용하고자 합니다. 어떻게 해야 할까요? Cloud Dataproc을 사용해 변환을 실행하세요. 클러스터의 CPU 사용률을 모니터링합니다. 명령줄을 통해 클러스터의 작업자 노드 수를 조정합니다. Cloud Dataproc을 사용하여 변환을 실행합니다. 진단 명령을 사용해 운영 출력 아카이브를 생성합니다. 병목 현상을 찾아 클러스터 리소스를 조정하세요. Cloud Dataflow를 사용해 변환을 실행하세요. Stackdriver로 작업 시스템 지연을 모니터링하세요. 워커 인스턴스에 대해 기본 자동 확장 설정을 사용하세요. 클라우드 데이터흐름을 사용하여 변환을 실행하세요. 작업 샘플링에 대한 총 실행 시간을 모니터링하고, 필요한 경우 기본값이 아닌 컴퓨팅 엔진 머신 유형을 사용하도록 작업을 구성합니다. 설명Q56. 의류 추천을 위한 모델을 구축하고 있습니다. 사용자의 패션 취향이 시간이 지남에 따라 바뀔 가능성이 높다는 것을 알고 있으므로 새 데이터를 사용할 수 있게 되면 모델에 다시 스트리밍하는 데이터 파이프라인을 구축합니다. 이 데이터를 어떻게 사용하여 모델을 학습시켜야 할까요? 새로운 데이터로만 모델을 지속적으로 재학습시킵니다. 기존 데이터와 새 데이터의 조합으로 모델을 지속적으로 재학습합니다. 새 데이터를 테스트 집합으로 사용하면서 기존 데이터에 대해 훈련합니다. 기존 데이터를 테스트 집합으로 사용하면서 새 데이터에 대해 학습합니다. Q57. 사례 연구 1 - 플로우로지스틱회사 개요플로우로지스틱은 선도적인 물류 및 공급망 제공업체입니다. 전 세계 기업들이 자원을 관리하고 최종 목적지까지 운송할 수 있도록 지원합니다. 이 회사는 철도, 트럭, 항공기, 해상 운송으로 서비스를 확장하며 빠르게 성장했습니다.회사 배경이 회사는 지역 트럭 운송 회사로 시작한 후 다른 물류 시장으로 확장했는데, 인프라를 업데이트하지 않아 주문과 배송을 관리하고 추적하는 것이 병목 현상이 발생했습니다. 플로우로지스틱은 운영을 개선하기 위해 소포 수준에서 실시간으로 배송을 추적하는 독자적인 기술을 개발했습니다. 하지만 아파치 카프카 기반의 기술 스택이 처리량을 감당할 수 없어 이를 배포할 수 없었습니다. 또한 플로우로지스틱은 주문과 배송을 추가로 분석하여 리소스를 가장 잘 배포하는 방법을 결정하고자 합니다.솔루션 개념플로우로지스틱은 클라우드를 사용하여 다음과 같은 두 가지 개념을 구현하고자 합니다.* 화물 위치를 나타내는 실시간 재고 추적 시스템에 독점 기술을 사용* 정형 및 비정형 데이터가 모두 포함된 모든 주문과 배송 로그에 대한 분석을 수행하여 리소스를 가장 잘 배포하는 방법, 정보를 확장할 시장을 결정하기 위해. 또한 예측 분석을 사용하여 배송이 지연되는 시기를 조기에 파악하고자 합니다.기존 기술 환경플로로지스틱 아키텍처는 단일 데이터 센터에 상주합니다:* 데이터베이스2개 클러스터의 물리적 서버 8개 - SQL Server - 사용자 데이터, 재고, 정적 데이터3개 물리적 서버 - Cassandra - 메타데이터, 추적 메시지 10개 Kafka 서버 - 추적 메시지 집계 및 일괄 삽입* 애플리케이션 서버 - 고객 프런트엔드, 주문/통관용 미들웨어20대의 물리적 서버에 걸쳐 60대의 가상 머신- Tomcat - Java 서비스-Nginx - 정적 콘텐츠- 배치 서버* 스토리지 어플라이언스- 가상 머신(VM) 호스트용 iSCSI- 파이버 채널 저장 영역 네트워크(FC SAN)- SQL 서버 스토리지- 네트워크 연결 스토리지(NAS) 이미지 스토리지, 로그, 백업* 10대의 Apache Hadoop/Spark 서버- 코어 데이터 레이크- 데이터 분석 워크로드* 20대의 기타 서버- 젠킨스, 모니터링, 바스티온 호스트,비즈니스 요구사항* 확장된 생산 팬티로 안정적이고 재현 가능한 환경을 구축하세요.* 중앙 집중식 데이터 레이크에서 데이터를 집계하여 분석* 과거 데이터를 사용하여 향후 배송에 대한 예측 분석 수행* 독점 기술을 사용하여 전 세계 모든 배송을 정확하게 추적* 새로운 리소스의 신속한 프로비저닝을 통해 비즈니스 민첩성과 혁신 속도 향상* 클라우드에서 성능을 위해 아키텍처 분석 및 최적화* 다른 모든 요구 사항이 충족되면 클라우드로 완전히 마이그레이션기술적 요구 사항* 스트리밍 및 배치 데이터 모두 처리* 기존 Hadoop 워크로드 마이그레이션* 아키텍처가 회사의 변경 요구 사항에 맞게 확장 가능하고 탄력적으로 유지되도록 보장합니다.* 가능한 경우 관리형 서비스 사용* 데이터 전송 및 미사용 데이터 암호화* 프로덕션 데이터 센터와 클라우드 환경 간에 VPN 연결 SEO 설명 우리는 너무 빠르게 성장하여 인프라를 업그레이드할 수 없어 더 큰 성장과 효율성을 저해하고 있습니다. 전 세계로 배송물을 이동하는 데는 효율적이지만 데이터를 이동하는 데는 비효율적입니다. 고객이 어디에 있고 무엇을 배송하는지 더 쉽게 이해할 수 있도록 정보를 정리해야 합니다.CTO 진술 IT는 우리에게 우선 순위가 아니었기 때문에 데이터가 증가하면서 기술에 충분히 투자하지 못했습니다. IT를 관리하는 훌륭한 직원이 있지만 인프라 관리에 너무 바빠서 데이터 정리, 분석 구축, CFO의 추적 기술 구현 방법 파악 등 정말 중요한 일을 할 수 없었습니다.CFO 진술우리의 경쟁력 중 하나는 배송 및 배송이 늦어지면 스스로에게 불이익을 준다는 점입니다. 배송이 항상 어디에 있는지 파악하는 것은 수익과 수익성에 직접적인 상관관계가 있습니다. 또한 서버 환경을 구축하는 데 자본을 투입하고 싶지 않아서 플로우로지스틱에서 실시간 재고 추적 시스템을 출시하고 있습니다. 추적 장치는 모두 패키지 추적 메시지를 전송하며, 이제 Apache Kafka 클러스터 대신 단일 Google Cloud Pub/Sub 토픽으로 이동합니다. 그러면 구독자 애플리케이션이 실시간 보고를 위해 메시지를 처리하고 기록 분석을 위해 Google BigQuery에 저장합니다. 시간이 지남에 따라 패키지 데이터를 분석할 수 있도록 하려면 어떤 접근 방식을 취해야 하나요? Cloud Pub/Sub 구독자 애플리케이션에서 각 메시지가 수신될 때 타임스탬프를 첨부합니다. 각 퍼블리셔 디바이스의 아웃바운드 메시지가 Clod Pub/Sub로 전송될 때 타임스탬프와 패키지 ID를 첨부합니다. BigQuery의 NOW () 함수를 사용하여 이벤트의 시간을 기록합니다. Cloud Pub/Sub에서 자동으로 생성된 타임스탬프를 사용하여 데이터를 주문합니다. Q58. MJTelco 사례 연구회사 개요MJTelco는 전 세계적으로 빠르게 성장하고 있는 소외된 시장에 네트워크를 구축하려는 스타트업으로, 혁신적인 광통신 하드웨어에 대한 특허를 보유하고 있습니다. 이 특허를 기반으로 저렴한 하드웨어로 안정적인 고속 백본 링크를 많이 만들 수 있습니다.회사 배경경험 많은 통신 경영진이 설립한 MJTelco는 원래 우주에서의 통신 문제를 극복하기 위해 개발된 기술을 사용합니다. 운영의 기본은 실시간 분석을 주도하고 머신 러닝을 통합하여 토폴로지를 지속적으로 최적화하는 분산형 데이터 인프라를 구축하는 것입니다. 하드웨어가 저렴하기 때문에 역동적인 지역 정치가 위치 가용성과 비용에 미치는 영향을 고려할 수 있도록 네트워크를 오버플로할 계획이며, 관리 및 운영 팀이 전 세계에 위치하여 시스템에서 데이터 소비자와 공급자 간의 다대다 관계를 형성하고 있습니다. 신중한 검토 끝에 퍼블릭 클라우드가 이러한 요구 사항을 지원하는 완벽한 환경이라고 판단했습니다.솔루션 개념MJTelco는 실험실에서 성공적인 개념 증명(PoC) 프로젝트를 실행하고 있습니다. 50,000개 이상의 설치로 늘어날 때 생성되는 훨씬 더 많은 데이터 흐름을 지원하기 위해 PoC를 확장하고 강화합니다.* 토폴로지 정의를 제어하는 데 사용하는 동적 모델을 검증하고 개선하기 위해 머신 러닝 주기를 개선합니다.* 또한 실험 실행, 새로운 기능 배포, 운영 고객 서비스 등의 요구를 충족하기 위해 개발/테스트, 스테이징, 프로덕션의 3가지 운영 환경을 별도로 사용합니다.MJTelco는 실험을 실행하고 새로운 기능을 배포하고 운영 고객에게 서비스를 제공하는 데 필요한 세 가지 요구 사항을 충족할 것입니다.비즈니스 요구 사항* 최소한의 비용으로 프로덕션 환경을 확장하여 예측할 수 없는 분산된 통신 사용자 커뮤니티에서 필요할 때와 장소에 리소스를 인스턴스화합니다.* 독점 데이터의 보안을 보장하여 최첨단 머신 러닝 및 분석을 보호합니다.분산된 연구 인력으로부터 분석용 데이터에 대한 안정적이고 시기적절한 액세스 제공* 고객에게 영향을 주지 않고 머신러닝 모델의 신속한 반복을 지원하는 격리된 환경 유지* 원격 측정 데이터의 안전하고 효율적인 전송 및 저장 보장* 인스턴스를 빠르게 확장하여 각각 여러 흐름을 가진 10,000~100,000개의 데이터 공급자를 지원* 기술 요구 사항.* 하루 약 1억 개의 레코드를 저장하는 최대 2년간의 데이터를 추적하는 데이터 테이블에 대한 분석 및 프레젠테이션 가능* 원격 측정 흐름과 프로덕션 학습 주기 모두에서 데이터 파이프라인 문제 인식에 초점을 맞춘 모니터링 인프라의 신속한 반복 지원최고 경영자 성명 우리의 비즈니스 모델은 특허, 분석 및 동적 머신 러닝에 의존합니다. 우리의 저렴한 하드웨어는 매우 안정적으로 구성되어 있어 비용 이점을 제공합니다. 안정성과 용량 약속을 충족하기 위해 대규모 분산 데이터 파이프라인을 신속하게 안정화해야 합니다.CTO 성명퍼블릭 클라우드 서비스는 광고된 대로 작동해야 합니다. 데이터를 안전하게 보호하면서 확장할 수 있는 리소스가 필요합니다. 또한 데이터 과학자들이 신중하게 연구하고 모델을 신속하게 조정할 수 있는 환경이 필요합니다. 데이터 처리를 위해 자동화에 의존하기 때문에 반복 작업을 수행할 수 있는 개발 및 테스트 환경도 필요합니다.CFO 진술프로젝트가 너무 커서 데이터 및 분석에 필요한 하드웨어와 소프트웨어를 유지 관리할 수 없습니다. 또한 수많은 데이터 피드를 모니터링하기 위해 운영팀에 인력을 배치할 여유가 없으므로 자동화와 인프라에 의존할 것입니다. Google Cloud의 머신 러닝을 통해 정량적 연구자들은 데이터 파이프라인의 문제 대신 가치가 높은 문제를 해결할 수 있습니다.* 운영팀을 위한 시각화는 다음 요건을 충족하여 작성해야 합니다.* 보고서에는 가장 최근 6주 동안의 모든 50,000개의 설치(1분마다 1회 샘플링) 원격 측정 데이터가 포함되어야 합니다.* 보고서는 실시간 데이터로부터 3시간 이상 지연되지 않아야 함.* 실행 가능한 보고서는 차선책 링크만 표시해야 함.* 대부분의 차선책 링크는 맨 위에 정렬되어야 함.* 차선책 링크는 지역별로 그룹화하고 필터링할 수 있음.* 보고서를 로드하는 사용자 응답 시간은 5초 미만이어야 함.어떤 접근 방식이 요구 사항을 충족할까요? 데이터를 Google 스프레드시트에 로드하고, 수식을 사용하여 메트릭을 계산하고, 필터/소팅을 사용하여 테이블에 최적이 아닌 링크만 표시합니다. 데이터를 Google BigQuery 테이블에 로드하고, 데이터를 쿼리하고, 메트릭을 계산하고, Google 스프레드시트의 테이블에 최적이 아닌 행만 표시하는 Google 앱 스크립트를 작성합니다. 데이터를 Google 클라우드 데이터스토어 테이블에 로드하고, 모든 행을 쿼리하고, 함수를 적용하여 지표를 도출한 다음, Google 차트 및 시각화 API를 사용하여 결과를 테이블에 렌더링하는 Google 앱 엔진 애플리케이션을 작성합니다. Google BigQuery 테이블에 데이터를 로드하고, 데이터에 연결하여 지표를 계산한 다음 필터 표현식을 사용하여 테이블에 최적이 아닌 행만 표시하는 Google 데이터 스튜디오 360 보고서를 작성합니다. Q59. Compute Engine 가상 머신(n2 표준 -32)의 TensorFlow 머신 러닝 모델에서 프레이밍을 완료하는 데 이틀이 걸립니다. 이 모델에는 CPU에서 부분적으로 실행되어야 하는 사용자 지정 TensorFlow 연산이 있습니다. 비용 효율적인 방식으로 학습 시간을 줄이고 싶습니다. 어떻게 해야 할까요? VM 유형을 n2-highmem-32로 변경합니다. VM 유형을 e2 standard-32로 변경합니다. GPU 하드웨어 가속기가 있는 VM을