數據湖(Data Lake)概念近年日益盛行,不少成功企業都透過建立自己的數據湖,分析數據從而作出更佳決策,為公司創造更多商業價值。本次研討會將會介紹如何在AWS上輕鬆建立數據湖,以及利用一整套AWS工具作出有效分析。
所謂數據湖,是一個集中的數據儲存庫,讓你儲存所有結構化和非結構化數據,以供處理、分析及傳輸。相對傳統以硬件伺服器(on-premises)儲存資料,在雲端上建立數據湖更具彈性,而且數據規模可以任意擴展。
以美國金融業監管局(FINRA)為例,其負責監管美國眾多經紀公司,以保護投資者和維持市場誠信。透過遷移到AWS,FINRA建立了可因應市場動態變化的彈性數據湖,同時利用一系列AWS工具以分析資料。至今其數據湖規模已經達到20 PB,每日可收集及分析高達750億筆交易記錄,此龐大規模是傳統資料儲存方法無法比擬。
事實上,建立數據湖的成本十分相宜,以Amazon S3的雲存儲服務為例,每月價格可低至0.023美元/GB,相當於每月少於2毫港元/GB。AWS目前亦有提供各類分析工具以供選擇,包括 Amazon EMR 和 AWS Glue;以及資料讀取工具如 Amazon Athena、Amazon Redshift Spectrum、Amazon S3 Select 和 Amazon Glacier Select等。