点击展开

行业资讯

湖仓协同全面赋能数智融合大数据领域步入应用创新深化期
2022-08-28 08:47:29 | 来源:火狐体育官方登录开户 作者:火狐体育直播吧

  沙利文联合头豹研究院发布《2021年中国数据管理解决方案市场报告》,该报告以数据仓库、数据湖、智能湖仓系列产品为核心研究对象,研究周期为2021年全年。本研究项目将对数据管理解决方案在金融、互联网、零售、文娱、电信、能源、物流、交通、制造、能源、医疗、政务等领域的市场动向、前沿技术、企业需求、竞争态势等信息进行重点梳理,并从价值创造、技术发展维度出发对市场发展前景做出推测或预判。

  同时,从存储、数据准备、机器学习、数据分析、流程编排、兼容性、查询与计算性能、灾备建设、服务支持、开源与产业链生态、数据服务场景解决方案等多维度衡量业内企业2021年竞争综合实力。沙利文联合头豹研究院将持续关注中国数据管理解决方案市场,捕捉竞争动态。

  湖仓一体进一步取消了用户的选型困难,为用户提供的数据管理平台兼具数据仓库的结构和治理优点与数据湖的扩展性和为机器学习提供的便利性

  大数据(Big Data)在字面上的理解是海量数据,但这个角度是抽象的。在网络信息时代,大数据产生的客观意义并不在于其宏大的数据规模,而在于如何数据进行专业存储和处理,并从中挖掘和提取所需要的知识价值。

  技术突破通常来源于市场对产品的实质需求,互联网、云、AI的不断发展与大数据技术融合满足了商业需求。在大数据产业中,降低存储成本、提升计算速度、对数据进行多维度的分析加工、赋能企业利用数据价值,是大数据产业实现盈利的关键,也是大数据技术蓬勃发展的根源。

  大数据技术的内涵伴随着传统信息技术和数据应用的发展不断演进,而大数据技术体系的核心始终是面向海量数据的存储、计算、处理等基础技术。

  在大数据技术发展的60多年之间,数据应用经历了互联网、移动互联网蓬勃的发展与需求变革。数据库与数据仓库基于事务分析处理等传统优势依然是当前信息技术的中流砥柱,但也在日益增长的数据复杂度需求以及海量弹性的数据规模面前难以匹配。

  分布式架构的突破与云计算的兴起奠定了数据湖的概念,湖仓一体则进一步取消了用户的选型困难,为用户提供的数据管理平台兼具数据仓库的结构和治理优点与数据湖的扩展性和为机器学习提供的便利。

  数据仓库与数据湖作为两个单独的数据管理范式都具备成熟的技术积累,在长期实践中两者以湖+仓的混合架构方式共同存在:数据湖用作对原始数据的提取和处理,同时依赖数据仓库在数据管道的发布。

  在用户反馈中,湖+仓的混合架构存在着使Hadoop和MPP共存下的数据冗余、两个系统间ETL造成的低时效性、一致性保障及运维等方面的困难。

  在用户需求的驱动下,数据湖与数据仓库提供商在原本的范式之上向其限制的范围扩展,逐渐形成了“湖上建仓”与“从数仓向湖”的两种“湖仓一体”的成型路径。虽然在底层逻辑中,湖仓一体仍然是一个二元体系,但能够极大帮助用户在其原IT基础之上封装出与需求更紧密的大数据范式,或者直接挂载全托管服务的湖仓一体系统。

  数据仓库本身以及ETL的性能取决于通信、I/O能力和硬件性能,执行架构则决定了数据仓库的支撑能力

  数据库侧重OLTP,数据仓库侧重OLAP。数据仓库是传统的关系型数据库如SQL Server、Oracle等,经过严格的数据模型设计或参数调整就可以变成很好的数据仓库实体,而纯粹的数据仓库如Terradata、SybaseIQ若要用来适应OLTP系统则不合适。

  趋势中,OLAP与OLTP正在走向统一融合成HTAP,数据库对AP分析能力的加强将使数据库与数据仓库的界限将逐渐模糊。

  Hadoop架构(MapReduce模型)适合海量数据存储查询、批量数据ETL、非结构化数据分析;而MPP架构适合替代现有关系型数据结构下的大数据处理,进行多维度数据分析、数据集市。

  混搭架构中,MPP处理高质量的结构化数据,同时提供SQL及事务支持。而Hadoop实现半结构化、非结构化数据处理。通过这种混搭方式,自动满足结构化、半结构化、非结构化数据的高效处理的需求,解决了传统数据仓库在海量数据下加载慢、数据查询效率低、难以融合多种异构数据源进行分析的困难。这种打破数据仓库与数据仓库边界的方案已经成为了一种主流架构方式。但在湖仓一体进程中,有更多新兴的架构正在开发和验证,或有新一代的架构在未来将取代MPP-Hadoop架构成为更优的架构方案。

  数据湖为了实现实时数据处理开发出了多种架构方式,其中最具代表性的是Lambda、Kappa、IOTA架构

  数据湖从Lambda架构开始完成离线与实时计算的融合,Kappa架构统一了数据口径简化数据冗余。IOTA架构通过边缘下发和统一数据模型取消了ETL,进一步加速了数据湖效率。

  其他的数据湖架构还有偶数科技自研的Omega架构,由流数据处理系统和实时数仓组成。融合了Lambda架构和Kappa架构处理流数据的优势,增加了实时按需智能和离线按需智能数据处理的能力,以及高效处理可变更数据实时快照的能力。

  随着数据智能服务认知的流行,厂商如何将数据分析服务与机器学习服务无缝集成,为无AI算法背景的数据研发和分析师等用户提供更加智能易用的产品服务尤为关键

  数据库、数据仓库、数据湖以及湖仓一体等产品是数据基础设施,如何采用数据分析工具,并且驱动决策,才能转化出数据价值。人工智能和机器学习功能是赋予湖仓一体服务能力创新的重要功能。

  数据智能(Data Intelligence)即基于大数据,通过AI对海量数据进行处理、分析、挖掘,提取数据中的信息和知识,并通过建立模型寻求现有问题的解决方案以及实现预测等,帮助决策。

  过去,BI作为统计分析类计算是数据仓库的主要应用场景,预测类计算的AI分析是数据湖的主流应用。随着湖仓一体的成熟化,AI+BI双模式将成为大数据计算分析的重要负载形式。

  随着大数据技术的持续发展,离线处理与实时处理的融合、数据存储与数据分析的融合,大数据系统的性能瓶颈的突破提供了巨大的数据服务及应用的潜力。

  相应的,随着数据智能服务认知的流行,厂商如何将数据分析服务与机器学习服务无缝集成,为无AI算法背景的数据研发和分析师等用户提供更加智能易用的产品服务尤为关键,如:

  机器学习平台与大数据平台深度融合,融合后的机器学习大数据平台的数据处理速度和自动化水平将提升一代。而要实现机器学习与大数据的融合,根据相关论文,需要满足以下要求:

  (3)融合框架:数据处理层、赋能层、应用层中,引入数据融合引擎,对数据处理层和赋能层进行深度融合;

  (1)全生命周期平台化:覆盖从数据准备、模型构建、模型开发到模型生产的端对端能力;

  全无服务器部署的湖仓一体架构是指数据存储、数据查询引擎、数据仓库、数据处理框架、数据目录产品均支持无服务器部署

  Serverless无服务器部署通过FaaS+BaaS提供服务,允许用户在不构建不运维一个复杂的基础设施的情况下进行开发,运行和管理应用程序。湖仓一体Serverless化后会具备两个优点:

  向用户提供Serverlesss部署的湖仓一体架构,使用户获得更易用的使用体验,全托管无运维的方式也帮助用户专注于业务本身,而非关心技术逻辑,符合云原生概念。

  Serverless部署能够提供按需计费,不需要为等待付费,可以做到更高效的资源利用率。对于使用随时间变化大的企业是更具性价比的。

  无服务器部署已经成为了头部厂商在湖仓产品系列竞逐的产品特性,用以更好的支持用户需求:

  数据管理解决方案厂商需要以用户体验为中心,从数据仓库、数据湖、湖仓方案、IaaS相关等维度持续深耕产品技术

  在市场用户对数据仓库要求更高的灵活性,并对数据湖要求更高的成长性的背景下,“湖仓一体”概念是业内厂商与用户对未来大数据架构的共同认知。

  纵然在概念层面具备显著的优势,湖仓一体在实际生产中依然面临由于技术或服务的不成熟而带来的众多问题。潜在用户出于对使用体验与稳定性的担忧、或对替换成熟稳定的原系统的投入产出价值不清晰,而保持谨慎观望。

  中国数据管理解决方案市场处于稳步增长阶段,竞争主体将根据其在创新能力及成长能力两个维度的表现划分梯队

  本报告分别通过市场增长指数与创新指数两大主要维度衡量业内优秀厂商竞争实力。

  增长指数衡量竞争主体在数据管理解决方案增长维度的竞争力,包括:数据存储、数据准备、机器学习分析支撑、湖仓一体整合、多维度多框架数据分析等创新技术或能力;而创新指数则衡量竞争主体在数据管理解决方案的竞争力,位置越靠右侧,数据管理解决方案的兼容性、查询&计算性能表现、灾备安全、服务支持、产业链生态、数据服务场景解决方案等市场增长能力及水平。

  沙利文联合头豹研究院根据增长指数和创新指数两大评估维度,通过数据存储、数据准备、数据分析支撑、数据分析、流程编排管理、兼容性、性能、灾备建设、服务支持、开源社区与产业链生态及数据服务场景解决方案十一项大指标,对中国数据管理解决方案市场竞争力多因素分层次评估。

  由“创新指数”和“增长指数” 综合评分,亚马逊云科技、华为云、阿里云、金山云、星环科技、浪潮云位列中国数据管理解决方案市场领导者梯队。

  亚马逊云科技:亚马逊云科技智能湖仓架构升级,通过Amazon Athena与Amazon Lake Formation打破数据孤岛,构建云中统一的数据治理底座,Amazon SageMaker机器学习全流程组件助力机器学习由实验转为实践,赋能业务人员探索业务敏捷创新。亚马逊云科技凭借专业深入的技术支持服务提供经历全球商业实践的产品和服务,为各行业客户提供各类数据服务场景的成熟解决方案。

  华为云:华为云FusionInsight MRS智能数据湖,MRS与AI开发平台ModelArts实现数智融合,通过HetuEngine一站式交互式SQL分析引擎实现湖仓协同,提供离线、实时、逻辑三湖一集市的数据架构支撑丰富的业务场景。华为云在大数据领域引领开源坚持开放,联合1000+行业应用生态合作伙伴共建覆盖金融、运营商、互联网、泛政等领域的落地场景解决方案。

  阿里云:阿里云Maxcompute适配多种数据湖仓案构建湖仓一体最佳实践,具备DB级元数据透视统一开发管理数据,与机器学习平台PAI无缝集成提供超大规模的机器学习处理能力。同时,Maxcompute与Hologres深度集成,为客户提供离线实时一体化的海量云数仓结构。结合开放开发建设和与伙伴生态产品的深度集成,为多行业用户的各种大数据场景提供多维的产品组合。

  金山云:金山云云原生数据引擎KCDE的统一元数据服务LMS统一湖仓的元数据层,支持构建实时湖、离线湖、分析湖的逻辑数据湖。大数据开发治理平台KDC与机器学习平台KingAI融合,基于统一的数据底座提供一站式数据挖掘服务。金山云以多元产品矩阵构建全域云原生能力,在金融、泛互联网、医疗、公共服务行业广泛覆盖大数据云平台应用解决方案。

  浪潮云:浪潮云大数据存储与分析IEMR提供多湖多仓关联计算能力,通过数据湖构建IDLF提供湖仓数据协同调用能力,与机器学习平台IMLP深度适配并提供200+预置模型和100+即开即用的行业模型调用能力。浪潮云IEMR具备高安全保障的灾备建设水平,IBP数据产品线可根据业务场景提供个性化产品交付形态,对电信、医疗、金融、政务等行业及其他大型国企提供丰富的场景解决方案和实施经验。

  星环科技:星环科技大数据基础平台TDH通过提供统一的SQL编译器Transwarp Quark和统一的分布式计算引擎Transwarp Nucleon等打造湖仓一体解决方案,突破传统Hadoop+MPP混合架构实现批流协同、多模融合的特性。星环科技在大数据各流程任务均提供组件化的技术服务和高度解耦的成熟产品,落地案例覆盖了金融、政务、交通、运营商、邮政、医疗、能源等行业。

  全球增长咨询公司,弗若斯特沙利文(Frost & Sullivan,简称“沙利文”)融合全球61年的咨询经验,24年来竭诚服务蓬勃发展的中国市场,以全球化的视野,帮助客户加速企业成长步伐,助力客户在行业内取得增长、科创、领先的标杆地位。

  沙利文深耕全球资本市场及企业咨询服务,为企业提供全方位的投融资及其他各类专业咨询服务,包括尽调服务、估值服务、评估服务、战略咨询、管理咨询、规划咨询、技术顾问、财务顾问、行业顾问等。

  沙利文大中华区的投融资业务实现了对中国国民经济的全行业覆盖,包括对新经济、新基建等所有经济热点的高度关注,涵盖生物医疗、消费零售、互联网及科技、娱乐传媒、金融服务及金融科技、双碳环保、机械制造、能源电力、地产物业、矿产资源、基础设施、汽车出行、物流运输、轨道交通、船舶航运、航空航天、农林牧渔、工业材料、建筑工程、教育培训等。

  沙利文团队为企业领袖及其管理团队开展投融资顾问咨询服务以来,已帮助近千家公司成功在香港及境外上市,是国内投资战略咨询领域的领军企业。2014至2021年,沙利文连年蝉联中国企业境外上市专业行业顾问市场份额第一名的领导地位;且近年来,沙利文报告也被广泛引用于业内领先的A股上市公司的招股文件、一级和二级市场研究报告及其他资本市场公示文件中。

  61年以来,沙利文通过其遍布全球的近50个办公室,利用强大的数据库和专家库、运用丰富的专业知识和咨询工具,帮助大量客户(包括全球1000强公司、国内外顶级金融机构以及其他各类领先企业等)完成了包括但不限于尽职调查、估值分析和第三方评估工作等工作,达成了战略目标。

火狐体育直播吧
火狐体育官方登录开户

火狐体育直播吧

联系电话:176 0301 6881

邮箱:sales@finscm.com

火狐体育官方登录开户