天穹uper:腾讯下一代大数据自适应计算引擎腾讯云开发者社区

SuperSQL是腾讯自研的下一代大数据自适应计算平台。通过开放融合的架构,实现一套代码高效解决公有云、私有云、内网的任何大数据计算场景问题。我们通过将异构计算引擎/异构存储服务、计算引擎的智能化/自动化、SQL的流批一体、算力感知的智能调度纳入内部系统闭环,给用户提供极简统一的大数据计算体验。用户能够从繁杂的底层技术细节中解脱出来,专注于业务逻辑的实现,像使用“数据库”一样使用“大数据”,实现业务逻辑与底层大数据技术的解耦。

SuperSQL作为腾讯大数据智能计算平台的入口和决策中心,整合不同的大数据系统组件,旨在解决传统大数据架构下的痛点和难点问题,诸如大数据的语言门槛高、大数据引擎多而杂、大数据计算链路长而复杂、资源利用率低、存储异构、数据孤岛等。SuperSQL以自适应作为串联不同系统的能力抓手,通过自动、智能的方式解决传统大数据架构中的痛点问题:

融合计算平台已在天穹落地,服务微信、QQ、游戏等关键业务。平台每天承载百万级的计算任务,百PB级数据处理,百万级核数资源调度。本文将正式揭开新一代计算平台的面纱,揭秘如何实现大数据平台的自治化、智能化。

01

计算平台整体架构

02

语法自适应:

解耦大数据语法和业务逻辑

SuperSQL支持对接不同类型的外部计算(执行)引擎,包括Presto、Livy、Hive、Flink,以及丰富多样的数据源,如MySQL、PostgreSQL/TBase、Hive、TDW Hive (tHive)、SparkSQL/Livy、Oracle、Phoenix (HBase)、ElasticSearch、Kylin、ClickHouse、Hermes、Druid、H2、Presto。

引擎之间、数据源之间所使用的SQL语法存在一定的差异,SuperSQL作为计算平台的入口能够有效屏蔽语法差异做到语法自适应,从而为整合不同的大数据系统组件提供基石。它能提供一套通用SQL语法,并通过SQL兼容转换功能来实现不同SQL语法之间的转换;做到在用户无需更改SQL语法的前提下实现底层执行引擎的切换,通过一套SQL语法,自动适配不同计算引擎和数据源语法。

顾名思义,SQL兼容转换功能整体可以划分为两个模块,即SQL兼容与SQL转换。

这种执行引擎的无感切换,不光能让SuperSQL平滑进行智能引擎选择,充分发挥引擎的优势特点,增加SQL执行效率;还能支持业务无感迁移,做到在用户无需更改SQL语法的前提下实现底层执行引擎的切换,并且尽量最小程度地更改用户的使用习惯。

通过SQL兼容和SQL转换,SuperSQL能够统一计算入口,整合大数据平台组件,降低大数据系统使用的门槛和繁琐程度。

03

引擎选择自适应:

智能选择引擎,加速SQL计算

智能引擎选择是自适应智能计算的核心功能之一,作为决策中心,SuperSQL通过组合算法,自动为每条用户SQL,挑选合适的不同类型的计算引擎(如Presto、Spark等)来执行,以提升用户体验(如响应时间快、可靠性高等)和资源利用率(CPU、内存等)。传统基于RBO/CBO的SQL优化框架,存在规则人工定制、统计信息缺失、历史流水闲置、失效资源浪费等几个主要问题。

针对这些问题,SuperSQL设计实现了基于历史负载的查询优化(History-Based Optimization,HBO)和基于机器学习的引擎选择。HBO目标是分析处理历史用户SQL流水,以通用、抽象化的HBO策略,增强补充(非取代)已有的具体化RBO/CBO策略。机器学习算法可以自动学习SQL特征,更好地弥补人为规则的黑角。把HBO和机器学习结合起来,可以更好地降低日均提效失败(即错误选择引擎后执行失败)的SQL数,提升用户SQL的平均执行时间,减少引擎集群无效负载的同时节省宝贵的计算资源。

HBO框架的设计实现包括四个子模块,如下图中标示;它们也代表了一条用户SQL HBO优化的四个串行阶段。基于引擎选择(SQL优化)的实时性要求,整个HBO耗时必须控制在毫秒级。

作为业务效果样例,根据对接SuperSQL的某数据分析中台的SQL流水统计,HBO加持的SuperSQL智能引擎选择,可以大幅减少因为引擎选择错误导致的SQL failver。HBO规避的SQL类别大都是超大资源占用、海量分区读写、大规模Join等高计算开销类,日均可减少Presto引擎 34TB 的无效内存占用以及 33小时 的无效CPU时间。

HBO不能覆盖所有的SQL场景,对于周期性任务较为有效,但如果用户提交了新的查询,签名和历史不匹配,则难以决策。机器学习可以自动学习SQL特征,很好地弥补规则的缺失。实践中,直接把SQL字符串作为原始数据,具体训练过程如下:

机器学习可以进一步提升引擎选择的准确性,降低SQL failover率。基于内网的SQL流水测试,机器学习算法能够在HBO的基础上,SQL failover率降低60%。

04

计算运行时自适应:

实时捕捉环境变化,动态调整计算拓扑

传统的大数据架构下,整个计算链路通常是单向的,上层计算缺少底层状态(比如资源状态)的反馈。单向链路虽然简单,但会造成计算资源不均衡、资源利用不充分等问题。算力感知是自适应计算架构里底层反馈的桥梁,让上层计算具备感知资源状态的能力,进而自适应地调整资源使用。通过算力感知,可以获取计算资源整体的资源状态以及单节点详细的算力指标,上层计算借此自适应地动态调整计算决策、资源使用、任务调度等。

以Presto为例,作为一款典型的MPP架构、纯内存计算的交互式查询引擎,为了追求性能的最大化,Presto会尽可能地利用节点上可用的资源,包括CPU/内存/网络带宽等,节点间的物理资源规格也需要尽可能保持一致。然而在实际的使用场景中,节点的CPU/内存等负载(算力)是随时波动的,而Presto的原生任务调度策略并未将节点的算力考虑在内,导致在节点算力明显下降的情况下,计算任务会受到严重的影响,从而产生长尾问题。为此,天穹Presto做了针对性的优化,在动态的计算环境中,通过感知节点算力的变化,自适应地调整计算任务的调度,避免低算力节点的影响。

天穹Presto自适应任务调度主要分为:Task自适应调度与Split自适应调度,方案实现的核心思想是:根据节点的算力情况动态分配Split和Task,整体架构如下图所示:

‍天穹Presto Coordiantor在运行过程中,会实时感知Worker节点的算力变化情况,同时计算出对应的节点可用算力权重,在Task和Split的调度过程中,针对不同的算力权重,根据模型计算出相应的Worker上还可分配的Task或Split数目,对于算力严重下降的节点,少分配或不分配Task或Split,尽量避免长尾问题,从而做到自适应的调度。自适应调度效果:当计算Task在CPU波动比较大的节点上,会造成明显的计算长尾的问题,拖慢整个任务的运行,如下图所示,在没有开始自适应调度的情况下,Task的执行时间波动很大。‍

05

资源自适应:

资源统一池化,透明弹性伸缩

面向大规模集群部署,多集群是运维管理的常规手段。但从资源管理的角度,多集群会带来诸多问题:

资源自适应主要包括集群间弹性伸缩和集群内资源调度。每个租户对应一个虚拟K8S集群,每个租户都有最低的资源保障,租户之间能借用资源,也可以借用集群空闲资源。通过自适应调配资源,打破集群间的隔离,充分利用不同业务的潮汐效应,错峰使用资源,提升整体的资源利用率。

06

数据编排自适应:

融合异构存储,自动查询加速

在公有云、私有云、内网不同场景中,大数据底层存储是异构的,主要涉及COS、HDFS、Ceph、Ozone等。面向异构化的存储,统一融合计算平台构建了一层统一的数据编排层(DOP),位于计算和存储之间,透明化存储差异。通过适配不同的权限和认证体系的统一的存储Client,解耦计算和存储,避免不同计算引擎和不同存储间的相互适配工作,让计算和存储更加专注。

在大数据场景中,每天产生海量的数据,而数据治理往往赶不上数据积累的速度,海量元数据以及小文件会给存储Master节点(例如HDFS NameNode)极大压力,造成性能抖动。数据编排层会自适应缓存存储元数据,以及自动小文件合并,减轻Master节点压力,同时在跨DC数据访问时,加速元数据访问,提升数据访问速度。

数据编排层会针对不同的场景通过热数据缓存,加速计算性能。在内网的ad-hoc场景中,采用LRU/LRFU相结合的数据缓存策略,整体计算性能加速比2.6倍,而对于 IO 密集的SQL,加速达6.2倍。

07

场景架构自适应:

多元混合,架构统一

SuperSQL通过完善的数据下推、自研的跨DC CBO,可在多云混部架构中构建出最优的计算路径,实现更高效、更安全的数据分析。SuperSQL支持多云混合架构、跨DC、及跨云的联合数据分析,可打破数据孤岛,实现跨DC、跨云的数据访问链路,助力客户实现最大化的数据价值。在腾讯内部应用场景测试中,可以有效地降低跨DC高峰时段网络流量约30%。

08

总结 & 未来规划

未来SuperSQL会持续专注在统一融合计算平台中,打造更快、更稳定、更易用的大数据自适应智能计算架构,具体会在以下方向上持续探索潜力:

THE END
0.Infra从“支撑”向“引擎”跨越腾讯云AI智能体模型启动提速17倍,大规模服务扩容时间从10分钟缩短至34秒;多模态推理加速4倍,自研推理引擎覆盖生文、生图、生视频等模型;通过内存优化与通讯协议升级等创新,显著降低计算开销,推动推理集群的性能发挥到极致。 智能体要从“实验室”走向“生产级”,工程问题和安全问题将成为核心痛点。全新发布Agent infra解决方案Agent jvzquC41pg}t0|npc0ipo7hp1u~04977/2?.3A4fgvgjn6nphs~gkz:;2;6867xjvor
1.AI新引擎Q: 量子计算与传统计算有何本质区别? A: 量子计算与传统计算的本质区别在于它们的计算单元和计算方式。传统计算机使用二进制的位(bits),每个位要么是0要么是1。而量子计算机使用量子比特,它们可以同时处于0和1的叠加态,这种特性使得量子计算机在处理复杂问题时具有巨大优势。具体来说,一个N位的量子比特可以同时表示jvzquC41yy}/lrz{cpmpppxjg0ipo8f1h|iu:pfcc5
2.人工智能融入“云”端IT人工智能是火箭 云计算是引擎 业内,大家将人工智能、大数据以及云计算称为“铁三角”关系。吴维刚表示,“人工智能与云计算,两者不是同一事物,但是相互发展。云计算提供移动计算模式和计算资源,人工智能的发展正需要这种计算资源。” 假如将人工智能看作是一台火箭,那么大数据是燃料,云计算是引擎。据了解,经历了多年的jvzq<84kv0vfqyqg0eun0ls1p3532:=125871l622;33;A=9;5?/j}rn
3.数字孪生系统的一般架构数字孪生引擎一方面是实现物理系统和虚拟系统实时连接同步的驱动引擎,另一方面是数字孪生系统智能算法和智能计算引擎核心,为用户提供高级智能化服务。在数字孪生引擎的支持下,数字孪生系统才真正形成,实现虚实交互驱动以及提供各类数字孪生智能化服务,所以数字孪生引擎即是数字孪生系统的“心脏和大脑”。 jvzquC41yy}/eunk0eun0ls1njxi1q~zz1814<591v814<5925e4;><5;24ivvq
4.杨成虎:存储&计算是过去,记忆&推理才是未来在数据管理层 ArcNeural,是数据智能体。打破传统数据库计算加存储的本质,引入记忆加逻辑体系。其中,记忆部分为多模态智能引擎,支持图模型和向量引擎,分别负责显式和隐式关系管理。逻辑部分则利用图算法或 LLM 资源来进行逻辑推理。 在ArcNeural 架构下,天然的具备了三大优势:jvzquC41jwh/djfk0ci/ew4xkg}05;726
5.“智算聚芯力津彩新未来”天津市人工智能计算中心200P上线仪式暨华为公司安信军团COO曹泽军先生在致辞中表示,天津作为第一批国家新一代人工智能创新发展试验区,在天津市、河北区领导的大力支持下建成了天津市人工智能计算中心,一期算力供不应求实现上线即满载。“算力新高度、产业新引擎、科研新范式、人才新土壤”,已经成为天津市人工智能计算中心助力天津经济高质量发展的四个“新”榜jvzquC41yy}/vlz0gf{/ew4kphu039:6156:;7mvo
6.支撑智能经济体系的主体博弈均衡计算引擎和大型宏观经济政策模型国家自然科学基金委员会管理科学部发布2023年度国家自然科学基金委员会管理科学部专项项目指南—基于通用大模型的工商管理前沿科学问题研究、中国经济发展规律的基础理论与实证、基于数据与行为的金融系统建模分析、2023年度国家自然科学基金指南引导类原创探索计划项目—“支撑智能经济体系的主体博弈均衡计算引擎和大型宏观经济政jvzquC41yy}/p€z0gf{/ew4kphu03;5915967<3jvo
7.图计算引擎图数据库星环科技为您提供图计算引擎 图数据库相关内容,帮助您快速了解图计算引擎 图数据库。如果想了解更多图计算引擎 图数据库资讯,请访问星环科技官网(www.transwarp.cn)查看更多丰富图计算引擎 图数据库内容。jvzquC41yy}/v{fpuygsr7hp1mkzyxwf/fkucrq177>6/;>
8.腾讯智慧交通升级AI+双轮驱动架构加速产业智能化转型时空计算引擎在交通领域应用 今年,腾讯深度参与深圳市宝安区智慧交通提升工程,构建宝安智慧交通数字孪生底座,支撑智慧公交线网系统建设,提升公共交通服务能力,为公众带来更便捷的出行体验。日本工程院院士、东京大学特任教授胡昂谈到,从交通流模拟到智能导航,从交通管理到城市规划,数字孪生技术使我们能够更深入地理解交通系统jvzq<84f0{uvvq3ep1~x5?5142842B4v42842B5:a3:89?66;0nuo
9.数字地球生态讲堂第22期|《星图地球智脑引擎GEOVISEarthBrainGEOVIS Earth Brain 星图地球智脑引擎是基于自主遥感智能大模型,深度融合地球大数据、分析解译算法与超级计算机构建的可计算数字地球核心引擎,通过密集型“智能计算”为用户提供地球数据智能处理、地球信息智能感知、地球场景智能重建能力,并向互联网用户开放各类计算能力接口,便以快速构建云上应用,为地球科学研究、遥感行业应jvzquC41v071lzpc0eun0ls1rkj`4B9;42;887xjvor
10.阿里云基于空间数据引擎及多源数据计算融合,构建数据底座 空间数据引擎为空间治理提供空间数据多源存储与高效计算能力,多源数据计算融合引擎实现以空间单元为核心的数据计算融合,是空间治理工作的核心能力 基于智能计算引擎,实现算法、场景的高效开发 集成空间计算、智能模型及流程搭建、计算调度等一体化便捷开发框架,智能化开发赋能jvzq<84fcvgqcjx0cnozww3eqo5jpmzuvt0pjywtcr.tnxqwtif
11.2024中关村论坛年会十大重大科技成果重磅发布清华大学戴琼海团队突破传统芯片架构中的物理瓶颈,研制出国际首个全模拟光电智能计算芯片。该芯片具有高速度、低功耗的特点,在智能视觉目标识别任务方面的算力是目前高性能商用芯片的3000余倍,能效提升400万倍,该成果开创了全新计算技术时代,有望成为人工智能发展的有力引擎。 jvzquC41pg}t0lsuvqil0lto1pkxu5gymz332;926/;34<<330nuo
12.高性能计算解决方案解决方案产品与解决方案超聚变FusionOne HPC解决方案,为客户提供一体化高性能计算平台,通过软硬件的深度融合和自研OneMind智慧引擎,为客户提供运行高效、安全可靠、运维简单和绿色节能的智慧HPC解决方案,满足教育科研、制造仿真等行业高性能计算业务场景。jvzquC41yy}/zozukqt/exr1ep5qtxiwev5irl2uqn{ukxs
13.计算机行业算力租赁:大模型发展的关键引擎AI算力需求空间测算训计算机行业算力租赁:大模型发展的关键引擎 AI算力需求空间测算 训练规模突破临界值,大模型“智慧涌现” 大模型训练规模与参数量、数据量及训练轮数等紧密相关。当模型规模突破阙值,即出现“智慧涌现”。 迈入AI智能时代,计算芯片依赖已从CPU转向GPU AI时代离不开机器学习,而神经网络训练及推理需要进行大量的矩阵运算和jvzquC41zwkrk~3eqo526?98;;83;879:88:5B5
14.超万卡GPU集群关键技术深度分析2024计算引擎卸载加速 1/0 设备的数据路径与控制路径,面向节点提供标准化的virtio-net(Virtual1/0 Network)、virtio-blk(Virtiual 1/0 block)后端接口,屏蔽厂商专用驱动。 存储引擎在 DPU 上实现存储后端接口,可基于传统 TCP/IP 网络协议栈或RDMA(Remote Direct Memory Access)网络功能连接块存储集群、对象存储集群、jvzquC41yy}/5?5fqe4dp8ftvkimg88288>55h6345>:6<580jznn
15.浙江大学计算机系统结构实验室蚂蚁智能引擎技术事业部-共享智能 高级技术专家 在研项目 Projects 面向预训练语言模型下游迁移任务 预训练语言模型(Pretrained Language Models,PLMs)已经成为了自然语言处理(NLP)的主流方法。通过在大 基于TPM的安全可信技术研究 随着云计算、大数据、物联网的发展,越来越多的信息系统部署到云上,尤其是关系国jvzq<84cte4{l~3gfw4dp8;473?0nrxv0jzn
16.基于GitOps和CI/CD开发低成本可观测AI智能体实践开发者社区智能计算引擎:兼顾深度分析与极致实时 有了强大的存储系统,下一步是构建灵活高效的计算引擎。我们面临两类典型需求:涉及海量数据、复杂计算,要求结果绝对精确的深度分析型任务,以及如 Dashboard 展示,强调低延迟、高响应速度的实时交互型任务。为此,我们在计算层做了多项关键升级: jvzquC41fg|fnxugt0gmk‚zp0eun1jwvkerf1:;:7;7: