大数据架构平台搭建指南

零代码、低成本快速创建采集表

基于大数据引擎,通过可视化组件、托拉拽式实现数据汇聚与集成开发

指标定义、指标建模、指标固化、指标分析,一体化完成指标的落地与应用

组件化、零sql实现各类复杂报表和丰富多样的图表分析

面向业务人员,简单拖拽即可生成可视化图表

内置150+特效组件,快速打造酷炫灵动的可视化大屏,支持在线编码,拓展视觉体验至极致

搭载自然语言分析引擎,引入AI大模型技术,通过简单的对话问答实现快速数据分析

移动采集、审批、分析一站式解决移动办公诉求

一站式数据分析平台

了解ABI

全程“零”编码,高效实现主数据模型、主数据维护、主数据分发、主数据质量的全过程管理,为企业主数据管理落地提供有效支撑,实现各业务系统间的主数据共享,保障企业主数据的唯一性、准确性、一致性。

内置多类主数据模版,可视化实现多视角模型定义,满足复杂规则的编码自动控制

多种数据接入方式,支持不同场景的审批管控,数据版本可回溯,满足主数据的全生命周期管理

拖拽式任务设计,内置丰富组件,支持主动式、被动式分发模式

全过程质量管控,支持内置及自定义规则,提供图表式质检报告

主数据管理平台

在线模型设计,深度融合数据标准,规范数据定义

自动化元数据感知,全链路血缘提取,理清数据资源

智能化标准推荐,一键式数据落标,树立数据权威

“零”编码规则搭建,全流程质量整改,高速数据质检

规范资产目录,自助式数据共享,释放资产价值

基于大数据引擎,通过可视化组件、托拉拽式实现数据汇聚与集成开发

超30+主流数据库、国产库、大数据库、文件、消息队列等接口之间极速交换结构化、非结构化数据

构建分级分类体系,动态数据脱敏,保障数据安全

全盘监控数据,决策数据周期,释放数据资源

智能数据治理平台

了解睿治

覆盖数据建模、采集、处理、集成、共享、交换、安全脱敏于一体,一站式解决数据开发所有的问题。

结合标准体系的可视化建模工具,支持模型的正、逆向构建

拖拽式任务编排,内置丰富组件,支撑亿级数据的快速处理与迁移

具备高并发、高吞吐量、低延迟的一体化任务编排能力,可视化设计、分布式运行

提供图形化的任务监控和日志跟踪,面向运维、管理人员的完善监控体系

数据工厂系统

纯web设计器,零编码完成基本表、变长表、中国式复杂报表、套打表、问卷调查表等制作;支持年报、月报、日报,以及自定义报表期等多种数据采集报送频率

提供在线填报和离线填报两种应用模式,也支持跨数据源取数;填报数据自动缓存在WEB浏览器中,即使宕机也不会丢失

内置灵活轻便的工作流引擎,实现了用户业务过程的自动化;支持层层审批、上级审批、越级审批、自定义审批等多种审批方式

对于下级填报单位上报的数据,上级汇总单位可将其进行汇总;支持层层汇总、直接下级汇总、选择单位汇总、按条件汇总、按代码组汇总、按关键字汇总、自定义汇总等

提供数据锁定机制,防止报表数据被意外修改;支持数据留痕,辅助用户过程追溯;未及时上报的用户自动催报;所见即所得的打印输出等

提供多种类型的数据接口,可以导入EXCEL、DBF、二进制、文本等格式的数据,可以将报表数据批量输出为HTML、EXCEL、XML、TXT等格式

数据采集汇总平台

统一指标定义,实现“一变多变、一数多现”的数据管理效果,为企业提供强有力的数字化保障和驱动效应。

采用可视化、导向式方式构建指标业务域,形成指标地图,全局指标一览在目

流程化自助式的定义、开发、维护各类指标,零建模,业务人员即刻上手

助力企业更好地查询、使用指标,提供共享、交换、订阅、分析、API接口等应用服务

指标管理平台

企业级智能体平台,低门槛搭建智能体,灵活编排流程,融合 LLM 实现“问数”、“问知识”

面向业务的对话式问数,即问即答,更懂你的诉求

理解数据,洞察数据,更懂数据内容,把数据见解讲给你听

动态地分析数据特点,提供最合适的图表类型展示,让数据展现更简单

完全是颠覆做表的方式,一句话看板创建,启发式内容制作

智能化生成包含深入分析和建议的报告,复杂数据简单化,释放数据潜力

数据跃然屏上的AI大屏汇报,让数据讲述故事

海量知识,一触即达,提供更智能的知识检索服务,快速找到“对”的人

不止于工具,更是随时待命的得力助手。一声指令,为您提供即时的数据分析和决策支持

智能数据问答平台

面向企业级数据资产交易运营场景,助力企业实现数据资产的价值挖掘、升值和资产变现。

提供上百类数据交换、汇聚、处理能力;零代码数据模型开发。

全链路数据治理,把控资产质量,理清资产血缘。

定义、盘点、规划无序的数据类和应用类资源,构建数据资产管理体系。

提供数据资源门户,及数据API、数据服务等快速检索能力;动态脱敏、加密保障数据安全。

提供用户注册、审批、订购等一体化管理,持续提升企业数据资产价值。

数据资产运营平台

从采、存、管、用四大方面构建数据治理体系,实现数字化经营

主数据全生命周期管理,保障主数据一致性、权威性、共享性,提高企业运营效率

以元数据管理摸清家底,以资产编目盘点数据资产,提供数据服务

集数据采集补录、数据ETL建模、数据实时存储、数据分析展现等应用场景于一体

集数据集成、数据治理、资产规划开发、资产运营等场景应用于一体

集元数据采集和规整、数据标准建立与评估、数据质量管控等场景应用于一体

面向业务和技术提供指标管理指标分析等服务的指标统一管理平台

涵盖数据存储、数据集成、数据交换、数据共享等方面,为企业用户提供云原生仓湖一体解决方案

提供数据全生命周期过程的数据服务手段,实现数据应用到数据运营

基于大模型AI的智能化低代码数据开发平台,助力企业高效构建现代化数据仓库、数据湖

基于大模型(LLM)与BI引擎深度融合的新一代数据智能平台,致力于打造会说话的数据助手

构建标准化的高质量数据集体系,打通从采集到训练的全链路

案例中心

学习中心

认证中心

培训活动

亿信社区

伙伴招募

供应商招募

了解亿信

亿信动态

亿信ABI

数据治理

产品解决方案

金融

租赁

医疗卫生

制造

能源

教育

央国企

其他

案例中心

学习中心

认证中心

培训活动

亿信社区

伙伴招募

供应商招募

了解亿信

亿信动态

IDC蝉联数据治理解决方案市场第一

虽然大数据平台组件很多,但是对于没有参与建设过大数据平台的朋友来说,当前众多的大数据组件和平台架构容易让人眼花缭乱。

本文首先介绍了大数据架构平台的组件架构,便于了解大数据平台的全貌,然后分别介绍数据集成、存储与计算、分布式调度、查询分析等方面的观点,最后附上了某企业大数据平台整体架构设计方案PPT,值得借鉴。

从图上可以看出,大数据架构平台分为:数据集成、存储与计算、分布式调度、查询分析等核心模块。我们就沿着这个架构图,来剖析大数据平台的核心技术。

日志同步系统虽然本身比较成熟,但在平时工作中也属于重点,一是因为需要同步的数据量比较大,二是要保证日志输出的持续性,有缓存机制最大限度保障不丢日志,始终保持平稳的运行状态。

2. 数据抽取工具

DataxundefinedDataX 是阿里开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle 等)、HDFS、Hive、ODPS、HBase、FTP 等各种异构数据源之间稳定高效的数据同步功能。

BitSail 项目是头条刚开源的,基于 Flink 开发,在自己内部业务应用广泛。BitSail 支持多种异构数据源间的数据同步,并提供离线、实时、全量、增量场景下的全域数据集成解决方案。

专家观点:

3. 数据传输队列

RabbitMQ:队列传输

Pulsar:流式传输+队列传输

专家观点:

Kafka是Hadoop组件全家桶,名气更大,但是易用性还是差一点。

Pulsar 跟Kafka很像,不过架构比Kafka更先进,属于后起之秀。

专家观点:

对于 HDFS 来说,优化是一个很重要的事情,因为 HDFS 的集群规模比较大,又要稳定,又要持续不断的应对业务挑战,优化这一块还是很重要的。如果集群负载大时,访问延迟,会影响集群整体使用效率。

HDFS 的优化趋势包括:架构改进、读写分离、读写优化等。

虽然 HDFS 是分布式文件系统,但在实际场景中,由于 NameNode 的单点和小文件过多导致的压力过大问题,其管理的数据节点是有限的。分布式文件系统的新趋势类似 JuiceFS 的架构,采用「数据」与「元数据」分离存储的架构,从而实现文件系统的分布式设计,利用元数据缓存极大提升整体文件系统的性能,同时兼容大数据和云原生场景的应用。

2. 数据计算

专家观点:

● Spark+数据湖是未来的发展方向。

● 离线的场景很丰富,但是缺乏处理的非常好的统一的计算引擎,hive和spark都无法做到,所以这一块未来还有很大的发挥空间。

(2)实时计算引擎优缺点及适用场景

专家观点:

● Flink的优点是:可以实时的进行计算,在处理流计算这个方向上是最好的组件,而且几乎可以替代近实时的业务场景。

● 缺点是对离线处理会略显不足,不太适合处理大批量的离线数据集。

● Flink的优化方向很多:

a. Flink在流处理稳定性上,虽然已经做到极细粒度,但是遇到阻塞时,会存在丢失数据的问题。需要加强稳定性。

b. 实时性的提升:实时的优化是无底洞,业务需求能到秒级别、毫秒级别,怎么能让Flink在业务场景用的好,提升速度的同时,保持数据一致性,是Flink面临的挑战。

1. 常用任务调度系统

提到常用的任务调度系统,大家都会想到非常多,包括但不限于:Crontab、Apache Airflow、Oozie、Azkaban、Kettle、XXL-JOB、Apache DolphinScheduler、SeaTunnel 等,五花八门。

专家观点:

● Apache DolphinScheduler(海豚调度)更专注于大数据场景,调度功能不复杂,但是足够把任务管理起来。并且它是中文的,这一点对于中文用户较友好。

● Apache Airflow 国外用的多。

资源调度系统主要包括 Yarn 和 Azkaban。

Yarn 用的广泛,上层很多组件都要支持,所以很受欢迎,对其优化很多。

05、大数据查询

常用的OLAP引擎对比:

专家观点:

专家之一曾经用 Presto 和 StarRocks 做过对比 Impala 的性能测试,结论如下:

● 结果上看 StarRocks 的性能确实很强大,速度最快,但三者对比提升相同量级的性能需要更多的 CPU、内存资源等;

● Impala 在开启各项优化之后,效果是可以接近 StarRocks 的;

● Presto 性能一般,而且发现跑部分 TPC-DS 测试时,调用 HMS API 的频率偶尔很高,曾经把 HMS 搞挂过。但是 Presto 的易用性感觉最好,差不多就是开箱即用,配置很简单。

支持多源数据(多Catalog)的接入,但是随着数据湖对底层数仓存储层的统一加上各个。

其他高效分析引擎对数据湖的支持,这块的优势也会被逐步抹平。

专家对查询引擎优化的观点:

大数据查询优化工具包括 Alluxio、JuiceFS 和 JindoFS。

THE END
0.Infra从“支撑”向“引擎”跨越腾讯云AI智能体模型启动提速17倍,大规模服务扩容时间从10分钟缩短至34秒;多模态推理加速4倍,自研推理引擎覆盖生文、生图、生视频等模型;通过内存优化与通讯协议升级等创新,显著降低计算开销,推动推理集群的性能发挥到极致。 智能体要从“实验室”走向“生产级”,工程问题和安全问题将成为核心痛点。全新发布Agent infra解决方案Agent jvzquC41pg}t0|npc0ipo7hp1u~04977/2?.3A4fgvgjn6nphs~gkz:;2;6867xjvor
1.AI新引擎Q: 量子计算与传统计算有何本质区别? A: 量子计算与传统计算的本质区别在于它们的计算单元和计算方式。传统计算机使用二进制的位(bits),每个位要么是0要么是1。而量子计算机使用量子比特,它们可以同时处于0和1的叠加态,这种特性使得量子计算机在处理复杂问题时具有巨大优势。具体来说,一个N位的量子比特可以同时表示jvzquC41yy}/lrz{cpmpppxjg0ipo8f1h|iu:pfcc5
2.人工智能融入“云”端IT人工智能是火箭 云计算是引擎 业内,大家将人工智能、大数据以及云计算称为“铁三角”关系。吴维刚表示,“人工智能与云计算,两者不是同一事物,但是相互发展。云计算提供移动计算模式和计算资源,人工智能的发展正需要这种计算资源。” 假如将人工智能看作是一台火箭,那么大数据是燃料,云计算是引擎。据了解,经历了多年的jvzq<84kv0vfqyqg0eun0ls1p3532:=125871l622;33;A=9;5?/j}rn
3.数字孪生系统的一般架构数字孪生引擎一方面是实现物理系统和虚拟系统实时连接同步的驱动引擎,另一方面是数字孪生系统智能算法和智能计算引擎核心,为用户提供高级智能化服务。在数字孪生引擎的支持下,数字孪生系统才真正形成,实现虚实交互驱动以及提供各类数字孪生智能化服务,所以数字孪生引擎即是数字孪生系统的“心脏和大脑”。 jvzquC41yy}/eunk0eun0ls1njxi1q~zz1814<591v814<5925e4;><5;24ivvq
4.杨成虎:存储&计算是过去,记忆&推理才是未来在数据管理层 ArcNeural,是数据智能体。打破传统数据库计算加存储的本质,引入记忆加逻辑体系。其中,记忆部分为多模态智能引擎,支持图模型和向量引擎,分别负责显式和隐式关系管理。逻辑部分则利用图算法或 LLM 资源来进行逻辑推理。 在ArcNeural 架构下,天然的具备了三大优势:jvzquC41jwh/djfk0ci/ew4xkg}05;726
5.“智算聚芯力津彩新未来”天津市人工智能计算中心200P上线仪式暨华为公司安信军团COO曹泽军先生在致辞中表示,天津作为第一批国家新一代人工智能创新发展试验区,在天津市、河北区领导的大力支持下建成了天津市人工智能计算中心,一期算力供不应求实现上线即满载。“算力新高度、产业新引擎、科研新范式、人才新土壤”,已经成为天津市人工智能计算中心助力天津经济高质量发展的四个“新”榜jvzquC41yy}/vlz0gf{/ew4kphu039:6156:;7mvo
6.支撑智能经济体系的主体博弈均衡计算引擎和大型宏观经济政策模型国家自然科学基金委员会管理科学部发布2023年度国家自然科学基金委员会管理科学部专项项目指南—基于通用大模型的工商管理前沿科学问题研究、中国经济发展规律的基础理论与实证、基于数据与行为的金融系统建模分析、2023年度国家自然科学基金指南引导类原创探索计划项目—“支撑智能经济体系的主体博弈均衡计算引擎和大型宏观经济政jvzquC41yy}/p€z0gf{/ew4kphu03;5915967<3jvo
7.图计算引擎图数据库星环科技为您提供图计算引擎 图数据库相关内容,帮助您快速了解图计算引擎 图数据库。如果想了解更多图计算引擎 图数据库资讯,请访问星环科技官网(www.transwarp.cn)查看更多丰富图计算引擎 图数据库内容。jvzquC41yy}/v{fpuygsr7hp1mkzyxwf/fkucrq177>6/;>
8.腾讯智慧交通升级AI+双轮驱动架构加速产业智能化转型时空计算引擎在交通领域应用 今年,腾讯深度参与深圳市宝安区智慧交通提升工程,构建宝安智慧交通数字孪生底座,支撑智慧公交线网系统建设,提升公共交通服务能力,为公众带来更便捷的出行体验。日本工程院院士、东京大学特任教授胡昂谈到,从交通流模拟到智能导航,从交通管理到城市规划,数字孪生技术使我们能够更深入地理解交通系统jvzq<84f0{uvvq3ep1~x5?5142842B4v42842B5:a3:89?66;0nuo
9.数字地球生态讲堂第22期|《星图地球智脑引擎GEOVISEarthBrainGEOVIS Earth Brain 星图地球智脑引擎是基于自主遥感智能大模型,深度融合地球大数据、分析解译算法与超级计算机构建的可计算数字地球核心引擎,通过密集型“智能计算”为用户提供地球数据智能处理、地球信息智能感知、地球场景智能重建能力,并向互联网用户开放各类计算能力接口,便以快速构建云上应用,为地球科学研究、遥感行业应jvzquC41v071lzpc0eun0ls1rkj`4B9;42;887xjvor
10.阿里云基于空间数据引擎及多源数据计算融合,构建数据底座 空间数据引擎为空间治理提供空间数据多源存储与高效计算能力,多源数据计算融合引擎实现以空间单元为核心的数据计算融合,是空间治理工作的核心能力 基于智能计算引擎,实现算法、场景的高效开发 集成空间计算、智能模型及流程搭建、计算调度等一体化便捷开发框架,智能化开发赋能jvzq<84fcvgqcjx0cnozww3eqo5jpmzuvt0pjywtcr.tnxqwtif
11.2024中关村论坛年会十大重大科技成果重磅发布清华大学戴琼海团队突破传统芯片架构中的物理瓶颈,研制出国际首个全模拟光电智能计算芯片。该芯片具有高速度、低功耗的特点,在智能视觉目标识别任务方面的算力是目前高性能商用芯片的3000余倍,能效提升400万倍,该成果开创了全新计算技术时代,有望成为人工智能发展的有力引擎。 jvzquC41pg}t0lsuvqil0lto1pkxu5gymz332;926/;34<<330nuo
12.高性能计算解决方案解决方案产品与解决方案超聚变FusionOne HPC解决方案,为客户提供一体化高性能计算平台,通过软硬件的深度融合和自研OneMind智慧引擎,为客户提供运行高效、安全可靠、运维简单和绿色节能的智慧HPC解决方案,满足教育科研、制造仿真等行业高性能计算业务场景。jvzquC41yy}/zozukqt/exr1ep5qtxiwev5irl2uqn{ukxs
13.计算机行业算力租赁:大模型发展的关键引擎AI算力需求空间测算训计算机行业算力租赁:大模型发展的关键引擎 AI算力需求空间测算 训练规模突破临界值,大模型“智慧涌现” 大模型训练规模与参数量、数据量及训练轮数等紧密相关。当模型规模突破阙值,即出现“智慧涌现”。 迈入AI智能时代,计算芯片依赖已从CPU转向GPU AI时代离不开机器学习,而神经网络训练及推理需要进行大量的矩阵运算和jvzquC41zwkrk~3eqo526?98;;83;879:88:5B5
14.超万卡GPU集群关键技术深度分析2024计算引擎卸载加速 1/0 设备的数据路径与控制路径,面向节点提供标准化的virtio-net(Virtual1/0 Network)、virtio-blk(Virtiual 1/0 block)后端接口,屏蔽厂商专用驱动。 存储引擎在 DPU 上实现存储后端接口,可基于传统 TCP/IP 网络协议栈或RDMA(Remote Direct Memory Access)网络功能连接块存储集群、对象存储集群、jvzquC41yy}/5?5fqe4dp8ftvkimg88288>55h6345>:6<580jznn
15.浙江大学计算机系统结构实验室蚂蚁智能引擎技术事业部-共享智能 高级技术专家 在研项目 Projects 面向预训练语言模型下游迁移任务 预训练语言模型(Pretrained Language Models,PLMs)已经成为了自然语言处理(NLP)的主流方法。通过在大 基于TPM的安全可信技术研究 随着云计算、大数据、物联网的发展,越来越多的信息系统部署到云上,尤其是关系国jvzq<84cte4{l~3gfw4dp8;473?0nrxv0jzn
16.基于GitOps和CI/CD开发低成本可观测AI智能体实践开发者社区智能计算引擎:兼顾深度分析与极致实时 有了强大的存储系统,下一步是构建灵活高效的计算引擎。我们面临两类典型需求:涉及海量数据、复杂计算,要求结果绝对精确的深度分析型任务,以及如 Dashboard 展示,强调低延迟、高响应速度的实时交互型任务。为此,我们在计算层做了多项关键升级: jvzquC41fg|fnxugt0gmk‚zp0eun1jwvkerf1:;:7;7: