大数据架构平台搭建指南|智能计算引擎_AI智能

零代码、低成本快速创建采集表

基于大数据引擎，通过可视化组件、托拉拽式实现数据汇聚与集成开发

指标定义、指标建模、指标固化、指标分析，一体化完成指标的落地与应用

组件化、零sql实现各类复杂报表和丰富多样的图表分析

面向业务人员，简单拖拽即可生成可视化图表

内置150+特效组件，快速打造酷炫灵动的可视化大屏，支持在线编码，拓展视觉体验至极致

搭载自然语言分析引擎，引入AI大模型技术，通过简单的对话问答实现快速数据分析

移动采集、审批、分析一站式解决移动办公诉求

一站式数据分析平台

了解ABI

全程“零”编码，高效实现主数据模型、主数据维护、主数据分发、主数据质量的全过程管理，为企业主数据管理落地提供有效支撑，实现各业务系统间的主数据共享，保障企业主数据的唯一性、准确性、一致性。

内置多类主数据模版，可视化实现多视角模型定义，满足复杂规则的编码自动控制

多种数据接入方式，支持不同场景的审批管控，数据版本可回溯，满足主数据的全生命周期管理

拖拽式任务设计，内置丰富组件，支持主动式、被动式分发模式

全过程质量管控，支持内置及自定义规则，提供图表式质检报告

主数据管理平台

在线模型设计，深度融合数据标准，规范数据定义

自动化元数据感知，全链路血缘提取，理清数据资源

智能化标准推荐，一键式数据落标，树立数据权威

“零”编码规则搭建，全流程质量整改，高速数据质检

规范资产目录，自助式数据共享，释放资产价值

基于大数据引擎，通过可视化组件、托拉拽式实现数据汇聚与集成开发

超30+主流数据库、国产库、大数据库、文件、消息队列等接口之间极速交换结构化、非结构化数据

构建分级分类体系，动态数据脱敏，保障数据安全

全盘监控数据，决策数据周期，释放数据资源

智能数据治理平台

了解睿治

覆盖数据建模、采集、处理、集成、共享、交换、安全脱敏于一体，一站式解决数据开发所有的问题。

结合标准体系的可视化建模工具，支持模型的正、逆向构建

拖拽式任务编排，内置丰富组件，支撑亿级数据的快速处理与迁移

具备高并发、高吞吐量、低延迟的一体化任务编排能力，可视化设计、分布式运行

提供图形化的任务监控和日志跟踪，面向运维、管理人员的完善监控体系

数据工厂系统

纯web设计器，零编码完成基本表、变长表、中国式复杂报表、套打表、问卷调查表等制作；支持年报、月报、日报，以及自定义报表期等多种数据采集报送频率

提供在线填报和离线填报两种应用模式，也支持跨数据源取数；填报数据自动缓存在WEB浏览器中，即使宕机也不会丢失

内置灵活轻便的工作流引擎，实现了用户业务过程的自动化；支持层层审批、上级审批、越级审批、自定义审批等多种审批方式

对于下级填报单位上报的数据，上级汇总单位可将其进行汇总；支持层层汇总、直接下级汇总、选择单位汇总、按条件汇总、按代码组汇总、按关键字汇总、自定义汇总等

提供数据锁定机制，防止报表数据被意外修改；支持数据留痕，辅助用户过程追溯；未及时上报的用户自动催报；所见即所得的打印输出等

提供多种类型的数据接口，可以导入EXCEL、DBF、二进制、文本等格式的数据，可以将报表数据批量输出为HTML、EXCEL、XML、TXT等格式

数据采集汇总平台

统一指标定义，实现“一变多变、一数多现”的数据管理效果，为企业提供强有力的数字化保障和驱动效应。

采用可视化、导向式方式构建指标业务域，形成指标地图，全局指标一览在目

流程化自助式的定义、开发、维护各类指标，零建模，业务人员即刻上手

助力企业更好地查询、使用指标，提供共享、交换、订阅、分析、API接口等应用服务

指标管理平台

企业级智能体平台，低门槛搭建智能体，灵活编排流程，融合 LLM 实现“问数”、“问知识”

面向业务的对话式问数，即问即答，更懂你的诉求

理解数据，洞察数据，更懂数据内容，把数据见解讲给你听

动态地分析数据特点，提供最合适的图表类型展示，让数据展现更简单

完全是颠覆做表的方式，一句话看板创建，启发式内容制作

智能化生成包含深入分析和建议的报告，复杂数据简单化，释放数据潜力

数据跃然屏上的AI大屏汇报，让数据讲述故事

海量知识，一触即达，提供更智能的知识检索服务，快速找到“对”的人

不止于工具，更是随时待命的得力助手。一声指令，为您提供即时的数据分析和决策支持

智能数据问答平台

面向企业级数据资产交易运营场景，助力企业实现数据资产的价值挖掘、升值和资产变现。

提供上百类数据交换、汇聚、处理能力；零代码数据模型开发。

全链路数据治理，把控资产质量，理清资产血缘。

定义、盘点、规划无序的数据类和应用类资源，构建数据资产管理体系。

提供数据资源门户，及数据API、数据服务等快速检索能力；动态脱敏、加密保障数据安全。

提供用户注册、审批、订购等一体化管理，持续提升企业数据资产价值。

数据资产运营平台

从采、存、管、用四大方面构建数据治理体系，实现数字化经营

主数据全生命周期管理，保障主数据一致性、权威性、共享性，提高企业运营效率

以元数据管理摸清家底，以资产编目盘点数据资产，提供数据服务

集数据采集补录、数据ETL建模、数据实时存储、数据分析展现等应用场景于一体

集数据集成、数据治理、资产规划开发、资产运营等场景应用于一体

集元数据采集和规整、数据标准建立与评估、数据质量管控等场景应用于一体

面向业务和技术提供指标管理指标分析等服务的指标统一管理平台

涵盖数据存储、数据集成、数据交换、数据共享等方面，为企业用户提供云原生仓湖一体解决方案

提供数据全生命周期过程的数据服务手段，实现数据应用到数据运营

基于大模型AI的智能化低代码数据开发平台,助力企业高效构建现代化数据仓库、数据湖

基于大模型（LLM）与BI引擎深度融合的新一代数据智能平台，致力于打造会说话的数据助手

构建标准化的高质量数据集体系，打通从采集到训练的全链路

案例中心

学习中心

认证中心

培训活动

亿信社区

伙伴招募

供应商招募

了解亿信

亿信动态

亿信ABI

数据治理

产品解决方案

金融

租赁

医疗卫生

制造

能源

教育

央国企

其他

案例中心

学习中心

认证中心

培训活动

亿信社区

伙伴招募

供应商招募

了解亿信

亿信动态

IDC蝉联数据治理解决方案市场第一

虽然大数据平台组件很多，但是对于没有参与建设过大数据平台的朋友来说，当前众多的大数据组件和平台架构容易让人眼花缭乱。

本文首先介绍了大数据架构平台的组件架构，便于了解大数据平台的全貌，然后分别介绍数据集成、存储与计算、分布式调度、查询分析等方面的观点，最后附上了某企业大数据平台整体架构设计方案PPT，值得借鉴。

从图上可以看出，大数据架构平台分为：数据集成、存储与计算、分布式调度、查询分析等核心模块。我们就沿着这个架构图，来剖析大数据平台的核心技术。

日志同步系统虽然本身比较成熟，但在平时工作中也属于重点，一是因为需要同步的数据量比较大，二是要保证日志输出的持续性，有缓存机制最大限度保障不丢日志，始终保持平稳的运行状态。

2. 数据抽取工具

DataxundefinedDataX 是阿里开源的一个异构数据源离线同步工具，致力于实现包括关系型数据库（MySQL、Oracle 等）、HDFS、Hive、ODPS、HBase、FTP 等各种异构数据源之间稳定高效的数据同步功能。

BitSail 项目是头条刚开源的，基于 Flink 开发，在自己内部业务应用广泛。BitSail 支持多种异构数据源间的数据同步，并提供离线、实时、全量、增量场景下的全域数据集成解决方案。

专家观点：

3. 数据传输队列

RabbitMQ：队列传输

Pulsar：流式传输+队列传输

专家观点：

Kafka是Hadoop组件全家桶，名气更大，但是易用性还是差一点。

Pulsar 跟Kafka很像，不过架构比Kafka更先进，属于后起之秀。

专家观点：

对于 HDFS 来说，优化是一个很重要的事情，因为 HDFS 的集群规模比较大，又要稳定，又要持续不断的应对业务挑战，优化这一块还是很重要的。如果集群负载大时，访问延迟，会影响集群整体使用效率。

HDFS 的优化趋势包括：架构改进、读写分离、读写优化等。

虽然 HDFS 是分布式文件系统，但在实际场景中，由于 NameNode 的单点和小文件过多导致的压力过大问题，其管理的数据节点是有限的。分布式文件系统的新趋势类似 JuiceFS 的架构，采用「数据」与「元数据」分离存储的架构，从而实现文件系统的分布式设计，利用元数据缓存极大提升整体文件系统的性能，同时兼容大数据和云原生场景的应用。

2. 数据计算

专家观点：

● Spark+数据湖是未来的发展方向。

● 离线的场景很丰富，但是缺乏处理的非常好的统一的计算引擎，hive和spark都无法做到，所以这一块未来还有很大的发挥空间。

（2）实时计算引擎优缺点及适用场景

专家观点：

● Flink的优点是：可以实时的进行计算，在处理流计算这个方向上是最好的组件，而且几乎可以替代近实时的业务场景。

● 缺点是对离线处理会略显不足，不太适合处理大批量的离线数据集。

● Flink的优化方向很多：

a. Flink在流处理稳定性上，虽然已经做到极细粒度，但是遇到阻塞时，会存在丢失数据的问题。需要加强稳定性。

b. 实时性的提升：实时的优化是无底洞，业务需求能到秒级别、毫秒级别，怎么能让Flink在业务场景用的好，提升速度的同时，保持数据一致性，是Flink面临的挑战。

1. 常用任务调度系统

提到常用的任务调度系统，大家都会想到非常多，包括但不限于：Crontab、Apache Airflow、Oozie、Azkaban、Kettle、XXL-JOB、Apache DolphinScheduler、SeaTunnel 等，五花八门。

专家观点：

● Apache DolphinScheduler（海豚调度）更专注于大数据场景，调度功能不复杂，但是足够把任务管理起来。并且它是中文的，这一点对于中文用户较友好。

● Apache Airflow 国外用的多。

资源调度系统主要包括 Yarn 和 Azkaban。

Yarn 用的广泛，上层很多组件都要支持，所以很受欢迎，对其优化很多。

05、大数据查询

常用的OLAP引擎对比：

专家观点：

专家之一曾经用 Presto 和 StarRocks 做过对比 Impala 的性能测试，结论如下：

● 结果上看 StarRocks 的性能确实很强大，速度最快，但三者对比提升相同量级的性能需要更多的 CPU、内存资源等；

● Impala 在开启各项优化之后，效果是可以接近 StarRocks 的；

● Presto 性能一般，而且发现跑部分 TPC-DS 测试时，调用 HMS API 的频率偶尔很高，曾经把 HMS 搞挂过。但是 Presto 的易用性感觉最好，差不多就是开箱即用，配置很简单。

支持多源数据（多Catalog）的接入，但是随着数据湖对底层数仓存储层的统一加上各个。

其他高效分析引擎对数据湖的支持，这块的优势也会被逐步抹平。

专家对查询引擎优化的观点：

大数据查询优化工具包括 Alluxio、JuiceFS 和 JindoFS。

THE END

大数据架构平台搭建指南

重塑数据智能—及刻引擎让线下世界变得“可计算”刻ai引擎及刻大模型数据智能算法

专访丨华院计算创始人宣晓华：一位数学信徒的创业路陈省身

智能算力，数字经济新引擎（科技视点）

天穹uper：腾讯下一代大数据自适应计算引擎腾讯云开发者社区

爆火干货仅用数据实现精准计算与智能优化：从零搭建工业级实时监控系统博客

大数据架构平台搭建指南

易智瑞空间大数据分析引擎助力国土空间基础信息平台“数智化”能力提升

大数据解决方案

智能营运分析助手：用数据驱动企业高效决策腾讯云开发者社区

集智聚力交叉融合，之江实验室启动建设智能计算数字反应堆

低代码拖拉拽，科远赋能灵活高效的数据可视化应用创作

云原生大数据计算服务axompute企业级aa化智能云数仓云数仓搭建大数据计算

客观的给大家介绍一下适合做股票量化的券商

海洋大数据智能分析系统

国产高端智算中心崛起！“超级发动机”激活新质生产力澎湃号·媒体澎湃新闻

奥创引擎采购华南数谷智算中心服务升级智算运维稳步迈向时代

数势科技谭李：wiftgent如何攻克nalyticgent的核心难题

智能计算天穹uper如何利用机器学习实现计算引擎自适应腾讯云开发者社区