酷克数据推出开发工具箱ash加速企业级应用落地投产

近日,业界领先的国产企业级云数仓厂商酷克数据发布了下一代In-Database高级分析和数据科学工具箱HashML,在业内率先实现为企业提供随数仓部署一步到位、开箱即用的AI能力。

在数字经济时代,描述性分析已经非常成熟并被企业广泛采纳。然而,受限于人才缺口和技术门槛,更高价值的预测性分析和决策性分析,目前普及度仍然相对较低。为了应对日益激烈的市场竞争,企业IT部门迫切需要简单易用的高级分析工具产品来实现对业务可持续健康发展的有效支撑。

图1: 数据分析的不同层级

数据仓库作为企业数据存储、加工和分析的核心场所,蕴藏着规模庞大的数据资产。然而,通用的模型和算法的效果往往只能达到差强人意的“及格线”。只有通过AI算法与应用场景及企业自有数据紧密协同,才能充分释放数据潜力,达到驱动业务健康发展的“优秀线”。以HashData为代表的现代企业数据仓库,为AI模型的训练、部署和推理提供了最佳的数据支撑平台。

为了降低高级分析和AI技术的应用门槛,酷克数据基于HashData打造了下一代In-Database高级分析和数据科学工具箱HashML。

HashML提供了从数据查询处理、高级分析到机器学习、深度学习的一站式多层次数据分析和AI能力。针对近期市场高度关注的大语言模型,HashML也提供了从高质量数据挖掘、模型微调到模型部署和推理的全流程支持。同时,基于HashData内置的分布式并行向量数据存储、索引及检索功能,HashML提供了向量知识库的构建和检索能力,使得知识增强的大语言模型应用开发变得更加简单。

HashML继承了HashData的云原生优势,从模型训练到模型部署都可以做到按需弹性伸缩。同时,HashML也提供了Python和SQL两种语言支持,无论是数据科学社区的Python用户,还是数据库社区的SQL用户,都可以低门槛地上手使用。

图2:HashML主要功能概览

HashML拥有以下三大产品特色:

·简单易用:可随HashData数据仓库一起安装部署,做到开箱即用,同时所有模块API的设计,都力求标准化,与数据科学社区流行的第三方库保持一致,最大程度保障易用性。

·性能卓越:根据任务的复杂度确定并行处理的并发度,尤其对于较为复杂的深度模型或大语言模型,可以利用多机多卡实现高效的训练和微调,保障作业时效性。

·算法丰富:从传统的统计机器学习算法到常见的深度神经网络,和最新的预训练大模型,都能提供良好的支持,同时也针对知识增强的大语言模型应用,提供了向量知识库,能够高效支持海量语义向量数据的存储和检索。

简单易用——标准化接口,低代码开发

简单易用是我们设计HashML时的首要目标,力求帮助企业无门槛使用各种经典和最前沿的AI算法和模型能力,低成本解决实际业务问题。为了实现这个目标,HashML对编程接口做了高度抽象和标准化。客户只需编写少量代码就可以完成从数据加载到数据处理、模型训练、模型部署和推理预测的全流程工作。例如,针对模型的训练和微调,HashML抽象了统一的fit接口。不论是机器学习模型、深度学习模型还是大语言模型,都可以调用该接口完成模型训练或微调。

代码示例1:XGBoost模型训练

代码示例2:LLaMA2模型微调

为了方便SQL开发者使用AI能力,HashML还提供了SQL编程语言接口。下图显示了如何通过执行SQL语句完成XGBoost模型的训练。

代码示例3:HashML SQL接口

性能卓越——多机多卡,弹性伸缩

基于HashData强大的集群资源管理能力,HashML可以根据算法复杂度、数据量大小、访问负载等因素按需分配所需计算资源,为模型训练、部署和推理提供灵活的计算环境。

分布式并行数据处理

HashML定义了数据模块,可以帮助开发者高效地完成数据读写、数据分析、数据处理等各种功能。这些功能对于开发机器学习、深度学习模型至关重要,可以高效快捷地完成数据清洗、特征提取、特征变换、样本生成等一系列任务。基于封装良好的编程接口,用户只需要关注数据处理逻辑的实现,仅需少量的代码开发,计算过程就可以由HashData计算引擎以分布式并行处理的方式高效完成。

分布式并行模型训练

HashML提供了分布式并行模型训练能力,可以按需将模型训练任务分配给多个Worker执行,同时可以为每个Worker指定所需计算资源(包括CPU核数和GPU卡数)。对于大多数常见的训练任务,数据并行就足以高效完成模型训练。对于参数规模庞大的大语言模型,我们在数据并行的基础上,利用DeepSpeed和Accelerate实现模型并行。另外,得益于HashData对计算资源的统一管理,用户无需费心训练作业具体是在哪些机器上执行,运维工作大幅简化。

弹性可伸缩服务部署

HashML提供了弹性可伸缩的模型部署和在线推理功能,旨在简化模型的部署并根据服务负载动态调整模型实例的数量。除了支持单个模型的弹性部署,HashML还支持多个模型的组合部署,这对于需要调用多个模型完成一个业务请求的场景非常有用。用户可以在服务端完成复杂业务逻辑的开发,客户端只需要与服务端进行一次交互就能获得最终的结果,不仅大幅简化了业务开发,同时提高了端到端服务的时效性。

算法丰富——机器学习深度学习全覆盖,前沿算法快速追踪

HashML的另一特色就是算法种类丰富,从经典的统计机器学习算法,到知名的深度学习算法,都提供了很好的支持。同时,通过密切追踪技术发展动态并根据市场需求,HashML也会及时引入前沿算法。例如,针对当前非常热门的大语言模型,HashML通过融合业界主流的开源大语言模型,提供了一套完整的大语言模型应用开发框架,可以低成本、快速地完成从高质量数据挖掘、模型微调到智能应用开发的全流程工作。

机器学习与深度学习

为了满足各种应用场景,HashML内置了对经典机器学习算法的支持,如Logistic Regression、Random Forest、SVM、XGBoost、LightGBM等,还通过支持主流的深度学习框架(如PyTorch),能够支持各种深度学习算法。另外,HashML也允许用户根据需要定制开发新算法。通过对算法开发框架精心封装,使得用户在充分理解算法原理的基础上,只需关注网络结构的定义和实现,用少量代码就能完成新算法的开发和引入。新算法开发完成后,可以自动具备HashML所提供的分布式并行训练和推理能力。

代码示例4:自定义神经网络

大语言模型

人工智能的问世使得大语言模型成为了当前最受关注的研究热点。大语言模型技术的产生与发展不仅重塑了人工智能发展的技术路线,还在很大程度上改变了AI技术在企业的应用范式。HashML顺应技术趋势,提供了对大语言模型的支持,包括模型微调以及知识增强的大语言模型应用开发。HashML对当前业界主流的开源大语言模型都提供了支持,包括ChatGLM、Baichuan、LLaMA-2、Qwen等。基于HashML,可以非常方便地实现百亿级参数大语言模型的私有化部署,并在客户私有环境实现模型微调和智能应用开发。

图3: 日益繁荣的开源大语言模型生态

应用案例:HashML助力大语言模型在企业落地应用

ReQA: 检索增强的智能问答

大语言模型使用了大量的文本进行训练从而使人机对话更加智能,但对于特定领域的知识,大语言模型却显得捉襟见肘。基于HashML和大语言模型,可以快速搭建基于向量知识库的检索增强的智能问答系统(ReQA)。在ReQA中,企业通过调用本地部署的Embedding服务将自有的知识库(包括管理制度、产品手册、技术手册、运维手册、工作规范、流程记录、FAQ等)进行向量化,并存放到HashData形成向量知识库。当回答用户提问时,通过检索向量知识库获得相关信息,作为上下文和问题一起提交给大语言模型,这样大语言模型就能够生成精准的回答,从而有效解决困扰大语言模型的生成“幻觉”问题。ReQA在企业有着非常广泛的应用场景,包括智能客服、销售助手、文档阅读助手等。

图4:检索增强的智能问答实现方案

示范应用1:检索增强的智能问答系统

ChatData:基于自然语言的交互式数据查询分析

虽然SQL是一种普遍使用的数据库查询语言,但对许多企业员工来说却是一道难以逾越的门槛,这无疑限制了业务部门直接处理数据。针对这个问题,我们基于HashML和大语言模型开发了ChatData,使得企业每个员工可以无门槛地使用自然语言与权限范围内的数据库进行交互。ChatData大大降低了数据分析和应用的门槛,有利于充分地释放企业数据价值。在ChatData中,首先利用大量高质量的<查询指令,SQL语句>数据对大语言模型进行微调,使之能够准确地将自然语言表达的用户查询意图转换为正确合法的SQL语句,系统通过执行生成的SQL语句完成数据查询并返回结果。在此基础上用户还可以通过自然语言和系统进行交互,实现对查询结果的可视化。

图5:基于自然语言的交互式数据查询分析实现方案

示范应用2:基于自然语言的交互式数据查询分析系统

Data+AI 助力企业数智化升级

新一代人工智能技术正在加速企业数字化、智能化进程,长远来看,将对企业的研发、生产、经营带来深远影响。企业需要逐场景深入打磨,让AI计算贴近应用场景、贴近企业数据资产,才能实现更好的AI落地。酷克数据打造的下一代高级分析和数据科学工具箱HashML,致力于大幅降低AI技术的应用门槛,为数据科学家、数据工程师、AI应用开发者使用先进的AI技术提供便利。我们希望以企业数据仓库为依托,结合前沿的AI技术,帮助用户以低成本快速试错,迭代发掘高价值应用场景,推动AI技术在企业规模化落地,产生真正的业务价值。未来,我们将持续迭代完善产品,将HashData打造成强大的企业级数据和AI基础设施,助力千行百业通过分析与智能实现业务价值!

THE END
0.2024年20个最好的AI工具和应用生成式人工智能应用程序和工具根据它们从大量人工智能模型、数据集和神经网络中接受的训练生成原创内容。 世界上最大的科技公司和新兴的人工智能初创公司都在以每分钟为单位发布新的生成式人工智能解决方案,这使得人们很难跟上这项新兴技术的步伐。 为了全面了解当前的生成式AI工具领域,我们编制了这份详细的指南,介绍了jvzquC41yy}/lrfpuj{/exr1r1>c2m>97:h36:
1.2025年AI工具类应用市场洞察报告当前全球AI工具市场呈现出明显的结构性变化,文字记录类工具正经历关键转型期。 市场数据显示,传统单一功能的文字AI工具如DeepSeek、ChatGPT等普遍出现访问量负增长,下滑趋势明显,而Al智能助手、对话、创作类综合功能产品则可能成为突破口。 这种转型背后反映着技术应用场景的深层演变。 jvzquC41yy}/|qn|jk>90lto1cxuklqgu1?:6;80jvsm
2.《你的智能教学助手应用AI工具高效辅助教学机械工业出版社当当天宇阁图书专营店在线销售正版《你的智能教学助手 应用AI工具高效辅助教学 机械工业出版社》。最新《你的智能教学助手 应用AI工具高效辅助教学 机械工业出版社》简介、书评、试读、价格、图片等相关信息,尽在DangDang.com,网购《你的智能教学助手 应用AI工具高效辅助jvzq<84rtqjve}3fcpmecwl0eqs03:>94;637B50jvsm
3.值得买科技CTO王云峰:在真实消费场景下打造垂类AIGC应用工具据王云峰介绍,除了上述已上线的应用,值得买科技还在同步开展多模态的工作,具体包括:“图生图”和“文生图”模型,短视频脚本的生成,短视频的自动生成,以及直播数字人等,而可供内容创作者使用的创作辅助工具也在推进研发之中。 作为AIGC最具商业化空间的应用领域之一,整个消费行业正在经历这场技术革命的冲击。“我们的jvzq<84vgen/eww0ep5uglmrj1814<5;235u49752;62a>7862:46=3ujvsm
4.关于发布“2023年中国知网大学生诚信教育与论文写作指导”讲座的讲座内容:面向大学生毕业论文和日常课程作业撰写,从当前热点一一AIGC 谈起,讲解数据库检索查询、格式编辑工具、 AIGC 等数字化工具应用的方法和问题,帮助大学生正确认知数字化工具的使用。 详情咨询:图书馆信息咨询部 电话:86390322 Email:xxzx@hrbust.edu.cn QQ:295409504jvzquC41nkh/j{gwuv4ff~3ep1814<4324<0e<945c?14==1rcmf0qyo
5.利用AI工具提升论文效率:12款神器搞定选题写作与查重问题。> “我的论文是《AI赋能乡村小学英语教学的实践路径》,想写‘AI工具提升效果的机制’,帮我梳理逻辑链。” 通义千问秒出: AI技术通过分层应用显著提升教学效率:输入层根据学生个体差异智能推送个性化单词资源;处理层利用实时语音识别与评分系统提供即时反馈;输出层帮助教师精准定位易错点并动态调整教学内容;最终在效果层实现学生平均成绩 jvzquC41dnuh0lxfp0tfv8fdk36338ftvkimg8igvcomu86768<14<=
6.企业应用市场jvzquC41crvncuq0zkgngwfkt0ipo8
7.利用AI工具和技术实现高效工作与商业变现ai商业应用与变现AI工具和技术在提升工作效率和实现商业变现方面具有巨大的潜力。通过内容创作、数据分析、自动化工作流程等应用,企业和个人可以显著提高工作效率。同时,通过垂直行业解决方案、SaaS服务模式、API付费模式、广告驱动变现、定制化服务与咨询等路径,AI技术可以实现多样化的商业变现。成功案例表明,无论是企业还是个人,都可以通过合jvzquC41dnuh0lxfp0tfv87723e:2?962380c{ykenk0fnyckny03=;;86?7;
8.AI应用架构师工具推荐:10款提升强化学习开发效率的必备工具摘要:本文主要为AI应用架构师推荐10款能够显著提升强化学习开发效率的必备工具。通过详细介绍这些工具的特点、功能以及使用场景,帮助架构师们在强化学习项目开发过程中,依据实际需求快速选择合适工具,提高开发效率与质量。 背景介绍 目的和范围 随着人工智能的快速发展,强化学习作为重要分支,被广泛应用于机器人控制、游戏、jvzquC41dnuh0lxfp0tfv87627e9:?8857=0c{ykenk0fnyckny03>984984:
9.程序员的转型:如何拥抱AI工具并结合Python源代码进行说明;然后介绍相关的数学模型和公式,并通过举例进行详细讲解;之后通过项目实战展示AI工具在实际编程中的应用,包括开发环境搭建、源代码实现和代码解读;再探讨AI工具的实际应用场景;推荐一些学习资源、开发工具和相关论文著作;最后对未来发展趋势和挑战进行总结,并提供常见问题的解答和扩展阅读的参考jvzquC41dnuh0lxfp0tfv87723e:3==557<0c{ykenk0fnyckny03>98:2:77