从其他角度来看。排除本身产品、APP应用AI技术外,
其实现在互联网公司,传统公司都想接入人工智能来解决一部分人力成本。
比如内容社区类可以实现人工智能审稿,电商类人工智能发货等,那么你有没有想过你公司的产品,如何和人工智能接轨呢?
以下为全文:
#目录#
首先,盲目说做AI领域XX方向好、有前景,公司就应该做这些方向...
诸如以上此类的,我认为都是不对的。
这是因为技术和业务没有绝对好与坏,不同的对象要按不同的方式去看待和评价。
其次,应该先思考公司有什么“东西”,是存在业务价值的;又或者说当前面临着什么问题;甚至是目标等等。
没有一个“现状和分析”、没有一种“背景和调查”,就得出“问题与价值目标点”。因为没有这些作支撑,就如同:我们不谈需求?不辨需求真伪...就去盲目做事情是一个道理,而这是扛不住考验的。
最后,还要明确知道现有的人工智能都出于“弱智能”阶段,每个AI细分领域的技术实现边界、技术成本和门槛分别是什么?如NLP领域实现多轮对话本身就是大难题。
只有弄明白“AI能做什么、“我”有什么能让AI去处理并且能挖掘出更大价值或更高效率的”,才是重点。
关于公司业务结合AI的方向,我举一些例子:
1、如内容型平台(包括资讯分发、电商产品、视听内容等产品):
可以考虑“内容”的怎么获取、怎么审核、怎么分发的三个阶段去应用AI。(类似产品的“何去何从”策略分析),可以考虑再获取的时候例如多点监听+爬虫;在审核时利用NLP、CV来智能审核,预估风险;在分发时可以利用机器学习的推荐系统实现千人千面。
2、如O2O、出行方面:
可以是AI下基于深度学习的“调度分配策略”,这些都是属于AI领域的细分,在美团、携程、滴滴会更加注重这方面的产品经理招聘,一般都叫策略产品经理,或者是出行产品经理。
3、如地图方面、路线规划等:
基于机器学习的地图渲染策略、路线规划..、出行方案等等,都是基于AI领域的结合落地,乃至楼上说到的自动驾驶,其实本质就是SLAM方面的技术结合落地。
4、如翻译系统、产品搜索引擎等,本质也会利用AI的知识图谱、NLP等来支撑落地。
5、如现在很多电商产品都标配的“扫图搜产品”,本质就是AI领域CV的应用落地。
7、再同上延伸,如我们拍照很好看有美颜,或者基于一些现实场景的视觉增强类游戏,就是属于AI领域的AR、VR结合产品应用的。(比如前年苹果wwdc发布的 arkit 技术的增强游戏,很酷炫)
8、如360这些产品,基于深度学习搞这么多风控模型,也是属于一种产品防御机制,我们的手机管家也是这样进行预防病毒和风险。乃至我们很多公司怎么去判断黑产用户、薅羊毛行为,都是基于风控模型;
9、关于我们在产品售后环节,都是引入了问答Q&A机器人、智能客服,这些都是结合AI领域的知识图谱、NLP自然语言处理的产品应用。
10、再如天猫精灵、小爱机器人等等,都是基于ASR+NLU+DM+NLG+TTS等技术去落地的产品化。
除了以上,可能还有很多,都是大家都没有想——原来这些日常看见的也属于AI与产品的应用... 其实吧,本质AI产品化就是玩数据喂养后的模型。多个模型综合利用就看起来更智能了。
以上,人工智能其实一直在发展,很早就开始了。
只是技术的发展也会因天时、地利、人和等因素或缓慢、或爆发。
最后,公司产品与什么的AI方向结合落地?——这需要根据所在的业务、行业去思考。
如银行系统、金融行业,也都是玩征信评估、信用预测模型,都是属于基于AI深度学习方向的风控风险预估,和上面提到360安全管家等案例,也是属于玩风控,但不同的业务却衍生不一样的“产品业务落地”。
AI本质就是技术手段,是个数据喂养的模型,注重是输入和输出,技术本身没有什么意义、
关键是业务+技术、策略。思考有什么,为什么,怎么落地,为什么是他,有什么风险,怎么对应去解决。
你要利用这个“成熟或者不成熟的AI”,如何结合行业和业务去思考,把这些结合产品化?怎样思考用户场景下去满足,这些都是需要策略去支撑....
这也是策略PM的分支也包含AI PM的原因
实则,这个是当时面试欢聚时代YY的高级AI产品经理的面试问题,
应该是属于第二轮、第三轮的面试问题。
简单介绍一下:
最后一轮是已经获得offer临时加的,CTO面。
cto曾是百度凤巢系统负责人,当时刚来YY,AI实验室直属CTO管辖;
当时AI在16-17年,可以说是很热,那时候阿法狗、区块链等也正引起巨大舆论。
虽然是4年前的Q&A,但放到现在依然适用,很多面试也会出现类似的“问题”,或许业务不同,但思考逻辑差异不大!
节选了其中两个问题(后面梳理成文):一是内容分发在直播平台中的AI应用?二是自然语言对话在直播平台中的AI应用内容如下:
本文目录如下:
1. 内容分发在直播平台中的AI应用
1.1 内容的审核监管
1.1.1先说:问题和风险
1.1.2再看:传统的解决
1.1.3应用改进:AI
1.2 个性化的内容分发
1.2.1背景
1.2.2利用AI挖掘出内容特征
2. 自然语言对话在直播平台中的AI应用
2.1客服机器人
2.1.1现状
2.1.2对话增加情感分析
2.1.3对话增强自我学习
2.14 对话增强意图分析、上下文分析
2.15其他
2.2语音助手
2.3直播间辅助
2.3.1 场景1:语言表达缺陷
2.3.2.场景2:直播环境语音不可用时
2.3.3 场景3:直播间辅助
4. 总结
1. 内容分发在直播平台中的AI应用
首先,根据直播平台的内容,可泛分为三种:内容创作者(主播)、视频直播、小视频;
其次,从内容的“进与出”,可分两大方面:一是内容的审核监管,二是个性化的内容分发。
最后,内容的生产创作方面(这个本文先不讨论,以后单独再发)
1.1 内容的审核监管
该场景聚焦的是:科学管控、提升效率,降低成本。
1.1.1 先说:问题和风险
(1)直播内容监控复杂度高,人工易漏判
(2)网络直播规模庞大,人工审核成本高
监管要求24小时实时进行,虽然违规比例占比不高,但为了做到“无漏网之鱼”,需要投入大量的人力、物力和财力进行监管,运营成本压力增加。
(3)直播流量聚焦夜晚,人工审核效率低
夜晚疲劳,人眼识别精确度降低,出现误判漏判的概率上涨,审核效率降低,难以达到网络直播的内容监管需求。
(4)主播实名及直播实时验证难
一是主播注册的实名验证,若完全依靠人力审核,人力成本增加,难以做到真实有效的审核;二是每次主播直播时,都验证是否属于本人在直播,这又增加一部分人力成本,运营难度上升。
1.1.2 再看:传统的解决
传统的审核方式主要有三种:
弊端:这些审核方式都存在较大的漏洞。“三班倒”的人工容易导致审核效率低、误判漏判多等主观性问题;MD5则非常容易被篡改;传统智能识别色情图片准确率低、经常误报等。同时,对近两年热门的视频直播审核需求更难以满足。
1.1.3 应用改进:AI
基于上述场景与问题,可引入AI技术落地优化。
(1)方案:利用AI识别+人工审核的模式
(2)场景:如举例“鉴黄”:通过鉴黄模型对内容分析的类型为“色情”、“性感”和“正常”三类,并且机器会自动将识别结果分为确定和复审两部分,确认部分的识别精确度达到或超过人工,无需复审,对于复审部分,机器会根据可能性排序,人工再根据概率从高到低来审核。
同样,可延伸至主播封面图等审核任务。
1.2 个性化的内容分发
聚焦:视频直播的推荐结果与用户的心理预期重合度变大,用户在观看直播时的选择更加直观和精准,用户的活跃度明显提高,平台的点击率和留存率明显上涨。
1.2.1 背景
大数据时代,对于电商、内容型产品,个性化推荐已成标配,应用好处不多复述。
此处的内容分发,侧指的是前端的个性化内容排序,即个性化推荐。
目前主流的推荐算法是协同过滤,推荐引擎是多种推荐算法组合的。此处也不对算法层面过多开展,侧重关注的是:无论是何种算法引擎,都是基于用户画像、货物(内容)画像的基础上进行计算。没有这些基础特征是难以开展个性化的内容分发。
同时,用户画像中的兴趣、行为偏好,往往受内容画像所映射的。如A用户阅读一篇名为“周杰伦最新演唱会定时间了!”,可能会被标上“娱乐偏好”、“周杰伦”等标签,并通过不同的行为给予不同的权重分值。因此,如何识别出内容的特征,是影响着个性化内容分发的效果、效率、体验。
1.2.2 利用AI挖掘出内容特征
此处只针对视频直播进行分析。
利用AI技术从人脸、图像、音乐和语言四个维度对视频直播进行分析和理解,可以对其做出基本的分类,特征化。
(1)从内容看特点
(2)应用流程
首先,按上述特点,应对视频直播的内容按多种维度划分,利用AI对内容识别,挖掘出丰富内容特征。
其次,由于直播是实时性,是由主播产出,是先有主播再有视频直播内容。因此,此处的对直播内容识别出的特征,应是给主播打上。
最后,可以考虑一种的个性化内容分发是:用户特征+主播特征,进入推荐引擎计算,召回一批符合用户偏好的“主播权重列表”。此时再去查询这些主播是否有开直播、直播开始多久了、亲密程度等等维度进行综合推荐,以达到个性化内容分发。
(3)AI识别维度、内容分发排序
列举一些对内容识别的特征维度(举例一些,不全):
从直播来看:
从主播来看:
举例:
上面这些的识别基本都需要结合AI技术进行,挖掘出内容特征作为推荐使用。
(4)个性化内容分发的排序-算法
自己YY一下基本的维度:
(5)其他
2. 自然语言对话在直播平台中的AI应用
首先,NLP涉及领域很多,凡是有自然语言(语音、文字)输入的场景,都有可能会使用到。如语义分析、机器翻译等。此处的自然语言对话,侧指智能助理/智能问答/语音服务等方面。个人理解是:即利用AI技术打造出:统一的CUI(对话交互界面)、一站式的整合信息&服务。
其次,若按对话的场景区分有:封闭域对话、开放域对话。通俗的说,前者是”要求用户输入指定地话语才能继续对话”,输入输出是可枚举的、有明确始与终;后者是“用户爱说什么就说什么都可以持续对话”,输入输出无法穷尽、无明确流程。
若按对话内容方式有:文字、语音。(一般情况下,文字可以直接处理,如果是语音,通常情况下需要将语音转换成文字(ASR技术)
一般原理是:是用户输入,引擎内部通过长期积累的知识,首先经过自然语言分析,在通过语义理解、上下文分析进行知识推理,从而生成个性化的答案,输出给用户。整个典型的自然语言对话如下图。
最后,从几个场景去分析,包括有:客服机器人、语音助手、直播间辅助。
2.1 客服机器人
基本原理是:输入的是用户的问题,引擎内部通过长期积累的知识,首先经过自然语言分析,在通过语义理解、上下文分析进行知识推理,从而生成个性化的答案,输出给用户。整个典型的自然语言对话如下图。
2.1.1 现状
客服机器人依据媒体类型分为两种,基于电话语音,基于文本信息。前者如10086的自助语音服务;后者一般是置于应用中,能解决简单而又大量重复问题,以节约成本,如淘宝的小蜜、万象,直播APP里的客服助手等。
从输入方式来看有:语音输入和文字输入,技术上的区别是语音输入要做语音识别,将语音信号转换成文字。目前客服机器人主要是两者都支持。
如下图的所示,属于能支持自然语言对话(语音+文本)的客服机器人。
问答机器人其实是在头部问题上实现了综合过滤,然后通过对话的形式反馈给用户,如果用户实在问的是长尾问题,问答机器人回答不了的,此时可走人工客服。满足了用户九成以上问题的直接答复,是问答机器人的核心目标。满足在服务上,缩短服务寻求路径与服务寻得率,从而提升用户自助体验,降低人工入线率,降低运营成本。
2.1.2 对话增加情感分析
即相当于赋予客服机器人EQ,能在对话中对语义进行分析,精准感知用户情绪,并在回复表达中蕴含相应情感,让互动更有温度。
原理是自动识别对话过程的文字或语音,尤其是带有主观描述的进行情感分析,如,可以识别生气、喜悦、失望、着急等多种人类细分情感,对此生成相应带情感的、口语化的表达,若判断精准,能让用户体验佳,不冰冷。
举个例子如下图,JD客服JIMI机器人增加情感分析,从IQ到EQ的升级,用户体验上是有明显差异的:
此外,增加情感分析也可用作对话质量(服务)评估。如根据前来咨询的客户来时的情绪,以及离开时情绪的对比,就能从另一个维度感知此次服务的质量。既可以用以考核客服人员,也可以用来改进客服的服务。
2.1.3 对话增强自我学习
场景:客服机器人无法满足用户需求,出现呼叫人工客服。
在人工沟通-解决的过程,客服机器人应将此对话过程沉淀学习。如记录下:呼叫人工客服前的对话过程、人工对话的过程,分析不足与改进点。若每一次人工解决问题,中间的所有信息都被人工智能所记录,多次学习自我进化,能提升客服机器人对话服务质量。
2.14 对话增强意图分析、上下文分析
场景:对话过程中的上下文,分析预测相应的场景、语境,进而精准服务。
2.15 其他
不能以对话轮数多少相比。
比如,人类用户与小冰的平均每次对话轮数可达到23轮,微软对此也颇为津津乐道,但是,在客服上,如果机器人要与前来咨询的客户对话23轮,才能给出答案,你可以想象客户的反应会是什么。
2.2 语音助手
相比较于客服机器人,语音助手更是起到连接、推荐作用。用户通过输入语音或文字,可调用直播平台内各项功能、服务。整个对话过程是类似开放域的场景。
2.3 直播间辅助
2.3.1 场景一:语言表达缺陷
有一类人,他们身患绝技、各怀才艺,却有表达缺陷,如哑巴。在如今强调人人是IP、自媒体的时代,他们可能因此而失去一些做主播的机会。
但是,他们本身是懂表达,如唇语、手语。从本质上,一切人类沟通的语言都属于自然语言。因此,能利用AI的技术手段进行识别、跟踪,通过NLU进行理解、翻译,最后输入语音表达。
关于辅助声音,创作者录音通过声音模型学习,尽量拟合原声或差异个性化的。
同时,若声音实现不理想,也可以将唇语或手语识别进行文本翻译,也是一种互动方式。
2.3.2 场景二:直播环境语音不可用时
直播过程中或许存在一些语音不可用的场景,如噪音突然变大、摄像头未配备麦克风(损坏)。这时,若主播调用唇语识别功能,基于以上原理能保持直播间互动正常,避免突然冷场中断、离场等情况。
2.3.3 场景三:直播间辅助
场景:针对现场直播解说类,为主播解说提供辅助。如,体育、游戏等竞技类的比赛直播。
这里的辅助有4个方面:
4. 总结
4.1 需要了解技术现状
这里的现状,侧重是指技术原理、边界。每一项技术都有边界和最优应用场景,尤其目前AI技术相对是不够成熟的,那么了解好技术可能实现的能力范围、所需的成本、当前存在的技术瓶颈...,具备这些基础会更好去沟通、发散和结合。
4.2 需要寻找并定义AI业务场景
正如上述所言,理解技术优劣势的基础上,寻找到可以提供更好用户体验的业务场景。也就是说,如何结合当前现有AI技术与业务场景,为用户提供更好更便捷用户体验的产品。因此其中主要的工作就是:完成当前技术与现有市场需求的映射,侧重对场景的思考。
4.3 多一层评估、多一层挖掘价值
当前AI技术的实现成本相对还是高。也并非有想法就能实现,即使条件+成本都能满足时,也存在较大试错风险。因此还需对场景多思考,充分评估产品定位、用户价值、成本、商业价值等因素是否相匹配。让现有技术所定义的产品价值能够转化为商业价值。
4.4 与互联网产品经理的差异
(2)多了一种语音交互方式
机器学习促进了语音识别技术的发展,也促进发展了语音交互场景。AI语音交互的设计可能比手机/PC端的交互设计难很多,因为语音交互系统不是限定好的GUI操作界面,而是不便于规范且自由延展的自然语言。会话的开放性意味着 AI 交互设计者必须考虑用户可能采取的几乎无数的选择。要能够理解用户,了解他们的动机,然后合乎逻辑地思考如何引导他们完成一件事情。