#本文为人人都是产品经理《原创激励计划》出品。
虽然现在AI大模型很火,每个企业都想分一杯羹,但是过程中涉及到的算法、数据等不是轻而易举就能实现的。其中,数据的传输和管理是个大问题。本文围绕AI应用训练的瓶颈展开叙述,对AI训练难点进行总结并结合IDC分析报告,得出“数据”是最大瓶颈的结论,并针对该问题思考解决策略。
“最近身边再次响起了讨论AI的声音,与前两年对AI持观望态度不同,很多人都说随着ChatGPT应用,AI时代真的来了,产品、运营同学们都在忙着了解什么是ChatGPT、什么是Stable Diffusion等等,但是算法工程师却在疯狂头疼,疯狂抱怨,领导要求他们尽快搞出大模型,尽快提升算法模型指标,服务业务,路过算法组听到张工和胡工的以下的对话:
张工:胡哥,你的模型训练的怎么样了啊?
胡工:哎,一言难尽,没数据啊,好不容易跟业务部门提了数据,他们不是收集不上来,就是收集上来的数据各式各样,没法用啊?
张工:谁不是呢,我这边也是,最近客户的图片,视频加起来10多个T,让我们自己传,光来回导数据就耽误了我们组好长时间。
胡工:你说要是公司能搞个数据平台,让我们快速获取数据多好啊,日常把数据收集管理好,用的时候就省事多了。”
听到以上的对话,我灵机一动,最近基于数据编织想法给客户做的数据管理平台不就刚好可以解决他们问题嘛,于是我赶紧给他们做了详细的产品介绍,讲述下如何通过“数据编织”的设计理念建设数据管理平台帮助用户突破AI在应用训练中的数据瓶颈。
除去人员主观问题外,我们将AI应用训练的客观难点进行总结,可以概括为以下三点:
高质量数据:算法训练想取得好的效果,首要条件是高质量数据,但是如何获取高质量数据,存在如下困难:
高效算力:指训练模型时,通常需要大量算力,同时如何将算力高效发挥成为难点
成熟框架:指算法应用需要成熟稳定,扩展性强的算法框架
小结:从AI应用训练的3个难点分析,都与数据有关,所以如果能解决数据问题,可有效助力AI应用训练突破瓶颈。
虽然从应用侧总结出数据是AI应用训练的瓶颈,但是到底有多少用户这么认为呢?需要用一份数据来说明。
人工智能应用的主要挑战排名
人工智能模型开发过程中,投入多少工作量用于数据准备
注:数据来源于IDC统计报告
从数据统计可以看出,其中有29%的用户认为人工智能的应用缺少训练和测试数据,85%的用户认为至少花费了一半以上的工作量用于准备数据。
小结:既然数据被证实确实是AI应用的瓶颈,那么就可以考虑从数据寻找切入点,以提供统一标准、快速访问的大批量的高可用数据源为定位开展产品规划。
在寻找到以数据为切入点后,思考如何建设数据类的产品,根据上述的分析,可以发现要在我们的产品中解决3个数据类问题:
对以上问题,本次在传统数据管理平台基础上采用“数据编织+知识图谱”的理念进行变革设计。其中各个问题的突破点如下:
接下来是产品的详细设计,从产品定位、应用架构、差异化竞争力和建设路径展开介绍。
1. 产品架构1)产品定位
以数据编织思想提供知识图谱式的数据管理平台,服务于需要高质量数据的客户。
注:虽然主要目标是解决AI应用训练的数据瓶颈,但是从产品规划角度,我们将用户场景扩大,但凡需要数据服务的都是该产品的目标用户。
2)产品应用架构
从数据层到产品应用层,我们设计如下的产品架构:
数据层:支持接入不同种类数据类型,以及结构化数据和非结构化数据,AI训练的数据类别较多,尤其是多模态应用更需要多种类型的数据。
存储层:针对数据的离散性,要支持数据在不同位置的存储,从云上数据到本地数据都需要支持接入。
数据管理平台:本次需要设计的核心产品,主要包括四块:
数据服务:在设计完平台后,需要预留出对外服务的出口,从产品的定位出发,以toB客户为主,所以既要考虑可视化服务、也要提供API类的服务。
图注:天眼查截图仅用于学习参考
2. 商业化产品一旦落地,商业化是不可获取的,所以在产品规划阶段需要将商业化方向先考虑清楚,从以下3个关键方面考虑:
1)售卖内容
针对B端客户,我们提供两类售卖内容,包括“数据管理平台”标品和“技术方案”。
2)售卖方式
B端产品常见的两种售卖模式“渠道合作”和“直销”,在本产品中也采用这些方式。
3)差异化优势
既然是基于新的设计思路打造的数据管理平台,那么在产品销售过程中,就需要体现出与传统数据管理平台的差异化优势,才能后来居上,吸引用户,我们可以概况为以下3个优势点:
产品的成熟还需要有持续的建设路径,在本产品建设过程中,立足“项目打磨产品”,分两个2个大的阶段进行建设。
本文围绕AI应用训练的瓶颈展开叙述,对AI训练难点进行总结并结合IDC分析报告,得出“数据”是最大瓶颈的结论,并针对该问题思考解决策略。
以数据编织和知识图谱的理念进行产品变革设计,从产品定位、产品架构、应用场景等角度详细介绍了一款“数据找人”的智能化数据管理平台,同时还介绍了产品后续的商业推广思路及建设路径,对有数据应用场景的客户,如AI训练平台,数据标注平台,甚至是传统数据管理产品需要改造升级的客户可以提供帮助。
后续我们会进一步探索将数据编织的思路扩大到模型并行训练的实际过程中,寻求更多的数据高效化的可行性。
专栏作家
Eric_d,人人都是产品经理专栏作家。关注AI、大数据等领域,擅长需求分析、产品流程和架构设计等,日常喜欢徒步。
本文为人人都是产品经理《原创激励计划》出品。
本文原创发布于人人都是产品经理,未经许可,禁止转载。
题图来自 Unsplash,基于CC0协议。
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。