“品牌数据服务商” 在这1-2年内应该“居安思危”,注重品牌认可度塑造、提高规模化生产能力、大力发展如预标注、项目进度可视化等精细化运营方式、增加如语音合成(TTS)数据处理等差异化服务,最终追求的是单位价格的利润最大化。
中国及全球人工智能发展概览
人工智能产业发展和产业链结构
数据决定了AI落地程度,是商业化过程中重要的一环
自从2012年深度学习在图像和语音方面产生重大突破后,人工智能便真正具备了走出实验室步入市场的能力,2016年AlphaGo的胜利再次引爆行业,成功唤起了中国市场的兴趣,时至今日,人工智能的商业化在中国得到了长足发展,在安防、金融、企服等领域纷纷落地开花,同时也真正意义上衍生出了一套完整的产业链。AI产业链可以分为基础层、技术层和应用层,基础层按照算力、数据和算法再次划分,对整体上层建筑起到支撑作用;技术层根据算法用途分为计算机视觉、智能语音、自然语言处理等,是AI最引人注目的环节;应用层则按照不同场景的需求定制开发专属服务,是AI真正赋能行业的方式。目前人工智能商业化在算力、算法和技术方面基本达到阶段性成熟,想要更加落地,解决行业具体痛点,需要大量经过标注处理的相关数据做算法训练支撑,可以说数据决定了AI的落地程度,而AI基础数据服务行业又鲜有关注,因此本报告承接艾瑞《2019年中国人工智能基础数据服务白皮书》,再次挖掘该行业的现状和发展,展示其真实的一面。
人工智能技术实现路径
机器学习是主流,其中监督学习下的深度学习是主要方式
人工智能是对一类能够实现机器模拟智慧生命某些特征的技术统称,从学术上可以分为以知识工程为代表的符号主义、以神经网络为代表的连接主义和以仿生机器人为代表的行为主义三个流派,近些年掀起又一轮人工智能热潮的机器学习就属于连接主义学派。机器学习按照训练方式可分为使用人工标注分类标签训练的监督学习、无分类标签且自动聚类推断的无监督学习、使用少量人工标注+自动聚类的半监督学习和根据现实情况自动“试错+调整”的强化学习四类,而最著名的深度学习同样是机器学习的分支,但因为模型结构的不同而与上述训练方式不在一个区分范畴,深度学习在训练方式上均可与四种方式发生重叠。目前来看AI应用最广泛的计算机视觉和智能语音更依赖于监督学习下的深度学习方式,半监督和无监督是学术界尝试突破的方向,当下仅在如无人驾驶中急转弯场景训练等特定领域中得以尝试应用,而强化学习被认为是更接近人类在自然界中学习知识的方式,在最佳路径选择、最优解探寻等方面有所应用,但泛化能力还有待突破。
人工智能对数据资源服务的需求趋势
定制化需求成为主流,数据服务市场步入需求常态化
监督学习下的深度学习算法训练十分依赖人工标注数据,2012年-2016年期间人工智能行业不断优化算法增加深度神经网络层级,利用大量的数据集训练提高算法精准性,ImageNet开源的1400多万张训练图片和1000余种分类在其中起到重要作用,为了继续提高精准度,保持算法优越性,市场中产生了大量的标注数据需求,这也催生了AI基础数据服务行业的诞生。时至今日,人工智能从业公司的算法模型经过多年的打磨,基本达到阶段性成熟,随着AI行业商业化发展,更具有前瞻性的数据集产品和高定制化数据服务需求成为了主流。据了解,目前一个新研发的计算机视觉算法需要上万张到数十万张不等的标注图片训练,新功能的开发需要近万张图片训练,而定期优化算法也有上千张图片的需求,一个用于智慧城市的算法应用,每年都有数十万张图片的稳定需求;语音方面,头部公司累计应用的标注数据集已达百万小时以上,每年需求仍以20%-30%的增速上升,不仅如此,随着IoT设备的普及,语音交互场景越来越丰富,每年都有更多的新增场景和新需求方出现,对于标注数据的需求也是逐步增长。结合市场来看,随着AI商业化发展,AI基础数据服务需求步入常态化,存量市场具有较为稳定的需求源头,而增量市场随着应用场景的丰富,以及新型算法的诞生,拥有更广阔的想象空间。
全球人工智能产业发展情况
全球市场火热依旧,呈现集群式发展,AI落地仍是主旋律
2019年全球人工智能行业发展依旧火热,重点围绕北美、欧洲和亚洲三大区域发展,共有5386家活跃企业,27400名高级研究人员,20座重点发展城市,产生了约374亿美元融资,其中自动驾驶、药物医疗、人脸识别、视频内容和金融反欺诈是获得融资最多的领域。综合来看,美国仍然是人工智能领域的领头羊,每年不仅向全球输出最前沿的AI应用概念,提供最接近市场需求的应用场景,同时也吸收着世界各地不断涌入的人才、数据资源和创意灵感。以英国、德国为代表的欧洲发展区和以中国、日本、新加坡、印度为代表的亚洲发展区整体实力相近,但走出了两条完全不同的路径,虽然欧洲储备了大量的AI人才,但市场活性不强,对于创新业务的发展并不友好,而亚洲虽然人才储备不充裕,但市场活力十足,对AI技术充满了期待。
中国与全球人工智能发展情况对比
中国AI发展属世界前列,并仍处于上升期,前景良好
全球人工智能发展了六十年,中国参与了二十余年,随着政府意志和市场意志双重聚焦,中国的人工智能发展进入了黄金期。对比2019年中国与全球人工智能发展情况,在AI相关论文发布数量、企业数量、融资总额、产业规模、专利申请数量等方面中国均居世界头部阵营,具有充分的市机场竞争力。补足短板方面,中国也在不断努力。人才储备是技术软实力发展的核心,教育问题并非能一蹴而就地解决,目前全国已经有35所高等院校开设了AI专业,国际交流和国际人才引进也在不断加深,未来5年内将有大量从业者涌入市场。产业结构单一也是中国人工智能行业存在的固有问题,研发型企业远少于应用型企业的隐患随着中美专利竞争而浮现,政府开始重视AI基础层创业公司的培养,资本方也更加关注AI芯片、机器学习算法、数据处理等产业链上游企业的发展,科技巨头企业更是提前进行了AI生态布局,建立了产业联盟,在各方的努力中中国AI市场处于从局部向整体发展的上升期,行业前景良好。
中国人工智能典型产业规模
2019年AI赋能实体经济预计贡献收入超570亿元
近几年,人工智能技术在实体经济中寻找落地应用场景成为核心要义,人工智能技术与传统行业经营模式及业务流程产生实质性融合,智能经济时代的全新产业版图初步显现,预计2019年人工智能核心产业规模将突破570亿元,目前,安防和金融领域市场份额最大,工业、医疗、教育等领域具有爆发潜力。
中国科技企业人工智能算法研发投入
2019年中国科技企业AI算法研发投入规模预计超370亿元
根据数据分析,2019年中国科技企业技术研发投入约为4005亿元,其中人工智能算法研发投入占比为9.3%,超370亿元,且大部分投入来自互联网科技公司。主要AI算法应用领域——计算机视觉、语音识别/语音合成,以及自然语言处理占比分别为22.5%、2.3%和7.1%,三者中计算机视觉相关算法研发投入占比最大,这与视觉相关创业公司数量、产业需求和政策导向呈正相关联系,计算机视觉目前仍是中国最具代表性的AI应用技术。
人工智能基础数据服务市场现状
中国人工智能基础数据服务市场规模
2025年市场规模将突破100亿元,年化增长率为21.8%
艾瑞通过对中国AI基础数据服务行业中主要需求方、品牌数据服务商、主要中小型数据供应商等多方调研描绘市场情况,根据数据显示,2019年中国AI基础数据服务行业市场规模可达30.9亿元,其中图像类、语音类、NLP类数据需求规模占比分别为49.7%、39.1%和11.2%;根据需求方投入情况和供应方营收增长情况推算,预计2025年市场规模将突破100亿元,年化增长率为21.8%,该行业核心业务与当下以监督学习为主的人工智能市场具有强相关联系,市场发展前景向好。
从需求方角度看市场增速
整体增速平稳向上,增量市场将替代存量市场成为主要拉力
AI基础数据服务市场从需求角度看可以分为存量市场和增量市场,存量市场中巨头互联网科技公司和AI创业公司为主要需求方,项目落地所需要的采集、标注数据逐渐成为需求核心,存量市场仍是目前AI基础数据服务市场的需求主体;增量市场是相对于存量市场而存在的,以海外市场、国内新需求方市场、国内新兴业务拓展和国内新成立的AI创业公司需求为主,增量市场虽然近些年对于整体市场规模的贡献率不够明显,但随着中国人工智能技术的不断深入与国际化,在未来将成为主要的拉动力量。从短期来看,AI基础数据服务市场增速仍然与存量市场增速紧密相关,主要依赖于已有客户常规业务委托,以及如语音识别业务中方言、小语种数据需求增加等内容更新需求支撑发展,随着存量市场需求逐渐长尾化,供应方将会更加关注增量市场的拓展,来减轻对已有客群的依赖,达到良性的可持续发展。
从供应方角度看市场格局
CR5为26.2%处于低集中竞争阶段,中小企业占比仍较大
中小型供应商份额持续缩小,品牌商地位确立价值逐渐凸显
从供应方的发展来看,行业内部处于“洗牌”阶段,虽然中小型数据供应商的整体体量仍然可观,但随着业务门槛提升、客户需求多样化、价格战中利润被压缩等情况成为常态,越来越多的中小型数据供应商在苦恼生存问题,加之业务断档期人员成本的压力,该群体在未来1-2年内将迎来一阵“倒闭潮”。通过数据显示,2019年中小型数据供应商份额比预期值缩小了20.8%,而这部分份额按7:3的比例,向品牌数据服务商和需求方自建团队释放,作为行业的头部阵营品牌数据服务商在这一阶段受益最多,不仅营收方面得以增长,也逐步稳固了自身领头羊的地位。而根据增量市场的特征,品牌数据服务商在品牌效益、团队建设、资质、服务意识、业务能力等方面均有优势,在未来增量市场成为主要拉动力的竞争阶段将占有更大的主动性,从这两方面看,未来品牌数据服务商阵营将替代中小型供应商阵营,占有市场的主要份额。
品牌数据服务商竞争环境和趋势分析
1-2年窗口期后进入竞争阶段,品牌商应提前布局
由于目前AI基础数据服务行业对于劳动力存在密集性需求,所以人力输送和项目转包等服务形式会持续存在,因此中小型数据供应商仍会占有一定的市场份额,不过大部分玩家将逐渐远离“利润中心”。以中小型数据供应商份额缩小的速度看,未来1-2年内“红利份额”将释放完毕,所以该阶段对于品牌数据服务商而言是行业窗口期,品牌之间不需要产生太强的竞争,就会带来较为可喜的营收增长。这一时期过后,品牌数据服务商阵营将占有市场的主要份额,各家品牌商都经过不同阶段的打磨,具备了较强的竞争力,市场开始了充分竞争时代,出现价格战几乎成为了必然,因此在这一阶段中,能够利用精细化运营,使单位价格利润更高的公司将具有更强的价格承受能力,可以在激烈的市场竞争中胜出。
为了在后续的竞争中占据先发优势,品牌数据服务商在这1-2年内应该“居安思危”,面对存量市场时注重品牌认可度塑造、增加技术投入提高规模化生产能力、提高技术壁垒发展精细化运营方式、增加如语音合成(TTS)数据处理等差异化服务,最终追求的是单位价格的利润最大化;增量市场尚未形成充分的竞争环境,应注重打造品牌影响力,增加曝光度、提高服务意识,增加自身对AI算法的理解能力,积极主动配合客户的探索性需求、重视培养海外营销团队,将业务出海视作重要战略、增加数据采集能力,快速迭代自身业务以适应需求变化,最终追求打造品牌与实力的双重口碑效应,扩大市场影响力。
人工智能基础数据服务行业壁垒
人工智能基础数据服务业务流程和壁垒
分四步流程,壁垒体现在经验、渠道、能力、管理和技术上
AI基础数据服务行业的产品形式主要为数据集产品和数据资源定制服务,二者在业务流程方面基本相同,都按照数据库设计→数据采集(或需求方提供)→数据处理→质检的步骤执行, AI基础数据服务商凭借多年的服务经验,在各环节中均可建立壁垒,以巩固行业地位。通过对需求方和供应方样本的调研分析,发现拥有对计算机视觉、智能语音、NLP等算法训练需求的深刻理解能力、拥有更专业的数据库设计能力、拥有更具前瞻性的数据集产品设计能力,以及参与过更多探索型项目的公司在获取新客户和新任务时具有明显优势;拥有更丰富的方言,小语种,全球各地人脸采集渠道、场景搭建能力,特殊场景数据采集能力和如语音合成、3D点云等高门槛数据标注能力的公司业务更加稳定;拥有稳定的供应链团队、实时量化的可视化管理系统,以及AI算法加持的公司在精细化管理和利润把控方面更具优势。
管理和执行系统平台化融合能力
集数据标注、项目管理和质量把控于一身,以平台管理替代人员管理,是该行业科技化转型的关键一步
随着AI基础数据需求多样化,以及复杂程度的提升,以往项目经理“人管人”的管理方式和使用单一工具应对单一需求的执行方式在能力和效率上都显得捉襟见肘,尤其对于品牌数据服务商而言,客户类型丰富、数据需求多样、并发项目众多,仍使用传统方式,将会因产能天花板的压力,而限制发展规模,如单纯扩大人员团队又会陷入重资产运营和边际效益低的漩涡,难以快速确立行业地位以面对下一阶段的竞争。因此,拥有一套自主研发贯通数据库设计、数据采集、数据处理、质量检测、质量控制和数据安全管理等各环节于一体,并且能对图像、文本、语音、视频以及点云数据做到一站式加工处理的管理和执行一体化平台,能在提升人机协作效率,扩大产能,灵活可变地增加标注能力之外,准确地把控每一环节的数据安全和质量问题,将全公司综合实力集中体现出来,是实现人力驱动向技术驱动的关键一步。
人工智能算法预处理能力
在数据采集和处理环节中应用感知智能,进行人机协作,能降低标注难度,提升生产力
如果说人工智能是加速数字化革命的发动机,那数据资源服务行业就在为其生产汽油,同时这台发动机也在反哺行业。AI在数据标注领域主要应用于数据采集和数据处理环节,在数据采集中无论是图像或是语音数据都会出现重复样本和不合格样本,人工通过抽查或是遍历每一个样本的方式校验,在准确率、成本把控和时效性方面都大有不足,而通过使用计算机视觉和语音识别技术对采集到的样本进行初步识别,可以在短时间内达到90%以上的校验正确率,实现几倍于人力的工作效率,更有如海天瑞声的应用案例,将其研发的语音识别设备直接用于声音收录阶段,省去了校验后的返工流程,进一步减少执行阻力。在数据处理环节中,标注员需要对图像数据中每一个目标元素进行拉框或标点,目标边界需要勾描的十分精准,进行语音标注时需要聆听每一个词语的发音,判断并转写其语义,这对于标注员在长时间多任务下的专注力有着极高要求,在此环节应用人工智能可以对图像数据进行场景分割、人脸和物体识别,对于语音数据进行语音识别、文字转写和自然语言理解的预处理操作,自动完成标注后,再由人工进行校对,不仅降低了标注难度还变相增加了生产力。目前人工智能尚不能取代人力,清楚认识其价值,并积极应用到人机协作中,将成为AI基础数据服务行业精细化管理中鲜明的竞争壁垒。
语音合成数据处理能力
专业门槛高而鲜有服务商涉足,从而形成排他性竞争壁垒
语音合成技术已经广泛应用于人们的日常生活中,如手机助手、智能客服、智能音箱、语音导航都是其应用场景。目前语音合成的主流方式可以分为波形拼接合成和参数合成两种,其中参数合成是利用文本参数和声学参数间形成映射模型,从而完成文本内容向语音转化的过程,所以在有限样本数据的情况下,参数合成语音成为了众多智能语音算法团队的首选,随着深度学习在语音领域的突破,利用神经网络取代传统映射建模的参数合成方式,在合成效果上更进一步,逐渐减少了合成语音的机械感。在语音合成中AI公司着重于映射模型算法的创建和训练,而语音片段数据和相应的声学参数标注则交由数据服务商提供,其间数据服务商需要对录制的发音人语音片段进行音素、韵律、音节边界、音素边界、词性、重音、声调等内容进行标注,然后切分、截取音素边界;并且在项目初期需要向客户展现合成demo,在项目交付时需校验合成效果,这就要求数据服务商不仅要掌握专业的声学知识、数据标注经验,还要拥有语音合成的算法能力,目前该领域主要由海天瑞声和标贝科技两家数据公司提供服务,未来随着物联网的普及,将会有更多交互设备出现,语音合成需求将会持续增长,在此趋势下,拥有语音合成数据处理能力,将成为具有排他性的竞争壁垒。
行业发展机遇与挑战
行业发展与挑战
下游利好和洗牌红利期将推动品牌公司发展壮大,但竞争已悄然开始
结合报告上述分析内容,目前人工智能行业仍以有监督学习的模型训练方式为主,对于标注数据有着强依赖性需求,但随着AI商业化进程的演进,更具有前瞻性的数据集产品和高定制化服务成为了AI基础数据服务行业的主要服务形式。从全球角度来看,人工智能发展依旧火热,逐渐形成以北美、欧洲和东亚为代表的发展集群,产学研各方人才向其中涌入,世界范围内的产业交流与合作逐渐形成规模,并日趋常态化。对比中国与世界的发展情形来看,中国正处于补全短板,丰富产业,培养人才,进而向外输出技术能力的快速发展阶段,人工智能行业发展前景良好,而作为强关联性的AI基础数据服务行业受其发展红利的影响,未来市场仍有不小的上升空间。着眼行业内部,伴随着上一轮AI创业热潮的平息,行业经过了一轮洗牌,脱颖而出的品牌数据服务商和中小型数据供应商形成了主要的供应方力量,但随着需求方市场由粗犷向精细化过渡,项目要求提高、利润压缩、管理成本上升等问题迫使了一众中小型厂商提前离场,在未来一到两年内行业将再次迎来洗牌。下游行业发展带来的利好,以及行业内部洗牌的趋势,对于品牌数据服务商而言是机会也是挑战,存量市场和增量市场具有稳步向上的潜力,洗牌后空白市场留出的空窗期将成为剩下企业的红利,但竞争也在悄然发生,红利过后市场将进入品牌间的正面较量阶段,对于存量市场和增量市场的抢夺将成为主旋律,这于对品牌公司的生产力、精细化管理能力、利润把控能力、营销能力和品牌影响力都带来了巨大的考验,为应对竞争,品牌公司应在红利期就早早布局,以技术应用和研发为驱动力,产生更多行业壁垒换取更多主动性。