将数字化列入近百年来最重要的关键词之一,应无疑义。数字化的内涵不断深化,范围无限延展,形成现在蓬勃旺盛的数字化生态,将众生裹挟其中。这中间,传统的媒体与调研机构难免被波及,需在新环境中奋力探索存续之道。对众生而言,数字化生存绝非一时的命题,也无固定答案,在无远弗届的数字化时代,常变常新才可长存。
本文为本期封面主题文章的第一篇,通过对大数据发展阶段的回溯,帮助我们更加深刻地理解大数据的内涵、所涉及的技术、与新媒体的关联。
大数据从何而来?与新媒体的发展有什么关系?为什么今天的大数据在新媒体乃至于更宽广的应用场景中表现出很高的价值?
如果依据对大数据的定义——大数据是指超出了过去处理能力的大量的数据和与此相适配的技术体系,那么我们就应该有所思考。大数据能够发挥价值是因为处理技术的同步演进,但数据并非凭空而来,技术的进化也非一日之功。
今天大数据已经成为一门跨学科的综合性研究领域:能够处理数值、文本、图片、音频、视频等多种类型的数据,能够应对大量数据的处理需求,能够进行全局的描绘和适当的预测,并能够解决多个场景的问题。这其中牵涉到包括统计学、网络科学、分布式、数据库、数据挖掘、自然语言处理、计算机图形学等多种技术,经历了漫长的发展历程。
当下对大数据的研究多聚焦于大数据概念提出以后,从2008年开始,并提出大数据的若干价值。笔者认为,应该往回追溯,看到大数据早在2008年以前就已经存在,与其相关的技术亦在多个路线的推动下,不断积累、形成体系,2008年以后进入到了较为高速的成长期。通过这样的回溯,我们对于大数据的内涵、所涉及的技术、与新媒体的关联会有更加深刻的理解。
大数据发展的4个阶段
大数据的发展与现代信息技术的演进息息相关,不妨将大数据的发展分为储备期、萌芽期、概念期和发展期4个阶段。
储备期:1950—1980
大数据的发生、发展,有必要追溯到大型机和数据库的早期阶段。之所以如此,乃是因为大数据指向数据以及相应的处理系统,总归无法脱离计算所需的硬件和软件。今天相当比例的数据采集、管理、挖掘的体系、思路,都要往回探寻到互联网发生以前、计算机诞生的早期。
计算机技术起源后,在政府、银行等需要大量算力、应对大量数据处理的机构的推动下,硬件技术、数据管理技术、数据挖掘和分析等的技术都逐渐得到发展,很多技术——包括关系型数据库、经典数据挖掘算法、自然语言处理算法等被提出和探讨,为今后的发展奠定了坚实的基础,并在当下的大数据应用场景中依然默默存在并发挥着作用。
在这一阶段,以IBM为代表的大型计算机提供商和以Oracle等为代表的大型关系型数据库提供方,为市场需求提供解决方案。同时,虽然媒体格局尚未受到互联网的冲击,但媒体、企业运行中的数据需求(收视分析、市场调研等)已经存在。以Nielsen为代表的研究机构在抽样理论基础上进行数据收集和分析,并提供服务。当然,随着数据量的增加和计算的复杂化,在计算机发展起来后,Nielsen也较早就购买了IBM的大型计算机来提高效率。
萌芽期:1980—2007
个人计算机的成熟、推广,以及互联网的确立并推向民用,可以说实际上启动了大数据时代。与前一阶段的大量数据来自政府、金融、科学等机构不同,此时大量的数据来自更加广泛的普通用户。
面向个人用户的计算机设备成熟、且网络已经形成了标准,确保了人与人之间、个人电脑与服务器之间的通讯规则,这就构筑了坚实的网络基础。人们通过网络、使用计算机彼此联结,创造力也不断被激发,网站、网页的数量膨胀发展,线上行为也不断被以数据的形式记录下来。
这一阶段尤为有代表性的、新媒体领域的大数据机构当属搜索引擎平台和电商平台。谷歌、百度等搜索引擎巨头一方面通过爬虫等技术大量积累互联网的网页,另一方面,为了满足人们的检索需求,持续推动着包括分布式计算、自然语言处理技术等的发展。而以亚马逊为代表的电商平台同样在积极推动着推荐算法等的进步。同时,这些早期的互联网平台也进行了精准营销的技术、产品方面的探索。
概念期:2008—2018
这一时期,大数据概念一经提出,响应者众,大数据成为资本热逐、学者竞相研讨的概念。同时,移动互联网的发展为大数据更增添助力,包括苹果、安卓终端的推出引爆智能手机市场,3G、4G的成熟和大规模民用使得移动业务蓬勃发展,也因此数据量、数据类型、数据涵盖的范围都空前丰富,且大数据与多种应用场景的结合的想象空间一一铺展开来,在资本和各方力量推动之下开始落地。具体到新媒体领域,程序化投放是其中一例,而以字节跳动为代表的个性化资讯平台的崛起,又是另外一例。
精细耕作期:2019至今
在上一阶段可以发现,大数据发展的主要推动力应该是大型的平台。他们实际上较早地意识到了大数据的存在和价值,也较早地积累下来了大量数据和相关技术,于是可以汇聚海量数据,以精准的内容和广告实现对用户和客户的吸纳,事实上也形成了与大量中小型媒体、各类企业、营销机构的博弈关系。
经过大数据概念的热炒,以及众多2C应用的考验和洗礼,无论是媒体或者是企业,都逐渐认识到了自己应用数据来完成、优化业务的重要性。大数据背景下的数字化转型、2B服务、产业互联网等概念融为一体,无论是智能融媒体或者是企业中台,都可以视为在这种理解之下,对大数据概念的一种重新框定。
数据为我所有、为我所用,进入到了基于大数据和产业需求场景的精耕细作阶段。当然从实际运作上,也不得不承认当下仍然存在着较多的杂音,不乏贪功冒进、追捧概念者。
大数据发展中的3点思考
技术、需求、数据相互推动
新的技术,尤其是底层的芯片、传输等技术的发展,推动着终端和网络的演进。当便捷的终端和网络可以以较低成本获得时,人们的需求被激发出来,那么新媒体应用的增长和进化也就会进入到加速周期。随之而来的是人们在线行为的复杂化、内容生产权力的日益下放,以及营销的难度逐渐增加。
同时发生的是数据量的累积。当新媒体应用数量和质量都逐渐提升,吸引越来越多的网民、长时间、多形式的使用与互动,所留存的数据自然也会呈现出快速增长的态势。而这些数据又为理解用户、解决新媒体的运营问题提供了条件和可能性,包括基于大数据的精准广告、推荐系统、内容优化等逐渐被应用在新媒体运营的方方面面。
从反向来看,当终端、网络的演进激发了用户的需求,用户对更加优质、便捷体验的需求又会催生出种种市场商业机会,进一步倒逼技术的快速升级。同时,大量数据既然产生且亟待被使用,那么其存储、处理面临着的新的技术问题,也会进一步倒逼着包括芯片、传输等体系的升级,包括GPU、云计算等在近年来的快速发展,可以说在一定程度上正是受到了大数据的刺激和推动。
技术与技术相互融合
数据、大数据,在今天的社会运行中已经不是什么新鲜术语了,但在广泛的使用背后,究竟指向了什么?“数据”的内涵是不断丰富的过程,也是数据行业、信息技术行业、传统行业互相进入的过程,在这一过程中,不断为数据的技术添砖加瓦,构成了一个复杂的、立体的“技术”类型。理解这一过程,才能让我们摆脱泛泛而谈,真正看清楚“数据技术”。
“大数据”,或者说“海量数据”一词,在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已久,互联网和信息行业的发展将“大数据”推到了台前,越来越多的企业与个人投入到海量数据的挖掘和利用中。
与之相对的,是市场研究公司等传统数据机构,作为小数据(抽样调查)时代的数据资源核心占有者,在大数据的浪潮中与信息技术行业有机结合,正在不断升级自身的数据业务体系。
传统行业在互联网和信息行业的裹挟中对自身业务数据的应用也有了更迫切与庞大的需求,这种需求驱动着信息行业与数据行业不断进入到新场景中,帮助传统行业搭建大数据应用架构,整合与打通数据,服务于企业(以及政府)的业务与运营。
数据资源的流通、数据处理科学与技术的发展、软硬件资源的积累、行业需求带动下的商业蓬勃兴起,让我们逐渐看到一张数据的互动全景图。在这张全景图的底层正是“数据”和“数据技术”。
构成传统调研机构生存基石的统计科学(抽样理论等)、催生了现代信息网络的信息科学(熵模型等)、遍布日常生活的计算机科学(数据库等),随着整个信息行业、数据行业、传统行业的发展,已经在实践中融合起来,形成了一个无所不包的“数据技术”的门类,同时又化身万千,蕴含在媒体运行的各个角落。
大数据与新媒体同源并进
首先,“新媒体”“大数据”都是边界并不清晰的概念,在演进中常变常新。新的媒体永远都在产生,数据的体量其实从整个媒体发展的过程中都在持续增加、变大。今天我们默认的“新媒体”“大数据”,都是在计算机技术、移动通信技术等推动下所产生的,奠基于新终端、新网络的概念,可以说具有共同的基础。
其次,新媒体催生了大数据。虽然大数据的概念被提出于2008年,但实际上,如果立足于互联网、新媒体的发展,那么早在搜索引擎诞生之时,就已经可以窥见大数据的踪迹。
以谷歌、百度为代表的搜索引擎,其基础技术是抓取全网的网页,进行解析,为用户提供快速检索服务,搜索引擎所抓取、处理的网页数量,已经足以称之为大量数据。用户时刻的检索行为,也在贡献着大量的数据。
而门户网站24小时不间断提供的新闻、图片等资讯服务,以及用户随时的点击浏览行为,同样也可窥见大数据的一丝端倪。随着移动互联网的发展、智能终端的普及,人们开始贡献更多自主的言论、图片、视频,去中心化的生产和传播则为数据量的增加贡献了空前的力量。
第三,大数据逐渐成为新媒体运营中的重要力量。当新媒体发展到了移动互联网阶段,人们在多个终端之间跳转、在多个应用之间切换,随时生成不同类型的内容、发表各种观点,其中蕴含的挑战是显而易见的。
用户不再停留在单点,成为移动的目标,如何捕捉用户注意力,持续获得用户关注呢?单纯依靠编辑的力量,很难满足用户个性化需求。用户贡献的内容如此海量,如何给予恰当的管理和审核呢?以人力进行内容的审核,成本和效果都不尽如人意。
如何找到准确的消费群体,以恰当的营销传播形式实现目标呢?虽然我们不能否认头部媒体资源的价值,但在无限的流量中捕捉、满足用户瞬间的需求,也依赖于技术的支持。
而所有的用户行为、用户创造、用户场景又都在逐渐转化为数据——虽然是互不打通、格式不齐的数据,进入到了各种数据库中,这就为以上的问题提供了部分答案:基于大数据的、相对智能化和自动化的内容运营、用户运营、广告运营,部分解放人力,为人(包括产品经理、运营经理、新媒体编辑、营销传播人员等)的操作提供有效的辅助。