我对“大数据”一些看法

时间:2019-01-18
本文章向大家介绍我对“大数据”一些看法,主要包括我对“大数据”一些看法使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。

最近几年一直很火的“大数据”这个概念,相信很多人都不陌生。所谓的“大数据”其实是包含两个方面,一个是数据,另一个就是大。

在大数据这个概念出来之前的数据指的是实验数据、统计数据等,就是一个数字的形式表现出来;也可能是信息和情报等;作为程序员提到数据更多指的是数据库中的数据。

数据量在没有出现大容量的存储空间和自动化的处理计算机之前是很小的。纸质的表格文件,既不容易记录整理也不容易存储,在整理和归类过程中的需要花费巨大的人力,而且还不一定保证数据的准确性。

随着计算机的计算能力的提高和存储空间的扩大人们现在存储的数据形式和数据量都有了很大的改观。

存储的数据形式也不再是单一的表格数据,而扩展成声音、图片、视屏等多种多样的数据格式。

每个人都有属于自己的格式,重要的数据包括:身份证号、姓名、性别、所在城市、居住地址、工作单位、手机号码等属于个人隐私的数据,其他数据还有所开的汽车、家庭收入、孩子的学校、日常开支等,再者就是经常出入的场所、爱吃的餐厅、经常逛的网页等。这些数据在多个维度上展现了一个人的情况。也许有人会觉得除了隐私的一些数据之外其他的数据即使别人知道了也无所谓。一个人的一些数据被知道也无所谓,但是一旦这个人的其他一些数据同时被知道了,那么就可以通过这些数据分析出这个人当前的一些具体情况。这也就是为什么购物网站经常会推送给你一些你可能会需要的东西。

对于一些数据,有人觉得可以通过统计的形式获得,但是这里面执行的难度就很大了。首先要设计合理的问卷,然后在针对不同的人群选择不同年龄段,还要选择不同的地区。最后统计完成之后,如果发现统计维度少了一个,如果再增加一个维度的话,相当于重新再做一次调查,成本几乎就和上一个调查一样。

还有一个很重要的原因,就是人们通过问卷调查填写的数据未必就是大家心里真实的想法。有些人为了使自己显得不是很另类或者让自己显得有面子,通常会填写一些高大上的答案。

而人们在网络上填写的数据是不会有压力的,因为都是匿名的,没有人知道你是谁,没有人关心你的姓名,人们只是知道有这么个人发表了这样或者那样的言论或者答案等。

大数据的重要性在于它的多维度和完备性。

过去人们统计的数据依赖于计算能了和存储空间,包括问卷调查,因此收集数据只会收集到有限的几个维度的数据,其他维度的数据就被自动的忽略掉了。

大数据可以从数据的本身出发,不带有任何想法和偏见,看看数据本身能够带来什么样的结论。

无论在什么领域,或者从事什么行业,谁懂得数据的重要性,谁会在工作中善于利用数据,谁就用可能会更成功!
aaa