
关于大数据时代这本书
<大数据时代>页数 270你的PDF具体全不全,请参照一下目录校验:目录如下:推荐序一 拥抱“大数据时代”宽带资本董事长 田溯宁推荐序二 实实在在大数据中国互联网发展的重要参与者,知名IT 评论人译者序 在路上·晃晃悠悠电子科技大学教授,互联网科学中心主任 引言 一场生活、工作与思维的大变革大数据开启了一次重大的时代转型。
就像望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活以及理解世界的方式,成为新发明和新服务的源泉,而更多的改变正蓄势待发……大数据,变革公共卫生大数据,变革商业大数据,变革思维大数据,开启重大的时代转型预测,大数据的核心大数据,大挑战第一部分 大数据时代的思维变革第1章 更多:不是随机样本,而是全体数据当数据处理技术已经发生了翻天覆地的变化时,在大数据时代进行抽样分析就像在汽车时代骑马一样。
一切都改变了,我们需要的是所有的数据,“样本= 总体”。
让数据“发声”小数据时代的随机采样,最少的数据获得最多的信息全数据模式,样本=总体第2章 更杂:不是精确性,而是混杂性执迷于精确性是信息缺乏时代和模拟时代的产物。
只有5% 的数据是有框架且能适用于传统数据库的。
如果不接受混乱,剩下95% 的非框架数据都无法被利用,只有接受不精确性,我们才能打开一扇从未涉足的世界的窗户。
允许不精确大数据的简单算法比小数据的复杂算法更有效纷繁的数据越多越好混杂性,不是竭力避免,而是标准途径新的数据库设计的诞生第3章 更好:不是因果关系,而是相关关系知道“是什么”就够了,没必要知道“为什么”。
在大数据时代,我们不必非得知道现象背后的原因,而是要让数据自己“发声”。
关联物,预测的关键“是什么”,而不是“为什么”改变,从操作方式开始大数据,改变人类探索世界的方法第二部分 大数据时代的商业变革第4章 数据化:一切皆可“量化”大数据发展的核心动力来源于人类测量、记录和分析世界的渴望。
信息技术变革随处可见,但是如今信息技术变革的重点在“T”(技术)上,而不是在“I”(信息)上。
现在,我们是时候把聚关灯打向“I”,开始关注信息本身了。
数据,从最不可能的地方提取出来数据化,不是数字化量化一切,数据化的核心当文字变成数据当方位变成数据当沟通成为数据一切事物的数据化第5章 价值:“取之不尽,用之不竭”的数据创新数据就像一个神奇的钻石矿,当它的首要价值被发掘后仍能不断给予。
它的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,而绝大部分都隐藏在表面之下。
数据创新1:数据的再利用数据创新2:重组数据数据创新3:可扩展数据数据创新4:数据的折旧值数据创新5:数据废气数据创新6:开放数据给数据估值第6章 角色定位:数据、技术与思维的三足鼎立微软以1.1 亿美元的价格购买了大数据公司Farecast,而两年后谷歌则以7 亿美元的价格购买了给Farecast 提供数据的ITA Software 公司。
如今,我们正处在大数据时代的早期,思维和技术是最有价值的,但是最终大部分的价值还是必须从数据本身来挖掘。
大数据价值链的3大构成大数据掌控公司大数据技术公司大数据思维公司和个人全新的数据中间商专家的消亡与数据科学家的崛起大数据,决定企业的竞争力第三部分 大数据时代的管理变革第7章 风险:让数据主宰一切的隐忧我们时刻都暴露在“第三只眼”之下:亚马逊监视着我们的购物习惯,谷歌着监视我们的网页浏览习惯,而微博似乎什么都知道,不仅窃听到了我们心中的“TA”,还有我们的社交关系网。
无处不在的“第三只眼”我们的隐私被二次利用了预测与惩罚,不是因为所做,而是因为“将做”数据独裁挣脱大数据的困境第8章 掌控:责任与自由并举的信息管理当世界开始迈向大数据时代时,社会也将经历类似的地壳运动。
在改变人类基本的生活与思考方式的同时,大数据早已在推动人类信息管理准则的重新定位。
然而,不同于印刷革命,我们没有几个世纪的时间去适应,我们也许只有几年时间。
管理变革1:个人隐私保护,从个人许可到让数据使用者承担责任管理变革2:个人动因VS预测分析管理变革3:击碎黑盒子,大数据程序员的崛起管理变革4:反数据垄断大亨结语 正在发生的未来大数据并不是一个充斥着算法和机器的冰冷世界,人类的作用依然无法被完全替代。
大数据为我们提供的不是最终答案,只是参考答案,帮助是暂时的,而更好的方法和答案还在不久的未来。
大数据时代具体是从什么时候开始的
卫斯理大学图书馆员弗莱蒙特·雷德出版了《学者与研究型图书馆的未来》一书。
他估计美国高校图书馆的规模每16年就翻一番。
按照这一增长速度,雷德推测2040年耶鲁大学图书馆将拥有“约2亿册藏书,将占据6,000余英里书架…[需要的]编目人员超过6,000人。
”1961年德里克·普赖斯出版了《巴比伦以来的科学》,在这本书中,普赖斯通过观察科学期刊和论文的增长规律来研究科学知识的增长。
他得出以下结论:新期刊的数量以指数方式增长而不是以线性方式增长,每15年翻一番,每50年以10为指数倍进行增长。
普赖斯将其称之为“指数增长规律”,并解释道,“科学每前进一步就以一个相当恒定的出现率产生一系列新的进步。
因此在任何时候,新科学的产生数量永远严格地与科学发现总量成正比。
”1964年4月哈里·J·格雷和亨利·拉斯顿在美国电气与电子工程师协会(IEEE)的《电子计算机学报》上发表了《应对信息爆炸的技巧》一文,在文中,他们提出了以下建议:1)任何人都不应该发表新论文。
2)如果1)不可行,仅短小的论文可以被发表。
“短小”的意思是文章不超过2,500字符,空格、标点符号都计算在内。
3)如果2)被采纳,则应该实行下述限制:“只有将现存总长度为2501或更多字符的文章删除一篇或多篇,短小的文章才可以被发表。
”上述建议的实行将产生一个重要的副产品,即减轻人才选拔委员会的负担。
因为一个人的出版物列表将仅被一个负数所代替,这个负数指代了他从现有信息存储中删除论文的净数目。
1967年11月B·A·马里恩和P·A·D·德·梅恩在《美国计算机协会通讯》上发表了《自动数据压缩》一文,文章指出,“近年来被人们所关注的‘信息爆炸’使得对所有信息的存储需求保持在最低限度是非常必要的。
”文章描写道:“全自动压缩机由三部分组成,能够快速处理信息,它可以被应用于‘任何’信息主体,大大降低了缓慢的外部存储要求,并可以通过计算机提高信息传输速度。
”1971年亚瑟·米勒在《侵犯隐私》中写道:“太多的信息处理者看似是以个人档案存储容量的比特数目来衡量一个人。
”1975年日本邮电部开始实施了“信息流普查”计划,以调查日本的信息总量(这一思想首次是在1969年的一篇文章中提出的)。
普查以“字数总量”作为所有媒体的统一衡量单位。
1975年的普查已经发现信息供给要比信息消费发展得快得多。
1978年的普查报告指出“人们对单向传播的大众传媒所提供信息的需求停滞不前,对以双向传播为特征的个人通信媒体所提供信息的需求大规模增长…我们的社会正在进入一个新阶段…在这一阶段中,处于优势地位的是那些能够满足个人需求的碎片性的、更为详细的信息,而不再是那些传统的被大量复制的、一致性的信息。
[阿利斯泰尔·D·达夫,2000;参见马丁·希尔伯特,2012]1980年4月I·A· 特詹姆斯兰德在第四届美国电气和电子工程师协会(IEEE)“大规模存储系统专题研讨会”上做了一个报告,题为《我们该何去何从
》。
在报告中,他指出 “那些很早以前就熟悉存储装置的人们发现,‘帕金森第一法则’可以被用来解释我们的现状——‘数据扩展至任何可用空间’…我相信大量数据正在被保留,因为用户无法识别无用的数据;相较于丢弃潜在有用数据的不利后果,存储无用数据的损失不那么明显。
”1981年匈牙利中央统计办公室开始实施了一项调查国家信息产业的研究项目,包括以比特为单位计量信息量。
这项研究一直持续至今。
1993年,匈牙利中央统计办公室首席科学家伊斯特万·迪恩斯编制了一本国家信息账户的标准体系手册。
[见伊斯特万·迪恩斯,1994;马丁·希尔伯特,2012]1983年8月伊契尔·索勒·普尔在《科学》杂志上发表了《追踪信息流》一文,通过对1960年到1977年17种主流通讯媒体发展趋势的观察,他得出如下结论“这些媒体为10岁以上的美国人创造的可用词汇以每年8.9%的速度增长…事实上这些媒体创造的、真正参与流通的单词仅以每年2.9%的速度增长…在上述期间,信息流的增长在很大程度上是由于广播的发展…但是在那段时期末 [1977年]情况发生了变化:点对点的媒体比广播发展得快。
”普尔、伊诺兹、高崎、赫维茨在《通信流:一项美国与日本的信息普查》中做了后续研究,这本书对美国和日本所产生的信息量进行了比较。
1986年7月哈尔·B·贝克尔在《数据通信》上发表了《用户真的能够以今天或者明天的速度吸收数据吗
》一文。
贝克尔预计“古滕堡所实现的记录密度大约是每立方英尺500个符号(字符),是公元前 4,000年苏美尔人泥土片记录密度的500倍。
到2000年,半导体随机存取存储器将能够在每立方英尺存储1.25×1011个字节。
”对于数据存储而言,1996年数字存储就比纸张存储更能节约成本,这是R·J·T·莫里斯和B·J·特拉斯克渥奇在2003年7月1日《IBM系统期刊》上所发表的《存储系统的演进》一文中指出的。
1997年10月迈克尔·考克斯和大卫·埃尔斯沃思在第八届美国电气和电子工程师协会(IEEE)关于可视化的会议论文集中发表了《为外存模型可视化而应用控制程序请求页面调度》的文章。
文章以下述内容开头:“可视化对计算机系统提出了一个有趣的挑战:通常情况下数据集相当大,耗尽了主存储器、本地磁盘、甚至是远程磁盘的存储容量。
我们将这个问题称为大数据。
当主存储器(内核)无法容纳数据集,或者当本地磁盘都无法容纳数据集的时候,最常用的解决办法就是获取更多的资源。
”这是在美国计算机学会的数字图书馆中第一篇使用“大数据”这一术语的文章。
1997年迈克尔·莱斯克发表了《世界上究竟有多少信息
》一文,莱斯克得出以下结论“世界上的信息总量近乎几千PB;到2000年,磁带和磁盘的生产将达到上述水平。
因此,在短短几年内,(a)我们可以存储任何信息——没有信息不得不被放弃,(b)人们再也不会看到典型的信息片段。
”1998年10月K·G· 科夫曼和安德鲁·奥德里科发表了《互联网的规模与增长速度》一文。
他们认为“公共互联网流量的增长速度,虽然比通常认为的要低,却仍然以每年100%的速度增长,要比其他网络流量的增长快很多。
然而,如果以当前的趋势继续发展,在2002年左右,美国的数据流量就要赶超声音流量,且将由互联网主宰。
”奥德里科随后建立了明尼苏达互联网流量研究所(MINTS),跟踪2002年到2009年互联网流量的增长情况。
1999年8月史蒂夫·布赖森、大卫·肯怀特、迈克尔·考克斯、大卫·埃尔斯沃思以及罗伯特·海门斯在《美国计算机协会通讯》上发表了《千兆字节数据集的实时性可视化探索》一文。
这是《美国计算机协会通讯》上第一篇使用“大数据”这一术语的文章(这篇文章有一个部分的标题为“大数据的科学可视化”)。
文章开篇指出:“功能强大的计算机是许多查询领域的福音。
它们也是祸害;高速运转的计算产生了规模庞大的数据。
曾几何时我们认为兆字节(MB)的数据集就很大了,现在我们在单个模拟计算中就发现了300GB范围的数据集。
但是研究高端计算产生的数据是一个很有意义的尝试。
不止一位科学家曾经指出,审视所有的数字是极其困难的。
正如数学家、计算机科学家先驱理查德·W·海明指出的,计算的目的是获得规律性的认识,而不是简单地获得数字。
”10月份,在美国电气和电子工程师协会(IEEE)1999年关于可视化的年会上,布赖森、肯怀特、海门斯与大卫·班克斯、罗伯特·范·里拉和山姆·思尔顿在名为“自动化或者交互:什么更适合大数据
”的专题讨论小组中共同探讨大数据的问题。
2000年10月彼得·莱曼与哈尔·R·瓦里安在加州大学伯克利分校网站上发布了一项研究成果:《信息知多少
》。
这是在计算机存储方面第一个综合性地量化研究世界上每年产生并存储在四种物理媒体:纸张、胶卷、光盘(CD与DVD)和磁盘中新的以及原始信息(不包括备份)总量的成果。
研究发现,1999年,世界上产生了 1.5EB独一无二的信息,或者说是为地球上每个男人、每个女人以及每个孩子产生了250MB信息。
研究同时发现,“大量唯一的信息是由个人创造和存储的”(被称为“数字民主化”),“数字信息产品不仅数量庞大,而且以最快的速度增长”。
作者将这项发现称为“数字统治”。
莱曼和瓦里安指出,“即使在今天,大多数文本信息都是以数字形式产生的,在几年之内,图像也将如此。
”2003年,莱曼与瓦里安发布了最新研究成果:2002年世界上大约产生了5EB 新信息,92%的新信息存储在磁性介质上,其中大多数存储在磁盘中。
2001年2月梅塔集团分析师道格·莱尼发布了一份研究报告,题为《3D数据管理:控制数据容量、处理速度及数据种类》。
十年后,3V作为定义大数据的三个维度而被广泛接受。
2005年9月蒂姆·奥莱利发表了《什么是Web2.0》一文,在文中,他断言“数据将是下一项技术核心”。
奥莱利指出:“正如哈尔·瓦里安在去年的一次私人谈话中所说的,‘结构化查询语言是一种新的超文本链接标示语言’。
数据库管理是Web2.0公司的核心竞争力,以至于我们有些时候将这些应用称为‘讯件’,而不仅仅是软件。
”2007年3月约翰·F·甘茨,大卫·莱茵泽尔及互联网数据中心(IDC)其他研究人员出版了一个白皮书,题为《膨胀的数字宇宙:2010年世界信息增长预测》。
这是第一份评估与预测每年世界所产生与复制的数字化数据总量的研究。
互联网数据中心估计,2006年世界产生了161EB数据,并预测在2006年至2010年间,每年为数字宇宙所增加的信息将是以上数字的六倍多,达到988EB,或者说每18个月就翻一番。
据2010年和2011年同项研究所发布的信息,每年所创造的数字化数据总量超过了这个预测,2010年达到了1,200EB,2011年增长到了1,800EB。
2008年1月布雷特·斯旺森和乔治·吉尔德发表了《评估数字洪流》一文,在文中他们提出到2015年美国IP流量将达到1ZB,2015年美国的互联网规模将至少是2006年的50倍。
2008年6月思科发布了一份报告,题为《思科视觉网络指数——预测与方法,2007-2012》,作为“持续跟踪和预测视觉网络应用影响的行动”的一部分。
这份报告预言,“从现在到2012年,IP流量将每两年翻一番”,2012年IP流量将达到0.5ZB。
这份预测比较准确,正如思科最近一份报告(2012年5月 30日)指出的,2012年IP流量刚刚超过0.5ZB,“在过去的5年中增长了8倍”。
2009年12月罗杰·E·博恩和詹姆斯·E·少特发表了《信息知多少
2009年美国消费者报告》。
研究发现,2008年“美国人消费了约1.3万亿小时信息,几乎平均每天消费12小时。
总计3.6泽字节(ZB),10,845万亿单词,相当于平均每人每天消费100,500单词及34GB信息。
博恩、少特和沙坦亚·巴鲁在2011年1月发表了《信息知多少
2010年企业服务器信息报告》,继续上述研究。
在文中他们估计,2008年“世界上的服务器处理了9.57ZB信息,几乎是95,700,000,000,000,000,000,000字节信息,或者是10万亿GB。
也就是平均每天每个工作者产生12GB信息,或者每年每个工作者产生3TB 信息。
世界上所有的公司平均每年处理63TB信息。
”2010年2月肯尼斯·库克尔在《经济学人》上发表了一份关于管理信息的特别报告《数据,无所不在的数据》。
库克尔在文中写道:“…世界上有着无法想象的巨量数字信息,并以极快的速度增长…从经济界到科学界,从政府部门到艺术领域,很多地方都已感受到了这种巨量信息的影响。
科学家和计算机工程师已经为这个现象创造了一个新词汇:‘大数据’。
”2011年2月马丁·希尔伯特和普里西拉·洛佩兹在《科学》杂志上发表了《世界存储、传输与计算信息的技术能力》一文。
他们估计1986至2007年间,世界的信息存储能力以每年25%的速度增长。
同时指出,1986年99.2%的存储容量都是模拟性的,但是到了2007年,94%的存储容量都是数字化的,两种存储方式发生了角色的根本性逆转(2002 年,数字化信息存储第一次超过非数字化信息存储)。
2011年5月麦肯锡全球研究院的詹姆斯•马尼卡、迈克尔·崔、布雷德·布朗、杰克斯·卜黑、理查德·多布斯、查尔斯·罗克斯伯勒以及安杰拉·孔·拜尔斯发布了《大数据:下一个具有创新力、竞争力与生产力的前沿领域》。
他们指出:“到2009年,对于美国所有的经济部门而言,平均每个有1,000名以上员工的公司所存储的数据至少有200TB(是美国零售商沃尔玛在1999年数据仓储的两倍)”证券和投资服务部门所存储的数据处于领先地位。
总的来讲,这项研究估计2010 年所有的公司存储了7.4EB新产生的数据,消费者存储了6.8EB新数据。
2012年4月《国际通信学报》出版了“信息计量”专题,这是多种测量信息量的研究方法与研究结果的专题。
在《追踪家庭信息流》一文中,诺伊曼、帕克和潘尼克(运用前文提到的日本邮电部和普尔的研究方法)估计,为美国家庭所提供的所有媒体信息从1960年的每天50,000分钟增长到2005年的900,000分钟。
根据2005年的供需比例,他们估计美国人“1分钟所需消费的信息有1,000分钟的媒体内容可供选择。
”在《信息的国际化生产与传播》一文中,邦妮和吉尔(运用上文中莱曼和瓦里安的研究方法)估计2008年世界产生了14.7EB新信息,接近2003年信息总量的三倍。
互联网大时代经典语句
首先你得问题可能有点大,本人才疏学浅回答的可能会有些偏颇,我只能以我的经验来和你谈谈互联网大几个比较重要的词句,也可以称之为经典语句吧。
联网时代,经典语句主要有以下这些:1、互联网思维,网聚人的力量2、互联网营销,无营销不销售3、粉丝经济,得粉丝者得天下4、用户至上,客户经济时代已经一去不复返5、体验为王,用户体验不东西就没有市场6、免费策略,只有免费的还得有价值的,用户才会觉得好7、颠覆式创新,互联网每个人都可能颠覆所谓的,谁都可以成为时代的弄潮儿8、互联网时代,大数据营销以上这八个方面纯凭己的经验之谈,简单的对互联网大时代一些具有经典意义的语句写了出来,希望能够帮到你,有什么不明白的可以继续提问,我也是互联网爱好者,希望能一讨互联网的点点滴滴。
关于大数据的作文
在第86届奥斯卡颁奖典礼上,莱昂纳多·迪卡普里奥又一次落选影帝的那一刻,你有没有为直播镜头中眼含泪光的他感到心疼
这已经是他第四次获得提名而希望落空了。
但你本没必要怀揣期待—莱昂纳多本人也是,因为微软纽约研究院的经济学家大卫·罗斯柴尔德在此前就宣布,最佳男主角花落《达拉斯买家俱乐部》主演马修·麦康纳的概率高达90.9%。
这个数字是在收集了赌博市场、好莱坞证券交易所、用户自动生成信息等大量公开数据后,建立的预测模型所分析出来的结果。
事实证明,大数据赢了:在本届奥斯卡共24个奖项中,大卫预测中了21个,包括竞争最激烈的“最佳原创剧本奖”。
事实上,大卫去年就“猜”到了第85届奥斯卡的19个奖项;2012年,他用一个数据驱动模型正确预测了美国51个行政区中50个的总统大选结果;其他“业务”还包括预测一年一度的“超级碗”(美国国家橄榄球联盟年度冠军赛)赛事结果……以至于每当此类事件发生,人们都会去他的官方网站PredictWise上看看“先知”怎么说。
大数据时代,惊喜已死。
不过,相比于影迷和体育比赛观众,政客与商人更欢迎大数据。
他们需要的不是惊喜,而是洞察力,然后“对症下药”。
最成功的案例大概是位于芝加哥的牛排连锁餐厅Morton。
当一位顾客开玩笑地通过Twitter要求它在自己乘飞机抵达纽约时准时送上外卖,一场品牌营销就开始了。
首先分析推特数据,发现该顾客是本店常客,再根据以往的订单记录推测出其所乘的航班,然后派出一位身着燕尾服的侍者提前抵达机场,为客户呈上晚餐—一炮而红。
如此突破想象力而实用的技能,为数据分析师们带来了更多的工作机会。
大数据领域最优秀的科学家们纷纷转行股票、期货,乃至赌博。
如果你能准确预测九成英超足球联赛的比赛结果,情况会怎样
Betegy会告诉你:一夜暴富不再是梦想。
这家波兰在线扑克游戏公司正将勃勃野心扩展到更广阔的博彩业,它为全球21个国家的职业联赛提供结果预测服务,并宣称对英超的预测准确率高达90%。
如何做到这一点
利用双层数据。
第一层包括基本统计信息,如最近表现、两队对抗历史、阵容以及平均进球数。
第二层则更深一步,将天气及其他可能影响球员发挥的因素考虑在内。
不过,该公司对其他一些比赛的预测成功率仅有50%。
被称为美国“算法之神”、曾为棒球网站写比赛预测的奈特·西尔弗也给赌徒们泼了一盆冷水。
他曾在采访中说:“我一般都在下注时赌相反的结果,因为其他人会按我说的来,如果我跟他们一样,估计赢不了。
”那么,被大数据夺走了“惊喜”的普通人,能获得怎样的补偿呢
或许奈特的这项研究比较易于操作—通过分析想要维持长期恋爱关系和想要一夜情的人在一周中不同时间外出约会的比例,他建议:想寻找刺激的话,在周三出去碰碰运气吧。
我和大数据的作文600字,该怎么写
第一段先概括当今当时代下境,比如说:大数据时代下,都有自己的手机,从前只是打上网冲浪,到现在连买菜的几毛钱都可以用支付宝微信付款……都是大数据时代下带来的便捷。
(第一段写个大概50字差不多)第二段过渡写:我也与大数据有个故事。
第三段重点介绍:自己在大数据代下享受到的好处。
简单写遇到的不好的问题。
(起码4\\\/500个字)最后总结:大数据时代下,每个人都无可避免得接触这种未来的新思潮新趋向,不想被落后于时代,就得乘风破浪于时代之中。
也无可避免的是,新生的事物也会伴随着弊端,而是否能使其茁壮成长,却决于我们的态度。
大数据这把双刃剑,也仍是要我们好好辨别好好利用,才能更好地迎接这个时代,发挥它的作用。
大概这个意思差不多。
高考共16套作文题 大数据自媒体时代语文怎么考
离情别绪 送杜少府之任蜀川 城阙辅三秦,风烟望五津。
与君离别意,同是宦游人。
海风存知己,天涯若比邻。
无为在歧路,儿女共沾巾。
赋得古原草送别离离原上草,一岁一枯荣。
野火烧不尽,春风吹又生。
远芳侵古道,晴翠接城。
又送王孙去,萋萋别情。
白云歌送刘十六归京楚山秦山皆白云,白云处处长随君。
长随君,君入楚山里,云亦随君渡湘水。
湘水上,女罗衣,白云堪卧君早归。
大数据分析专业什么时候开始有的
以下是数据量的历程中一些具有里程义的事件,以及属于“大数据”概化历程中的一些“第一次”或者是新发现。
1944年 卫斯理大学图书馆员弗莱蒙特·雷德出版了《学者与研究型图书馆的未来》一书。
他估计美国高校图书馆的规模每16年就翻一番。
按照这一增长速度,雷德推测2040年耶鲁大学图书馆将拥有“约2亿册藏书,将占据6,000余英里书架…[需要的]编目人员超过6,000人。
” 1961年 德里克·普赖斯出版了《巴比伦以来的科学》,在这本书中,普赖斯通过观察科学期刊和论文的增长规律来研究科学知识的增长。
他得出以下结论:新期刊的数量以指数方式增长而不是以线性方式增长,每15年翻一番,每50年以10为指数倍进行增长。
普赖斯将其称之为“指数增长规律”,并解释道,“科学每前进一步就以一个相当恒定的出现率产生一系列新的进步。
因此在任何时候,新科学的产生数量永远严格地与科学发现总量成正比。
” 1964年4月 哈里·J·格雷和亨利·拉斯顿在美国电气与电子工程师协会(IEEE)的《电子计算机学报》上发表了《应对信息爆炸的技巧》一文,在文中,他们提出了以下建议: 1)任何人都不应该发表新论文。
2)如果1)不可行,仅短小的论文可以被发表。
“短小”的意思是文章不超过2,500字符,空格、标点符号都计算在内。
3)如果2)被采纳,则应该实行下述限制:“只有将现存总长度为2501或更多字符的文章删除一篇或多篇,短小的文章才可以被发表。
” 上述建议的实行将产生一个重要的副产品,即减轻人才选拔委员会的负担。
因为一个人的出版物列表将仅被一个负数所代替,这个负数指代了他从现有信息存储中删除论文的净数目。
1967年11月 B·A·马里恩和P·A·D·德·梅恩在《美国计算机协会通讯》上发表了《自动数据压缩》一文,文章指出,“近年来被人们所关注的‘信息爆炸’使得对所有信息的存储需求保持在最低限度是非常必要的。
”文章描写道:“全自动压缩机由三部分组成,能够快速处理信息,它可以被应用于‘任何’信息主体,大大降低了缓慢的外部存储要求,并可以通过计算机提高信息传输速度。
” 1971年 亚瑟·米勒在《侵犯隐私》中写道:“太多的信息处理者看似是以个人档案存储容量的比特数目来衡量一个人。
” 1975年 日本邮电部开始实施了“信息流普查”计划,以调查日本的信息总量(这一思想首次是在1969年的一篇文章中提出的)。
普查以“字数总量”作为所有媒体的统一衡量单位。
1975年的普查已经发现信息供给要比信息消费发展得快得多。
1978年的普查报告指出“人们对单向传播的大众传媒所提供信息的需求停滞不前,对以双向传播为特征的个人通信媒体所提供信息的需求大规模增长…我们的社会正在进入一个新阶段…在这一阶段中,处于优势地位的是那些能够满足个人需求的碎片性的、更为详细的信息,而不再是那些传统的被大量复制的、一致性的信息。
[阿利斯泰尔·D·达夫,2000;参见马丁·希尔伯特,2012] 1980年4月 I·A· 特詹姆斯兰德在第四届美国电气和电子工程师协会(IEEE)“大规模存储系统专题研讨会”上做了一个报告,题为《我们该何去何从
》。
在报告中,他指出 “那些很早以前就熟悉存储装置的人们发现,‘帕金森第一法则’可以被用来解释我们的现状——‘数据扩展至任何可用空间’…我相信大量数据正在被保留,因为用户无法识别无用的数据;相较于丢弃潜在有用数据的不利后果,存储无用数据的损失不那么明显。
” 1981年 匈牙利中央统计办公室开始实施了一项调查国家信息产业的研究项目,包括以比特为单位计量信息量。
这项研究一直持续至今。
1993年,匈牙利中央统计办公室首席科学家伊斯特万·迪恩斯编制了一本国家信息账户的标准体系手册。
[见伊斯特万·迪恩斯,1994;马丁·希尔伯特,2012] 1983年8月 伊契尔·索勒·普尔在《科学》杂志上发表了《追踪信息流》一文,通过对1960年到1977年17种主流通讯媒体发展趋势的观察,他得出如下结论“这些媒体为10岁以上的美国人创造的可用词汇以每年8.9%的速度增长…事实上这些媒体创造的、真正参与流通的单词仅以每年2.9%的速度增长…在上述期间,信息流的增长在很大程度上是由于广播的发展…但是在那段时期末 [1977年]情况发生了变化:点对点的媒体比广播发展得快。
”普尔、伊诺兹、高崎、赫维茨在《通信流:一项美国与日本的信息普查》中做了后续研究,这本书对美国和日本所产生的信息量进行了比较。
1986年7月 哈尔·B·贝克尔在《数据通信》上发表了《用户真的能够以今天或者明天的速度吸收数据吗
》一文。
贝克尔预计“古滕堡所实现的记录密度大约是每立方英尺500个符号(字符),是公元前 4,000年苏美尔人泥土片记录密度的500倍。
到2000年,半导体随机存取存储器将能够在每立方英尺存储1.25×1011个字节。
” 对于数据存储而言,1996年数字存储就比纸张存储更能节约成本,这是R·J·T·莫里斯和B·J·特拉斯克渥奇在2003年7月1日《IBM系统期刊》上所发表的《存储系统的演进》一文中指出的。
1997年10月 迈克尔·考克斯和大卫·埃尔斯沃思在第八届美国电气和电子工程师协会(IEEE)关于可视化的会议论文集中发表了《为外存模型可视化而应用控制程序请求页面调度》的文章。
文章以下述内容开头:“可视化对计算机系统提出了一个有趣的挑战:通常情况下数据集相当大,耗尽了主存储器、本地磁盘、甚至是远程磁盘的存储容量。
我们将这个问题称为大数据。
当主存储器(内核)无法容纳数据集,或者当本地磁盘都无法容纳数据集的时候,最常用的解决办法就是获取更多的资源。
”这是在美国计算机学会的数字图书馆中第一篇使用“大数据”这一术语的文章。
1997年 迈克尔·莱斯克发表了《世界上究竟有多少信息
》一文,莱斯克得出以下结论“世界上的信息总量近乎几千PB;到2000年,磁带和磁盘的生产将达到上述水平。
因此,在短短几年内,(a)我们可以存储任何信息——没有信息不得不被放弃,(b)人们再也不会看到典型的信息片段。
” 1998年10月 K·G· 科夫曼和安德鲁·奥德里科发表了《互联网的规模与增长速度》一文。
他们认为“公共互联网流量的增长速度,虽然比通常认为的要低,却仍然以每年100%的速度增长,要比其他网络流量的增长快很多。
然而,如果以当前的趋势继续发展,在2002年左右,美国的数据流量就要赶超声音流量,且将由互联网主宰。
”奥德里科随后建立了明尼苏达互联网流量研究所(MINTS),跟踪2002年到2009年互联网流量的增长情况。
1999年8月 史蒂夫·布赖森、大卫·肯怀特、迈克尔·考克斯、大卫·埃尔斯沃思以及罗伯特·海门斯在《美国计算机协会通讯》上发表了《千兆字节数据集的实时性可视化探索》一文。
这是《美国计算机协会通讯》上第一篇使用“大数据”这一术语的文章(这篇文章有一个部分的标题为“大数据的科学可视化”)。
文章开篇指出:“功能强大的计算机是许多查询领域的福音。
它们也是祸害;高速运转的计算产生了规模庞大的数据。
曾几何时我们认为兆字节(MB)的数据集就很大了,现在我们在单个模拟计算中就发现了300GB范围的数据集。
但是研究高端计算产生的数据是一个很有意义的尝试。
不止一位科学家曾经指出,审视所有的数字是极其困难的。
正如数学家、计算机科学家先驱理查德·W·海明指出的,计算的目的是获得规律性的认识,而不是简单地获得数字。
”10月份,在美国电气和电子工程师协会(IEEE)1999年关于可视化的年会上,布赖森、肯怀特、海门斯与大卫·班克斯、罗伯特·范·里拉和山姆·思尔顿在名为“自动化或者交互:什么更适合大数据
”的专题讨论小组中共同探讨大数据的问题。
2000年10月 彼得·莱曼与哈尔·R·瓦里安在加州大学伯克利分校网站上发布了一项研究成果:《信息知多少
》。
这是在计算机存储方面第一个综合性地量化研究世界上每年产生并存储在四种物理媒体:纸张、胶卷、光盘(CD与DVD)和磁盘中新的以及原始信息(不包括备份)总量的成果。
研究发现,1999年,世界上产生了 1.5EB独一无二的信息,或者说是为地球上每个男人、每个女人以及每个孩子产生了250MB信息。
研究同时发现,“大量唯一的信息是由个人创造和存储的”(被称为“数字民主化”),“数字信息产品不仅数量庞大,而且以最快的速度增长”。
作者将这项发现称为“数字统治”。
莱曼和瓦里安指出,“即使在今天,大多数文本信息都是以数字形式产生的,在几年之内,图像也将如此。
”2003年,莱曼与瓦里安发布了最新研究成果:2002年世界上大约产生了5EB 新信息,92%的新信息存储在磁性介质上,其中大多数存储在磁盘中。
2001年2月 梅塔集团分析师道格·莱尼发布了一份研究报告,题为《3D数据管理:控制数据容量、处理速度及数据种类》。
十年后,3V作为定义大数据的三个维度而被广泛接受。
2005年9月 蒂姆·奥莱利发表了《什么是Web2.0》一文,在文中,他断言“数据将是下一项技术核心”。
奥莱利指出:“正如哈尔·瓦里安在去年的一次私人谈话中所说的,‘结构化查询语言是一种新的超文本链接标示语言’。
数据库管理是Web2.0公司的核心竞争力,以至于我们有些时候将这些应用称为‘讯件’,而不仅仅是软件。
” 2007年3月 约翰·F·甘茨,大卫·莱茵泽尔及互联网数据中心(IDC)其他研究人员出版了一个白皮书,题为《膨胀的数字宇宙:2010年世界信息增长预测》。
这是第一份评估与预测每年世界所产生与复制的数字化数据总量的研究。
互联网数据中心估计,2006年世界产生了161EB数据,并预测在2006年至2010年间,每年为数字宇宙所增加的信息将是以上数字的六倍多,达到988EB,或者说每18个月就翻一番。
据2010年和2011年同项研究所发布的信息,每年所创造的数字化数据总量超过了这个预测,2010年达到了1,200EB,2011年增长到了1,800EB。
2008年1月 布雷特·斯旺森和乔治·吉尔德发表了《评估数字洪流》一文,在文中他们提出到2015年美国IP流量将达到1ZB,2015年美国的互联网规模将至少是2006年的50倍。
2008年6月 思科发布了一份报告,题为《思科视觉网络指数——预测与方法,2007-2012》,作为“持续跟踪和预测视觉网络应用影响的行动”的一部分。
这份报告预言,“从现在到2012年,IP流量将每两年翻一番”,2012年IP流量将达到0.5ZB。
这份预测比较准确,正如思科最近一份报告(2012年5月 30日)指出的,2012年IP流量刚刚超过0.5ZB,“在过去的5年中增长了8倍”。
2009年12月 罗杰·E·博恩和詹姆斯·E·少特发表了《信息知多少
2009年美国消费者报告》。
研究发现,2008年“美国人消费了约1.3万亿小时信息,几乎平均每天消费12小时。
总计3.6泽字节(ZB),10,845万亿单词,相当于平均每人每天消费100,500单词及34GB信息。
博恩、少特和沙坦亚·巴鲁在2011年1月发表了《信息知多少
2010年企业服务器信息报告》,继续上述研究。
在文中他们估计,2008年“世界上的服务器处理了9.57ZB信息,几乎是95,700,000,000,000,000,000,000字节信息,或者是10万亿GB。
也就是平均每天每个工作者产生12GB信息,或者每年每个工作者产生3TB 信息。
世界上所有的公司平均每年处理63TB信息。
” 2010年2月 肯尼斯·库克尔在《经济学人》上发表了一份关于管理信息的特别报告《数据,无所不在的数据》。
库克尔在文中写道:“…世界上有着无法想象的巨量数字信息,并以极快的速度增长…从经济界到科学界,从政府部门到艺术领域,很多地方都已感受到了这种巨量信息的影响。
科学家和计算机工程师已经为这个现象创造了一个新词汇:‘大数据’。
” 2011年2月 马丁·希尔伯特和普里西拉·洛佩兹在《科学》杂志上发表了《世界存储、传输与计算信息的技术能力》一文。
他们估计1986至2007年间,世界的信息存储能力以每年25%的速度增长。
同时指出,1986年99.2%的存储容量都是模拟性的,但是到了2007年,94%的存储容量都是数字化的,两种存储方式发生了角色的根本性逆转(2002 年,数字化信息存储第一次超过非数字化信息存储)。
2011年5月 麦肯锡全球研究院的詹姆斯•马尼卡、迈克尔·崔、布雷德·布朗、杰克斯·卜黑、理查德·多布斯、查尔斯·罗克斯伯勒以及安杰拉·孔·拜尔斯发布了《大数据:下一个具有创新力、竞争力与生产力的前沿领域》。
他们指出:“到2009年,对于美国所有的经济部门而言,平均每个有1,000名以上员工的公司所存储的数据至少有200TB(是美国零售商沃尔玛在1999年数据仓储的两倍)”证券和投资服务部门所存储的数据处于领先地位。
总的来讲,这项研究估计2010 年所有的公司存储了7.4EB新产生的数据,消费者存储了6.8EB新数据。
2012年4月 《国际通信学报》出版了“信息计量”专题,这是多种测量信息量的研究方法与研究结果的专题。
在《追踪家庭信息流》一文中,诺伊曼、帕克和潘尼克(运用前文提到的日本邮电部和普尔的研究方法)估计,为美国家庭所提供的所有媒体信息从1960年的每天50,000分钟增长到2005年的900,000分钟。
根据2005年的供需比例,他们估计美国人“1分钟所需消费的信息有1,000分钟的媒体内容可供选择。
”在《信息的国际化生产与传播》一文中,邦妮和吉尔(运用上文中莱曼和瓦里安的研究方法)估计2008年世界产生了14.7EB新信息,接近2003年信息总量的三倍。
注释:我有意没有考虑对信息价值(和成本)的讨论,及用金融术语和\\\/或信息\\\/知识工作者的数量来衡量信息经济(例如马克卢普、波拉特、谢曼特)的尝试。
同样没有考虑的还有很多有意思的关于“信息超载”的参考文献,或者是相似的术语,詹姆斯·格雷克在最近出版的《信息》(详见第15章)一书中对这些术语进行了调查。
格雷克在克劳德·申农的注释中发现了申农(1949年)试图判定具有“比特存储容量”的各种事物,如穿孔卡片、 “人类遗传学构造”(格雷克指出,申农是提出“基因组是一个信息库,并以比特为单位进行衡量”的第一人)、唱片。
在申农的列表里,最大条目是拥有100万亿兆比特的美国国会图书馆。
—— 大数据发展简史



