这是一个疯狂的想法:拿走世界上大部分的书籍,扫描它们,并为所有人创建一个巨大的数字图书馆。这就是谷歌在2002年开始实施雄心勃勃的图书数字化项目时梦寐以求的事情。它在那里得到了部分成果,数字化了至少2500万本来自主要大学图书馆的书籍。
但承诺的一切图书馆尚未形成。作者和出版商以及互联网巨头因涉嫌侵犯版权而进行的史诗般的法律斗争拖延了多年。一项本可以创建图书版权登记处并通过公共图书馆终端访问Google图书馆的解决方案最终在2011年被一名联邦法官拒绝了。尽管同一位法官最终在2013年驳回了此案,一场让它继续扫描的胜利,轻松完全访问所有这些作品的梦想仍然就是这样。
今年早些时候,大西洋的一篇文章哀叹拆除它所谓的“我们这个时代最伟大的人文主义项目。”作者,一位名叫詹姆斯·萨默的程序员,这样说:“Google的某个地方有一个包含25个数据库的数据库。一百万本书,没有人被允许阅读它们。“
这种评估在技术上可能是正确的,但许多图书馆员和学者对项目的遗产有不同的看法。事实上,学者现在经常利用谷歌帮助创建的数字化材料库,将其用作可以查询的数据集,即使他们不能使用全文。它是人文学科与大数据日益接触的支柱。
它也是其他类型研究的便利资源。“如果没有谷歌图书搜索,那么很难想象我们学习这项工作的日子不会触及那些不会出现的东西,”现任临时教务长兼密歇根大学学术事务执行副总裁的保罗·库兰特说。当谷歌第一次接触大学关于扫描其图书馆内容时,Courant也是密歇根州的临时教务长,这项建议让他既“欣喜若狂又持怀疑态度”,他说。
“无论如何,我不是谷歌所有人的粉丝,”Courant现在说道。“但我认为这是一项令人震惊的努力,其后果持久,其中大多数都是积极的。”
谷歌的扫描项目帮助在一个不断扩展的网络研究网络中建立了一些重要的节点。作为交易的一部分,谷歌的合作伙伴图书馆确保他们必须保留扫描作品的数字副本,以供研究和保存使用。这些材料帮助建立了一个名为HathiTrust数字图书馆的合作伙伴关系。根据其执行董事Mike Furlough的说法,该公司成立于2008年,总部设在密歇根大学,现已发展到包括128个成员机构。它现在包含超过1570万卷。考虑到多卷期刊和重复副本,这是大约800万个独特的项目,其中约95%来自谷歌的扫描。根据Furlough的说法,其余部分来自互联网档案馆正在进行的扫描工作和本地数字化工作。
这种丰富的资源已被用于多种好的用途。通过HathiTrust研究中心,学者们可以利用Google Books语料库进行计算分析 - 例如查找大量文本中的模式 - 而不会侵犯版权。禁用打印的用户可以使用辅助技术来阅读扫描的书籍,否则如果不是无法以可访问的格式找到这些书籍。
Courant和其他参与扫描工作早期的人都承认好处和不足。“对于我来说,普遍的书店兼图书馆失败对我来说是一种悲伤,”他说。虽然谷歌在项目进行过程中大大改进了扫描技术,但它最终无法解决持续的文化挑战:如何平衡版权和合理使用,并让每个人 - 作者,出版商,学者,图书馆员都满意。这项工作仍然存在。
尽管法律纠纷和和解失败,玛丽苏科尔曼认为该项目是净收益。美国大学协会现任主席科尔曼于21世纪初担任密歇根大学校长,当时谷歌联合创始人拉里·佩奇(密歇根校友)通过扫描思想与母校接洽。科尔曼说,这所大学的许多馆藏“对世界都是看不见的”。谷歌的参与承诺改变这一点。
她说,如果没有谷歌的支持和技术能力,像HathiTrust这样的资源将更难创造。“如果没有谷歌,我们不可能做到这一点,”科尔曼说。“我认为,谷歌这样做的事实使事情发生的速度要快得多,如果没有中央推动力,大学就会这样做。”
转变奖学金
泰德安德伍德的工作是谷歌扫描推动所产生的奖学金中最突出的一个例子。安德伍德是伊利诺伊大学信息科学学院的教授和LAS百年学者,以及伊利诺伊大学信息科学学院的教授(以及数字人文世界的领军人物),他将谷歌图书对他的奖学金的影响描述为“完全变革性的。 “HathiTrust提供的资源,即使是那些仍然受版权保护的资源,已经扩展了他能做的事情以及他提出的问题。
“我以前完全在英国浪漫时期工作,”安德伍德通过电子邮件说。“现在我花了很多时间在过去的两个世纪里大致研究历史,其原因基本上就是Google Books。”
HathiTrust研究中心允许Underwood和其他人使用受版权保护的材料。“我无法在物理上获取版权或分发文本,但我可以在一个安全的数据胶囊内工作并测量我需要测量的东西来进行研究,”他说。“所以这并不像我的项目必须在1923年戛然而止,”他说。(那一年标志着进入公有领域的材料与那些仍被锁定的材料之间的巨大鸿沟。)
Data Capsule是一种安全的虚拟计算机,允许所谓的“非消耗性”研究,这意味着学者可以在不下载或阅读文本的情况下对文本进行计算分析。该过程尊重版权,同时支持基于受版权保护的材料的工作。
对于安德伍德来说,这使得有可能在1800年至2007年间与加州大学伯克利分校的David Bamman和伊利诺伊大学的Sabrina Lee一起开展类似小说性别平衡的合作研究。安德伍德去年在一篇博客文章中描述了这项工作的重点。
“我们发现的标题结果是,女性在19世纪同样代表英语小说作家,并在20世纪戏剧性地失势,”他说。男女比例从1850年左右的1:1下降到一百年后的约3:1。
安德伍德说:“相当剧烈的变化,并且在错误的方向上,这看起来非常违反我们最初并不相信我们从HathiTrust得到的结果。” 但是,由于Underwood和他的共同调查人员正在探索的原因,与Publishers Weekly的交叉检查确认了大约在1970年左右的下滑。
网络图书馆
最近任命的东北大学图书馆馆长Dan Cohen表示,谷歌图书和HathiTrust也被视为研究图书馆如何进化而不仅仅是将自己视为独立的知识仓库的“标志性例子” 。他还是信息合作的副教务长和那里的历史教授。直到最近,他还是美国数字公共图书馆(DPLA)的执行董事。
对于那些负责管理学术图书馆的人来说,“作为一个独立的机构,图书馆的偏心确实会产生长期影响,”科恩说。这种转变与研究人员现在如何运作相对应 “他们并不期望从他们的家庭机构获得所有东西,”他说。“他们期望资源将集体持有并可在网上获得。”
这种不断扩展的数字现实使得批判性地关注谷歌扫描工作的结果变得更加重要。非营利组织Ithaka S&R的图书馆和学术传播项目主任Roger C. Schonfeld正在与前Ithaka S&R总经理Deanna Marcum合作撰写一本关于Google Books项目的书籍,现在是该高级顾问。
“我们真正想要提出的问题是,为什么这么多的数字化都会以这种方式发生,以及其他方式会发生什么?”Schonfeld说。谷歌的技术和财务实力极大地加速了数字化进程,但该公司的优先事项不一定是其图书馆合作伙伴的优先事项。
Schonfeld指出,随着研究人员开始使用谷歌图书,必须要知道项目提供的材料中可能存在哪些选择偏差。“正如任何进行历史研究的人都知道的那样,你不可能拥有你可能希望拥有的所有资源,”舍恩菲尔德说。
为了充分判断Google图书的价值,研究人员和图书馆员需要批判性地检查扫描的内容以及收集的内容。并非所有图书馆都包含在Google的项目中,没有图书馆拥有所有内容。“现在有什么,什么不存在?”舍恩菲尔德问道。“该系列的创作和选择固有的偏见是什么?”
这些问题表明,在某种程度上,通用图书馆总是一个不可能实现的梦想。但谷歌图书确实产生了实质性的结果,即使它们不完美和不完整。(一种流行的工具是Ngram Viewer,它允许用户搜索Google Books数据,查找特定单词随时间推移的情况。)
就其本身而言,谷歌目前对这一扫描项目的公开声明并不多,尽管工作还在继续。
谷歌书籍产品经理Satyajeet Salgar通过电子邮件表示,“十多年来,谷歌一直致力于通过简单的查询来提高书籍所含知识和艺术的知名度。”正在继续为这个改变世界的指数数字化和添加书籍,提高我们的图像处理算法的质量和搜索的有效性,并计划在未来几年继续这样做。我们很自豪能够继续使它变得更容易人们可以使用这个产品找到阅读和进行深入研究的书籍。“
更多数字化内容是好的。但是,大学和图书馆可能会考虑如何继续开展活动以使这些内容最有用。
正如Paul Courant指出的那样,“最大的问题不是进一步的数字化”,而是获取。HathiTrust在作者和出版商提起的单独的合理使用诉讼中占了上风。但Courant说,过多的遗体仍被锁定,孤儿作品的问题 - 那些版权状态不明显的 - 尚待解决。
对于HathiTrust的执行董事Mike Furlough来说,由图书馆社区来决定谷歌帮助启动的地方。他指出了一个不断发展的国家数字基础设施,部分资金来自联邦博物馆和图书馆服务研究所以及像Andrew W. Mellon基金会和斯隆基金会这样的私人团体。
通过推动数字化,Google Books也帮助打印收藏品。根据HathiTrust的共享打印计划,该联盟的一些图书馆成员同意保留每份数字化专着的印刷版。“我们并不是说数字就足够了,”弗洛说。“我们说数字是一种补充。我们认为印刷品不会消失。“
弗劳说,谷歌的扫描工作“令人难以置信”。“剩下的就是找出剩下的东西。它并没有让我们一路走到尽头。“