Kindle,历史尽头的尽头

学习笔记3 Comments »

本文是 Jim Stogdill文章译文。作者看到Amazon新近推出的Kindle2代产品宣传中提到,“未来目标是在60秒内提供任何一本印刷书籍的访问”。由此想到在当今的数字时代,人们 对网络资源的依赖致使人们的世界观仅限于网络的内容,而大量没有进入数字化的图书仍然是历史的一部分。作者希望Kindle能实现其远大目标,从而将数字 时代的“历史尽头”延伸成真正的历史尽头。

今天早上,我漫不经心地浏览纽约时报的bits blog中关于Kindle 2发布的消息时,发现了其中一句话:

“我们幻想着任何语种的任何一本印刷出版的书,都能在60秒内提供给大家。”

这肯定不是主要的故事。虽然它被后面的一些想法掩盖了,但是对我来说仍是个大新闻。可以说它是个宏伟的大胆目标,比贝佐斯推出的新设备更加吸引人 (这款新设备仍然采用灰白色调)。不过我在这要说的是,他没有说“我们库存单中的每一本图书”,也没有说“与我们合作的主要出版社目录上的每一本图书”、 或者甚至是“每一本已经数字化的图书”。他所说的是“任何一本印刷过的图书。”

当我工作的时候,我常会随意地将笔记记在3*5大小的卡片上。有时它们会被转到Evernote,但通常是会被摞成高高一堆。当我读刚才那句话时,我就立即去那堆卡片中寻找一张我一个小时之前的记录。

早上我在做一些研究工作时翻看一本1915出版的图书。因为这本书出版年代久远,也许只有这一本印刷本,我从夹在书中的一些当时新闻的剪辑中了解 到,作者那时随有争议但已经很出名了。也许,在Google能找到一些他曾经存在的信息。但我更担心的是其他需要参考那些文字的读者。我非常沮丧地抓起一 张卡片,记录到:

“Google和历史的尽头。历史不再连续。数字化之前的时代是不存在的,至少除非你离开计算机,到有历史的学校中,去图书馆中寻找。”

我的房间塞满了书,实在是很可笑。我买了好多古书,它们被到处堆放,因为我喜欢看过去人们的生活方式和思想行为,我想我将找时间读完每一本书。对我而言,这些书不止是记录过去的事实,更是窥视另一个世界观点的途径。这也是我对之前提到那本书的第一想法。

问题是,古书中提到的人和事对于当时的读者来说很熟悉,但对我来说确是很神秘的,如果我尝试理解作者在说什么并且对他的看法产生共鸣,我必须解决这个问题。如果你想知道我说的意思,你可以试着阅读一下温斯顿丘吉尔的二战系列

丘吉尔在谈话中讲到的人物、事件,对于1950年的伦敦居民来说是很熟悉的。然而,你如果没有对其中的细节进行过深入准备,就无法理解他所讲的内 容。不幸地是,他所提到的很多内容在今天都是鲜为人知的,今天的搜索引擎也正好忽略了它,只有哪些现代百科全书的编辑或者相关的作家才会觉得它们与今天有 关。在数字时代被创造、被记录,或者那些当时轰动且在现在也有数字化记录的内容方面,Google是非常厉害的,但其他内容Google就没有了。这就是B.G.(前Google)或者P.D.(前数字化)或者相类似的说法。

言归正传,如果你读过一些古书,就会发现web上可供搜索的内容是多么地少。web上,我们的世界观被压缩在当代,尤偏重近期内容,甚至是回头看那些已经被数字化记录但仍有记忆的事件,还是通过我们的数字时代的镜头。我们对世界观正在被数字化记忆所覆盖。

我把这些想法发布在Radar的backchannel列表上,Nat对此给出了自己的看法。他指出,文化产品通常被分为流行文化(人们脱口而出的)、隐藏文化(只在百科全书中或者公共图书馆中才能找到)、存档文化(必须依靠研究者挖掘,但也可以在学术图书馆或者其他地方找到)。这也就是说,文化产品不会因为web而变糟。

我喜欢那样的三分法,当然Nat说得没错。web不像在把存档埋藏地更深。在学术图书馆的确它总是存在的。此外,历史也 从来没有连续展现过。它总是由于种种原因而起起伏伏。但是因为习惯和便利性我们总是越来越以来web,离线的归档资料看起来也不是很难找,它也正更有效地 呈现出来。在Google出现后的时期,深层归档资料看起来越来越像哪些早起探险者手中的航海图,上面的一些空白处被标上“此处危险”的记号。

再回到贝佐斯的宏伟目标。我喜欢它变成现实,因为一个可以在60秒内进入的完整档案仍然是历史一部分归档。

Related posts

关于Google图书和解协议的支持、争议和评论

学习笔记No Comments »

这是一篇来自Library Journal对美国图书馆协会冬季年会上关于Google图书和解协议的支持、争议和评论的报道,记录会议上Google图书搜索项目主管同与会者就相关问题进行的讨论。

周六在丹佛举办的美国图书馆协会中冬季会议上,Google图书搜索项目的主管Dan Clancy就Google与来自图书馆的扫描图书的出版社和作者间的和解协议进行了详尽介绍,并与参会代表进行了热烈地讨论。但是对于一些来自图书馆员 的逼迫式的问题,仍然未解,协议本身对这部分问题也悬而未决。

虽然Clancy还没准备谈论价格的问题,但目前看来机构购买整个数据库的费用将基于FTE(译者注:full-time equivalent 相等于全日制)的学生数。Google图书项目的合作者,密歇根大学图书馆馆长Paul Courant认为,价格是关键因素,但也推测“未来的价格将会是比较适中的”,因为市场已经限制了类似产品的通常价格,并且Google的商业模式是在 “网页中吸引眼球”。

此外,他还说:数据库的价格可能对于我们来说高了,但我们并不因此而更糟,它正成为一个富查找工具,不仅仅是搜索和获取片段。

Laura Quilter,一名图书馆员兼律师,并不是太乐观,她警告说,很明显价格的制定使支持版权所有者受惠。

Clancy后面很惊讶地指出,没人想到版权所有者可以在创作共用协议下为读者将图书的价格设为零。“我个人感觉还是会有大量的版权所有者”,他们并不以卖书为生,而是希望有更多读者。

优于其他

While Courant建议,该在解决协议上做出妥协,这不但排除了图书馆单独谈判的难度,而且除了图书馆自身没有人会以此为目标去解决此事。来自纽约图书评论的Bob Darnton谨慎而明确的表达, 图书馆界应该得到一个相类似的结果。

他还说,我所生活的世界中还没有想到去产生它(电子图书),最主要的问题是20世纪大多数文学作品还没有数字化且不可查找。

公共访问服务

习惯上都认为,Google应该提供免费(但是有限制)的访问和每本书零售购买,至少在一个公共图书馆舍内安装一台终端的公共访问模式,或基于高校学生数设置免费终端数量。还有,Google同意支付头五年单页的打印所需费用,直到300万美金,以检测市场。

Karen Coyle,数字化图书馆员和顾问。提醒说,我们应该对此要求更高一些。她建议,这样做很难于管理并且读者会要求更多,她很担心这样做的产品安置。

Quilter也认为终端机难于管理,同时指出学校图书馆不在这个协议范围之内。Clancy评论说,他个人从来不认为免费的访问终端是“天上掉的馅饼”,而是“确保适度访问的东西”。

质量问题

Coyle说:“我们必须要说一下质量问题。图书馆还不得不做摘要和索引以提高质量。”

Clancy说,Google已经在改进技术方面下了很多功夫,包括图片质量和处理算法。我们感觉目前的图像已经可以满足用户的需要了,我们并不打算保存复制品,只是尝试让读者可以访问它、阅读它。

他还谈到用户在网络上看到的图片用的并不是Google解决方案中最高解析度的图片,这是因为图片质量越高,下载速度问题越突出。我们都将每本书用 不同的分辨率扫描两次。Google在遇到模糊不清页面时采用的算法已经得到改善,并且一旦出现这种问题,我们与合作图书馆所做的工作就是扫描单独的每一 页。

隐私问题

Coyle提到公共机构更关心用户的隐私和透明度,这点与Google不同。在协议中唯一提到保密性的地方是针对版权所有者,意味着图书馆必须要为了他们的用户进行谈判。类似地,图书馆也得保证数据库能满足残疾人士访问。

Clancy认为图书馆将不会签订不支持隐私保护的协议,Google应该会从这项服务中得到某些提示,毕竟这在图书馆市场得到了普遍认可。

Quilter提到,当前图书馆员是Google最大的粉丝,但他们必须保持自己的位置而不能完全“依靠Google”。她说,图书馆应该限制使用ILL(译者注:ILL,Interlibrary loan,馆际互借)和课程管理的拷贝数量,电子保存,提供离线访问。

全部免费?

曾担任全美图书馆协会主席的Mitch Freedman对图书馆界“全部免费”观念的转变感到惊奇,他问Google是否给公共图书馆提供网站访问授权,就像其他数据库一样。Clancy回 答,考虑到消费者市场,目前还没有对远程访问的协议,但是也可能会朝着这条路发展。作者和出版商也许对远程访问会感到不适。

Freedman说数据库出版商已经解决了这个问题,Clancy回应那些出版商并没有一个以顾客为导向的模式。他还说,在这个市场销售的挑战并不是Google的核心任务,所以协议中有授权对集团采购打折。

Coyle认为未来是不可知的,但是Google可能因为产品的经济效益而使之下线,或者它将成为流行的领先的“平行系统”。

她评论说:“我们知道Google不是图书馆,但是我担心城市的管理者可能因为紧张的预算,而用Google取代图书馆。”

Clancy说,有人谈到Google图书搜索导致图书馆作用降低,这种说法是不明智的。因为图书馆拥有实体书本,所以你在这部分图书谈判中是有权利的。

平等使用问题

Courant谈到版权问题。当这份协议生效时,许多人,也包括他自己都感到焦虑,因为我们将在公平使用、索引方面树立强势立场,而拥有一个无障碍的卡片目录并获取片段将获得巨大收益。

图书剔除

Courant一个对Google项目的激进批评者正在听众中认真聆听,随后说,因为Google会因为编辑的原因而剔除图书,而我们正生活在一个 有点混合的环境中,我们也拥有很多不属于Google的数字化产品。如果我们没有扫描版本,我们将会自己扫描,或者从Internet Archive的Brewster[Kahle]中得到它。

Clancy的回答是,依据协议,Google是否应该因为编辑的问题而限制一些内容呢?他以色情文学作为例子,说他们没有计划扫描任何色情相关内容。扫描版本应该是可以利用的,图书馆员就可以通过注册管理系统以控制访问权。

特殊作品集

达文波特的南希哥伦比亚区公共图书馆(DCPL)不知道是否在缺少许可协议的情况下,她作为一个顾客是否可以购买哪些DCPL寻找的关于当地历史的特殊作品集。

Clancy回答,目前协议还没有考虑机构购买单体图书,注册登记制度的出现使我们可以考虑新的模式。他相信这种模式是会有需求的,而且对于版权所有者也会感兴趣我们提供这类的产品。

新设备

Clarles Lowry,研究图书馆协会的执行主管问到是否会供应一些诸如数字阅读器之类的新产品?

Clancy回答,通过注册登记系统设计的协议可以授权一些新的商业模式,考虑到98%的协议是在一年半之前完成的,这早于Kindle或其他阅读器的出现。如果市场有需要,我们就有理由期望注册登记制度对它感兴趣。

Coyle提醒,Google图书并非ebook而是带有自身的限制每页图书的照片。

Kahle的挑战

在最后的提问回答环节,Kahle抛出的一系列问题,让Clancy觉得没有注册登记系统可以服务于这样的问题,注册登记系统可以被修改,对于一些集体诉讼,可以在非披露的协议中商讨。

Kahle问Courant,协议是否会使进入其他领域绝版书的电子版本更加困难?

Courant回答说,这个问题上我完全是个外行。

这个环节过后,Kahle告诉LJ,还会有其他的会议和场合帮助人们了解在我们成长的五年内世界将是什么样子,不论我们是使用Google图书馆,或者图书馆系统。你能两者同时拥有,或者只能拥有其一呢?


背景内容参考:

Google图书和解注册登记网站

图书馆与谷歌图书和解协议各界

對Google 與美國作家及出版業達成和解的一些反應

Related posts

GoogleReader的快捷键

经验技巧No Comments »

google_reader_logo.jpg

我用Google Reader做为RSS阅读器已经有一段时间了,但直到昨天在yeeyan上发现了这篇文章,才发现Google Reader还有这么多不为我所知的快捷键,在这连同一些常用的快捷键一起列出来:

j/k–上一篇/下一篇(在阅读某篇文章时,会打开上一篇/下一篇;如果是列表方式,则是上一条目/下一条目)

n/p–向下/向上选择(列表中查看上一条目/下一条目)

上档键+n/上档键+p–向下/向上选择(左侧导航栏上下选择)

空格键/上档键+空格键–向下翻一页/向上翻一页=PageDown/PageUp

o/回车键–展开条目(仅List查看模式)

s–标记所选择的条目星号(取消标记)

上档键+s–共享所选择的条目

m–标记为已读或未读

上档键+a–标记所有条目为已读

t/l–给一个条目设置Tag/label(Tag可以对每一篇文章加;而对于已分类的源,该源下每篇文章都自动增加了该分类名做为label,但Tag和label常常一起用)

v–查看原文(即打开条目相应的链接)

1–展开预览方式(慎用,如果是个很长的列表,全都打开是很耗时的)

2–列表预览方式

r–刷新

u/上档键+x–展开/收起导航

上档键+o–打开导航中的订阅

g+h–打开Google Reader首页(先点g,再点h)

g+a–显示所有条目

g+s–显示已标记星号的条目

g+t–打开标签选择(弹出的窗口很cool),搜索tag

g+u–打开已订阅的RSS,输入订阅的rss名字,查找该源的所有文章

如果记不住这么多快捷键,没关系,在用Reader的时候只要按shift+?就可以调出全部快捷键的介绍了

其实在Google Reader的首页右下有这么一块,经常留心,总有收获

readertips.jpg

Related posts

规范信息公告和参考咨询的RSS源,并将之提交Google Webmaster

经验技巧1 Comment »

昨天看到Google Webmaster的一个相关信息Google  Webmaster中不仅仅支持Sitemaps,而且支持RSS  FEED作为某个站点的sitemap。于是就想到了将图书馆信息公告信息参考两个Rss  FEED提交上去,以便Googlebot能够自己找上门来索引我们的资源。

不过真正在验证RSS  FEED的时候总是出现error,在 W3C Feed Validation中也提示很多invalid和Recommendations。参照RSS 2.0 Specification, 结合在W3C Feed Validation中的提示,修改了生成信息公告和参考咨询的两个RSS源。

主要修改的几个地方

  1. xml文件的encoding修改为utf-8,并以utf-8编码输出
  2. pubDate的编码按照RFC822规范,其格式为Sun, 19 May 2002 15:21:36 +0800
  3. language改为zh
  4. response.write xml文件的元素时给每个元素前加入了回车换行符号”vbcrLF”,这个虽然不是错误,但增强了Feed的xml文件的结构,对人来说比较易读,对机器都是一样的
  5. 去掉了dc:language,在Feed Valid中提示language元素和dc:language元素意义相同,重复的元素会让解析器无所适从
  6. 加入了guid元素
  7. 将信息参考中原有的元素author根据数据库中所存字段的语义改为dc:creator,在规范中,author元素指的是Email address of the author of the item.

修改完成,再次在Google Webmaster中提交,终于被Google通过了。按照Google的说法,Googlebot会根据RSS  FEED中的link信息找到相关网页进行索引。 依据此,有理由相信最新的公告信息和信息参考会被Google抓走,如果真是这样的话就为Google索引动态网页提供了另一种方法。

还有一点,Google说其他格式的Sitemap也包括OAI-PMH,但是想再看下详细介绍却发现内容被拿掉了,难道Google已经不再支持OAI-PMH做为sitemap?这学期末进行了相关的培训和讲座,正想看看这些技术的应用呢。

Related posts

使用robots.txt,拒绝爬虫索引

经验技巧2 Comments »

今天同事发现我们的一个内部站点被baidu索引了,这个站点一直是有IP访问限制的,也不知道百度的爬虫是如何进来的。用同样的关键词在Google中搜索没有结果,顿时对baidu的技术十分”敬仰“。查了baidu的声明,如果希望站点不被他们索引,要做两件事:一是给他们发邮件,请求取消索引;二是在网站中使用Robot Exclusion拒绝爬虫。

做为网站管理员有两种方法对爬虫说”不“:
1. 在网站根目录添加robots.txt,告诉爬虫哪些目录是不让它去的。每个站点只能有唯一一个robots.txt在其根目录,并且只能有小写字母给robots.txt命名。
假如网站地址是http://www.somesite.com/,那么robots.txt就应该放在http://www.somesite.com/robots.txt
A.拒绝爬虫索引整个站点
User-agent: *
Disallow: /
B.允许爬虫访问整个站点
User-agent: *
Disallow:
C.拒绝爬虫索引站点部分目录,比如 temp,img目录
User-agent: *
Disallow: /temp/
Disallow: /img/
D.允许或者拒绝某些搜索引擎的爬虫,只要在User-agent中指定这些爬虫名字即可,下面是baidu和Google的爬虫名
baidu是:Baiduspider , Google是:Googlebot

2.在网页中直接加MATA标签。这一做法目前只被某些robot支持。例如:
[html]meta name=”robots” content=”index,follow”
meta name=”robots” content=”noindex,follow”
meta name=”robots” content=”index,nofollow”
meta name=”robots” content=”noindex,nofollow”[/html]
index表示允许索引类的robots,follow表示robots可以追踪网页上的链接

Related posts

WP Theme & Icons by N.Design Studio
Entries RSS Comments RSS 登录