一些圖書數位化的數據

Open Content Alliance (OCA) 的部落格上整理了一些有關書籍數位化的數據,例如掃描成本、冊數…等。不過作者認為這些成本都比不上一座圖書館在建築物以及館藏購置及維護上的成本,但後者卻常常被忽略或低估了。下面就是這些數據(OCA 以外的數據都是推測的):


書籍掃描的成本

  • Million Book Project 在中國大陸掃描作業,每本書約 6美元
  • Google Book Search 圖書館計劃每本書約 5 ~ 10美元。
  • Internet Archive 每頁 10美分 或每本書 30美元。這麼貴的原因是作者認為其掃描品質比較好,並且定期以較新的技術重新掃描。

目前已完成掃描的數量

  • Google Book Search 網站上可以查尋到 700多萬本書,實際上已掃描的書會多於此數字。
  • 中國政府也以 900萬美元掃描了 140萬本書,預計今年夏天起會再掃描 300萬本。
  • 印度政府已經掃描 60 ~ 100萬本書。
  • 美國政府已經完成掃描的應該少於 10萬本書,明顯少於上述的政府。
  • 來自美國的一些資助(大約 1400百萬美元),如Sloan Foundation、Microsoft、及Yahoo,共幫助了 Internet Archive 和 Kirtas 掃描了 60萬本書。
  • 目前在 archive.org 上有近 130萬本來自許多計畫的公共領域圖書,這些書在 openlibrary.org 上都可以全文檢索。

依照上面的數據,作者推估只要 3億美元就可以打造同哈佛或美國國會圖書館這樣館藏量,且掃描品質很好的數位圖書館(library of digital books) 。而 3億美元對一些圖書館來說是相當少的錢,以康乃爾大學圖書館來說,一年就有 5000萬美元的預算。只要全美前 100 名圖書館的 5% 預算拿來做書籍掃描,5年內就可以完成 1000萬本書。

延伸閱讀:
拓展台灣數位典藏 - 關於Million Book Project

7 thoughts on “一些圖書數位化的數據

  1. 共通的特徵是:
    只重量,不重質
    自來像我自己這樣,是專業人士掃、讀、校、案、注者,僅此一家了.後來者加油,有幸做陳拾遺子昂.

    幾個學者專家肯好好較較這些海量的書呢?當然,我指的是文本,也包括書圖.包括掃錯頁錯置或影像有誤的.

    這些網路上的報導,都有一共同趨向.即報導別人,不報導自已.當然.記者是只會報導別人的,可是勠力於文獻者,有心於讀書傳燈者,又豈但報導別人,或有暇報導別人為滿足呢?

    更正我剛才說的
    佛教徒恐怕已不乏人,至於儒者、學者,則恐怕我是第1人.誰要這個第一.但願有人接.也但願,是我井蛙自慊.

  2. 不好意思,我想請問一下,到底OCA跟OBA這兩個組織哪裡不同?兩邊的成員有些都重複,有點搞不清楚,到底這兩個有沒有上下關係,或者是獨立組織?跟google的關係又是如何?請幫我解惑…我疑惑好久了>"

  3. 不好意思,再請教一下,微軟加入了OCA,那表示Live Search Books算是OCA的計畫之一嗎?還是只獨立為微軟的?因為我看到wiki寫他的競爭者是Live Search Books,但我想由yahoo跟其他業者聯合組成的OCA就不是他的對手嗎?
    wiki

  4. 若從字面上來看,OCA 與 OBA唯一的差別在於前者是content,後者是book。前者的主導是Internet Archive,它們是一個歷史悠久的數典組織,有實際在做數位化的工作。而OBA似乎只是一群Google Book Search對手陣營的集結(從他們的Mission可看出),而沒有實際的數位化產出。

    至於微軟的Live Search Books已經在2008年停止服務了,見先前的文(link)

    我個人認為目前看不出有人可以成為Google的對手,除了經營手法外,書籍的來源及規模己無法趕上Google了。請想想,如果你的圖書館的書已經被Google掃描過一次後,你還會想給其他圖書搜索引擎再去掃一遍嗎? 這對針貴的書多少有些偒害吧,也多此一舉。況且搞不好與Google的合約中也明訂不準也不一定。

  5. 嗯…謝謝你!我知道Live Search Books已經停止了,只是想搞清楚他這算不算OCA的計畫之一?
    另外,yahoo不是有加入OCA?雖然說跟Google現在比起來還是遜色, 還是說這個組織因為為非營利, 所以無從比較?
    最後,我想再請問一下Europeana可以算他的競爭對手嘛?謝謝

  6. 依據Wikipedia 上的描述,微軟與OCA的關係比較特別,加入OCA為其Live Book Search的一部份。但在Live Book Search 停止後,他們也就沒再經費上贊助OCA了。Live Book Search期間所scan的75萬本書中的30萬本現在存放在 Internet Archive.

    至於OCA與Google的比較,就有版權的書籍部分,前者是採"opt-in",也就是取得同意再掃描,後者則是偷跑的方式,先scan再等你來"opt-out",自然最後google的量會大的多。

    Europeana的重點在歐洲的作品,自然會是Google在歐洲的對手,但還是要看Europeana數位化的內容,還有歐洲各國的出版社/作者對Google的官司結果而定

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com 標誌

您的留言將使用 WordPress.com 帳號。 登出 /  變更 )

Google photo

您的留言將使用 Google 帳號。 登出 /  變更 )

Twitter picture

您的留言將使用 Twitter 帳號。 登出 /  變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 /  變更 )

連結到 %s