文:漢儒.薩爾彌(Hannu Salmi)
第二章 數位歷史學中的何謂閱讀和文本性
(前略)
用機器閱讀
在現今快速變化的媒體世界中,「閱讀」這個詞實際上愈來愈多是數位用於技術設備上,而不是歷史離人。例如,學遠掃描器中使用光學閱讀器來捕捉視覺資訊,讀強調距並將其轉換成其他格式,概念該太玩物志购物 源码以便在電腦上進一步詳讀。研究書籍封底上的人員條碼包含有關產品的資訊,可以透過光學方式來讀取,不應從而將這些資訊導入到另一個系統,接近以便在書店的文本發票上使用。這裡的何謂「讀取」所指涉的,既是數位數據的解碼,也是歷史離數據的轉換。
前一章討論中,學遠許多數位化計畫都利用了光學閱讀的觀念。光學字元辨識(OCR)是一種將圖像轉換為文本的技術,它已經產生了大量的數位語料庫。其識別是基於字元的視覺特徵,其基本要素是它產生的文本是機器可讀的,可以用電腦加以分析,這在類比形式中是不可能的。
實際上,OCR的歷史背景與更傳統的閱讀,或尋找新的閱讀途徑之必要條件有關。早在二十世紀初期,就已經出現了一種技術需求,也就是能夠將印刷文本轉換成一種不需要透過人類眼睛的形式。一九一三年,艾德蒙.愛德華.福涅爾.達爾貝(Edmund Edward Fournier d’Albe)發展了一種光學電話(optophone),能夠掃描文本並將字元轉換成音調,使盲人能夠聽到字母,從而在看不到任何字元的情況下閱讀。在隨後的幾十年裡,發展了許多技術來提高字元的软件源码防修改自動識別能力。
數位人文學科的前提是:資料是機器可讀的,這意味著資訊不僅可以由研究人員閱讀,也可以由電腦或軟體來閱讀。光學閱讀器只是實現機器可讀性過程中的一種設備。如果我們把「閱讀」定義為消化和組織所謂的資訊,那麼,機器當然也能閱讀。如果我們進一步認為閱讀也是一種解釋,那麼很明顯,我們可以教機器分析並解釋它們所獲取的數據。
然而,使問題進一步複雜化的是:在目前的情況下,我們本身不僅是讀者,並且我們也是以創新和富有想像力的方式中被閱讀的對象。用演算法來解讀我們的言行,是一個迫切需要解決的問題。這也意味著,閱讀的文化歷史背景在過去幾十年裡發生了深刻的變化。
遠讀
本書的主題數位歷史,是基於當前的文化條件,我們擁有機器可讀的大數據,包含了被數位化的和原生的數位資訊,讓我們可以發展出新的歷史研究方法,毫無疑問地也可以發展出新的研究環境和歷史研究的課題。如果可用於研究的原始材料的性質、品質和範圍都發生了變化,那麼研究工具自然也必須隨之改變。
在這種情況下,幾十年來由歷史學家和其他人文學科研究人員廣泛培育的精讀觀念,在二十一世紀初受到了遠讀觀念的挑戰。「遠讀」一詞之所以流行起來,是因其對於精讀的爭議性評論。這個詞是由文學學者莫雷蒂在二○○○年發表在《新左翼評論》(New Left Review)上的文章〈世界文學的猜想〉(Conjectures on world literature)中所提出的。
莫雷蒂認為,转折线指标源码遠讀讓我們能夠專注於比文本更小或更大的單位:設備、主題、比喻或文體和系統。與其精讀,讀者必須保持一定的距離,以便能夠看到較大的特徵,否則這些特徵就不會被注意到。也可以看見那些較小的、微妙的元素,它們只有在積累時才會加重分量。
在莫雷蒂於二○○五年出版的《圖表、地圖、樹木:文學史的抽象模型》(Graphs, Maps, Trees: Abstract Models for a Literary History)一書中寫道,這種距離「不是障礙,而是一種特定的知識形式:元素更少,因此更能清晰地察覺到它們的整體聯繫,形狀、關聯、結構、形式乃至於範型」。
他發表於《新左翼評論》的原創性論點,挑釁地將「精讀」與「遠讀」放在對立面。他甚至認為,距離是「知識的一種情境」。這一結論有很多理由,稍後將在本章中進行討論;這些不必然與數位歷史學家相關,因為,在我看來,數位歷史學中的「精讀」和「遠讀」的概念與莫雷蒂的觀點不同。已有許多著作試圖去解決這種二分法,並且超越這種二元對立的模式。
如今,遠讀的概念經常被用於數位人文學科的研究,假如材料包含大量文本,html源码找网址那麼它也與數位歷史學相關。它也意味著在文化研究中,過去的取徑著重在解釋方法上,而遠讀被視為一種統計分析和定量方法的回歸。遠讀經常被簡單地描述為分析「成千上百本書」,甚至是一種「比精讀更客觀」的方式。然而,在詮釋莫雷蒂的方法論之際,有幾個方面是必須考慮的。
首先,他的方法源於文學研究,而在文學研究中一直有很多關於不同閱讀方法的討論。如前所述,作為一種實踐,精讀最初是針對文學作品的傳記解釋而提出的,指出分析文本的內部結構和深入詞語和語法水準的重要性。在文學研究中,也強調了許多其他的閱讀流行語。
在精神分析和馬克思主義的推動下,提出了「症狀式閱讀」(symptomatic reading)的概念,它的假設是文本的真正意義在於它所沒有說出來的,意味著讀者必須努力超越文本的表面,找到隱藏的意義。與此相反,表面閱讀(surface reading)的引入,則是為了認真對待文本的表面價值,並分析被症狀性閱讀所掩蓋的文學表面的複雜性。
當然,莫雷蒂強調要透過數位方法來研究大量的文本。但將其思想應用於歷史研究時,我們必須意識到一個事實:至少在《新左翼評論》的第一次反覆論述中,他的遠讀形式是針對文學經典的。他的出發點是對世界文學的傳統理解方式提出挑戰。莫雷蒂寫道:
研究世界文學意味著什麼呢?我們該怎麼做?我研究一七九○年至一九三○年間的主动买盘指标源码西歐敘事,現在已經感覺自己像個身在英法之外的江湖騙子。世界文學?
當然,很多人讀的書比我多,讀得也比我好,但是,我們在這裡談論的是數百種語言和文學。閱讀「更多」似乎難以解決問題。尤其是我們剛剛開始重新發現瑪格麗特.科恩(Margaret Cohen)所說的「龐大的未讀」(great unread)。「我從事西歐敘事等方面的工作……?」不完全是,我研究的是它的規範部分,它甚至不到已發表文獻的百分之一。再說一次,有些人讀得更多,但關鍵是十九世紀的英國小說至少有三萬本,乃至四、五萬,六萬本沒人真正知道,沒人讀過,也不會讀。
很明顯,莫雷蒂的靈感來自瑪格麗特.科恩在一九九九年的《小說的情感教育》(The Sentimental Education of the Novel)一書中提出的「龐大的未讀」的想法。科恩所用的這個詞,指的是大量已經無法獲取或完全被遺忘的文本。這給研究帶來了挑戰。我們怎麼知道這些被遺忘的書到底寫了些什麼呢?他們討論了什麼?為什麼它們在當時那麼受歡迎?一名研究人員只能研究大量「未讀書籍」中的一小部分。事實上,這一觀察已經成為試圖尋找研究文學新方法的論據。
莫雷蒂的目的是提倡以歌德和馬克思的精神,但採用現代方法的世界文學(Weltliteratur)的思想。正如他所指出的,精讀「必然依賴一個非常小的標準」,因為它不可能像理解世界文學所需要的那樣,去仔細分析那麼多文本。因此需要新的方法,研究人員應該學會如何不閱讀(learn how not to read)。此外,莫雷蒂尖銳地指出:「美國是一個精讀的國度,所以我不認為這個觀點會特別受到歡迎」。
莫雷蒂的激烈言論顯然是針對那些分析單一作者或作品,從而強化現存經典的文學學者。主張精讀經典的研究者在選擇上不是公正的,但他們參與了文學觀點的建構。當把莫雷蒂的思想應用到其他人文領域的遠讀之際,注意到這一點是相當重要的。
此外,我們不應該理所當然地認為,莫雷蒂對文學研究的表述,是公正地對待他自己領域中各種不同的方法和趨勢。無論如何,在歷史研究中,研究者與文本和文本性的關係,顯然不同於莫雷蒂的意象(image),因為歷史學家往往傾向於盡其所能地把更多的材料納入他們的研究,而不是只專注於少數文本。
值得注意的是,莫雷蒂也提到了歷史學家。他引用了馬克.布洛赫(Marc Bloch)的口號「多年的分析換來一天的綜合」。並參照弗爾南.布勞岱爾和伊曼紐爾.沃勒斯坦(Immanuel Wallerstein)的總體方法。最後,他指出沃勒斯坦的作品是非常縮合的。
沃勒斯坦把他的「多年分析」濃縮成「三分之一頁」的內容。這揭示了莫雷蒂的目標:他提倡努力尋找從大量資料中創建出抽象的新方法。對他來說,視覺化是一種綜合那些透過計算方法得到觀察結果的手段。這是他在《圖表、地圖、樹狀圖:文學史的抽象模型》一書中進一步發展的內容。
遠讀強調了距離的概念:研究人員不應該太接近文本:「愈是雄心勃勃的計畫,距離必須要愈大。」在歷史研究的脈絡下,這種觀點當然值得商榷。必須利用現在可供研究的大數據,和探索從遠處來觀察這種材料的嶄新方法。但與此同時,同樣重要的是從遠處回到近處來觀察個別的文本,並思考大格局如何改變我們對於細節的看法。
自莫雷蒂以來,許多學者一直強調遠觀和近窺之間的連續動態關係。斯考特.溫加特(Scott Weingart)指出,「當你把鏡頭拉得足夠遠時,一切看起來都是一樣的」,並藉此提出了視點距離之道德層面的看法。因此,人文學科的研究者有必要「把我們的近窺的視角帶到遠觀的視角」。
菲德列克.克雷佛特(Frédéric Clavert)轉而建議歷史學家應該「能夠進行雙重閱讀」,在檔案中工作,並透過人工來閱讀與近窺資料;然而,與此同時,他們應該能夠從遠處觀察一切。有時,遠觀的閱讀是必要的;它可以給精讀帶來新的洞察,反之亦然。
提姆.希區考克(Tim Hitchcock)是數位歷史學的先驅之一,也是倫敦中央刑事法院的資料庫Old Bailey Online (1674 ∼ 1913 年)的開發者,他凸顯了能夠在宏觀和微觀層面之間縮放的重要性,並強調「電腦輔助精讀」的潛力。
在遠讀中,「遠」這個詞有兩個含義:一方面是努力試圖避免深入研究細節,與文本表面保持遠離;另一方面同時也暗示研究資料是如此龐大,以至於無法在近處查看,僅能從遠處觀看。大數據需要一種遠觀的方法,因為不可能進行精讀,讓我們回想一下那些數以億計已經數位化的書籍。人類不可能將它們全部讀完,而且如果只有精讀才被認為與學術相關的話,它們可能仍然是「龐大的未讀作品」。在這種情況下,有必要使用機器代替人類來閱讀。
如果大數據是機器可讀的格式,它可以透過計算方法來進行組織。但這真的是閱讀嗎?如果我們把閱讀定義為需要一種人類意識,這種意識能夠不斷地將所讀的內容與之前所採用的內容相互比較,並推測所讀內容在未來會如何發展?那麼,這或許是機器無法做到的。但可以肯定的是:人工智慧可以日漸增強,每一個新識別的字元、單詞和句子都可以與文本中先前的表達內容進行比較,不僅是在一個文本中,而且是在成千上萬個更早的文本的上下文中相互比較。
書籍介紹
本文摘錄自《何謂數位歷史學?》,貓頭鷹出版
作者:漢儒.薩爾彌(Hannu Salmi)
譯者:范純武、湯瑞弘
- momo網路書店
- Pubu電子書城結帳時輸入TNL83,可享全站83折優惠(部分商品除外,如實體、成人及指定優惠商品,不得與其他優惠併用)
- 透過以上連結購書,《關鍵評論網》將由此獲得分潤收益。
在《何謂歷史》之後,數位時代的史學研究入門指引!
踏入新世代數位文史領域的入門書
范純武、湯瑞弘兩位歷史系教授攜手合譯
台版獨家收錄專文:「如果『史學即是史料學』,數位歷史學的發展問題會是什麼?」、「數位轉向後歷史學新形式及其反思」
當歷史學進入數位時代,愈來愈多關於過去的資訊可以藉由數位形式來獲得,而歷史研究也不得不面臨一波轉型。本書中,作者將回顧數位研究的起源,進而介紹數位歷史學的概念,以及概述在大數據時代研究的問題和方法。在閱讀完本書後,將會意識到,我們已經進入人人都可參與歷史研究,且每個歷史研究者都可以是數位歷史學家的時代。
歷史學的數位化浪潮
自20世紀下半葉起,許多機關團體便有意識將過去的史料以數位化方式保存,舉凡文獻、地圖、圖像、影音……都可透過網路或資料庫搜尋。因此,以往藏在故紙堆裡的資料,不但可長久保留,也更容易被人取得與閱讀。同時,在進入21世紀後,數位化趨勢更進一步影響了歷史研究的方式。比如閱讀史料的方式也不同於以往。
過去研究歷史強調「精讀」,也就是細心地閱讀,從字裡行間理解細節進而發現更大的脈絡。但以數位形式儲存的資料,讓人得以改用「遠讀」的方式,也就是用機器閱讀,這讓研究者得以發現文本中隱藏的主題與特徵。至此,不僅僅是研究方式改變,連研究的內容也可能產生了變化。
從數位化歷史學到數位歷史學
當利用數位技術和演算法等新興數位工具去分析歷史素材的方式出現後,數位歷史學這個學科分支也被創造了出來。同時數位歷史學也帶來跨學科的研究。而AR、VR在歷史敘事上的運用,以及用視覺化展示歷史及沉浸式體驗去增進公眾參與等等,也都成為數位歷史學未來可預期的發展。
數位歷史學的問題與挑戰
數位研究方法需要龐大的技術與資源去支撐,產生了數位資源的傾斜,誰能夠去使用這些資源成為了新的問題。另外,數據質量以及數位技術能力也都影響個別研究者的產出。原生數位資源牽涉的個資等倫理問題、數位資源的保存性,都仍待思索。
給所有歷史人,最簡要清晰的數位歷史學入門
雖然數位歷史學目前是歷史研究中的一個學科,但作者也提到其實大部分的歷史學家都已經在使用數位工具,可說人人都是數位歷史學家,因此本書更適合給所有有志從事歷史相關工作的人參考。
本書繁體中文版,由東海大學歷史系「史學導論」授課教師范純武教授與文化大學史學系專長史學史的湯瑞弘副教授攜手翻譯,將這本迄今為止對數位歷史學最簡要清晰的解說介紹給所有在歷史、人文學科領域耕耘以及對數位化所帶來的改變有興趣的讀者。書中也將收錄兩位教授為台灣讀者撰寫的兩篇專文。
【加入關鍵評論網會員】每天精彩好文直送你的信箱,每週獨享編輯精選、時事精選、藝文週報等特製電子報。還可留言與作者、記者、編輯討論文章內容。立刻點擊免費加入會員!
責任編輯:翁世航
核稿編輯:潘柏翰