黃清連教學部落格

關於部落格
溫情與敬意的學史態度,是變中唯一的不變。
  • 15741

    累積人氣

  • 33

    今日人氣

    0

    訂閱人氣

中華電子佛典簡介

宗旨
·         研發佛典電子化技術,提昇佛典交流與應用
·         利用電子媒體之特性,以利佛典保存與流通
·         期望讓任何想要閱藏的人都有機會如願以償
緣起
遠因 :
過去數年,經由眾人努力,網路上集結了不少佛教經典,也因此帶動佛典電子檔輸入熱潮。大家的目標主要著重在網路應用,比如將這些電子檔置放於 FTP上供人免費下傳,或是透過 GOPHERWWW 方便使用者瀏覽,最近更在 WWW上提供檢索查詢功能。另個發展是將電子檔包裝設計成電子書,以使經文的呈現更加精緻。所有這些努力,莫不希望能夠透過網路,使佛典普及,讓更多人同霑法益,並利用電腦的能力拓展佛典的應用範圍及閱讀方式。
近因 :
1.      蕭鎮國先生的來函,提供 25CCCII 大正藏電子稿,並於 1997 11 6 25T小組籌備會議之後,授權台大佛研中心進行後續之處理。
2.      網路上電子佛典討論版 (buda-tech) 的朋友草擬了電子版大藏經輸入計畫,開始有計畫的進行經典輸入。
3.      1997 11 6 日由台大佛研中心成立 25T 小組, 著手開始進行大規模的藏經電子化。
成立 :
由台大佛研中心釋恆清法師開始籌募所需經費,並感謝「北美印順導師基金會」與「中華佛學研究所」全力支持贊助後,於 1998 2 15 日假法鼓山安和分院舉辦籌備會議並於當日正式成立 「中華電子佛典協會」。
助緣 :
1.      Buda-Tech 討論群 : 台大獅子吼 BBS 站及中山鹿苑佛教 BBS 專站的討論版,專門進行電子佛典化的相關問題討論,並由曾國豐先生架設 Mailing List 提供討論者使用。許多佛典資料及相關技術都是本版網友努友的結果。
2.      電子佛典編輯小組 (EBTWG) : 由徐言輝及幾位朋友組成之小組,主要是利用 SCAN+OCR 技術,以佛教大藏經為主,而有系統的產生電子經文檔。
3.      25T 小組 : 由台大佛研中心主導,負責處理蕭鎮國先生所提供之 25 CCCII 格式的大正藏經文檔,本小組即為中華電子佛典協會之前身。
4.      缺字小組 : 為了深入討論佛典缺字的解決方案,而另外成立的討論小組。
目標
  • 初期大正藏目標 (1998~2002)
    • 初期以完成大正藏 1-55 冊及第 85 冊 電子化為目標。
    • 完成極低錯誤率之高品質電子經文。
    • 提出電腦缺字之有效處理方案。
    • 利用電腦技術,以整合不同版本藏經校勘之查閱。
    • 整合全文檢索之工具,以提昇電子佛典之應用。
    • 利用網路特性,將漢文佛典呈現至世界各處。
    • 開發單機版之使用介面,以利大眾使用。
  • 第二期卍續藏目標 (2003~2007)
CBETA《卍新纂續藏經》各冊預訂完成時程:
    • 2003.12 X78-87:史傳部.禪宗
    • 2004.07 X63-73:諸宗著述部.禪宗
    • 2005.02 X54-88 的剩餘冊數:包括所有諸宗著述部、禮懺部、史傳部
    • 2006.12 X01-53:包括印度撰述的經、律、論集、密經儀軌部,以及中國撰述的大小乘釋經、律、論等電子版資料
    • 2007.02:發行光碟與網路版的《大正藏》與《卍新纂續藏經》CBETA 電子佛典集成
組織
中華電子佛典協會

委員會常務委員主任委員執行顧問顧問團
┌─┴─┐
副主委  副主委
└─┬─┘
總幹事
┌─┬─┬─┬─┼─┬─┬─┬─┐
研 資 缺 輸 校 標 網 發 財
發 訊 字 入 對 記 路 行 務
組 組 組 組 組 組 組 組 組

各單位介紹 :
  • 顧問團 : 由諸山長老及學術單位所組成之顧問團
  • 委員會 : 本協會以委員會方式組成
  • 常務委員 : 代表委員會監督協會事務之進行
  • 主任委員 : 委員會設置主任委員一名,負責整體事宜
  • 副主委 : 主任委員下設副主委二名,以協助主任委員
  • 總幹事 : 協調各組工作及對外行政事宜
  • 研發組 : 負責提出前瞻性、國際性及學術性之整體規劃
  • 資訊組 : 負責技術程式以及網路、單機應用程式之開發
  • 缺字組 : 負責電腦上之缺字處理
  • 輸入組 : 負責經典輸入之進度及規劃
  • 校對組 : 負責成品之電腦比對及人工校對事宜
  • 標記組 : 負責 XML 標記之檢查修訂及成品電腦比對諸事宜
  • 網路組 : 負責將各組工作之進況及成果利用網路呈現
  • 發行組 : 負責電子佛典之推廣及成品發行之事宜
  • 財務組 : 負責總管財務之運用
CBETA 所使用的技術與技巧
 



本會處理經文的方式,主要是採用不同來源兩個以上版本的經文電子檔,利用程式進行比對,再利用看圖校對的方式產生一較正確的經文電子檔,再交由人工校對。這樣的處理方式,在速度及品質上均令人滿意。



當我們打算使用掃瞄書本及使用 OCR 技術來產生經文時,第一個遇到的問題就是經文圖檔的「雜點」,「雜點」是指非經文本身的符號,在OCR時,會造成較低的判斷正確率,所以就寫出了這支程式來協助解決這個問題。
OCR
Plus
使用OCR判斷的同時,會發現許多常見而重複的誤判。部份可以經由OCR自動學習的功能來改善,但不易改善並且有經常規則性的錯誤,就可以使用這支程式來幫忙處理。本程式是由楊忠權先生完成,並授權本協會使用,在此特別感謝!
也因為這個概念,而得以產生製作「常見錯誤字串取代表」的行動,並將功能整合至「看圖校對程式」之中,以擴大其應用範圍。
在經文產生之後,我們希望在經文之中能依大正藏格式加上必要的資料。通常是在每一行之前留上 <冊數> <經號> <頁碼> <> <> 等資料。這些資料在需要查對原書時,能夠讓我們很快的找到出處,對於後序的作業提供很大的方便。而這支程式主要就是針對蕭鎮國先生所提供 25 冊大正藏經文,進行格式化的動作。





在經文校對上,通常是最耗時的一個環節。經由中研院提供檔案比對的技巧與概念,寫出這支能處理相異格式經文的比對程式。利用這程式來比對二分文件,可以很輕鬆的找出二份文件差異處,再利用一些工具,就可以很快的協助我們修改資料。







在經典文字處理的過程中,有許多錯誤的發生,其實都是有因有緣,有跡可尋的。OCR OCR 常見的錯,使用注音、倉頡等輸入法的朋友,亦都有常犯而難以發現的失誤。故在校對的過程中,吸取錯誤經驗,並加以記錄統計,進而設計了各式的「常見錯誤字串取代表」。
除了「常見錯誤字串取代表」之外,亦有各式「缺字代換表」,故將字串取代功能整合至「看圖校對程式」之中,如此在找出不易發現的錯誤之同時,配合看圖功能,可立刻叫出原書圖檔,進而加以比較,加速了處理的速率。





在校對過程中,查詢原書也是一件花費工夫的事。由於我們已有大部份的掃瞄的圖檔,故寫了本程式,希望能在利用「比對程式」之結果,進行校對時,根據經文中大正藏格式的資料,能立刻在電腦上秀出原書的字,以增進校對判斷速度,並讓沒有書的人亦可進行校對工作。





在大正藏的經文中,除了常見的文字與句點之外,尚有許多其他的符號,其中主要的有校勘數字(有數字的黑圈)、校勘星號(星號)、斷詞小黑點,而較不重要的符號則有一些日本使用的讀音符號,為了讓電腦能協助在現有的經文中自動補入這些符號,於是有了本程式的開發。



缺字處理是很重要的一環,目前有下列的方法在使用中:
網路上常見的組字法 (需了解組字規則)
Dr. Christan 在高麗藏用的 &C, &K 表示法 (需要字碼對照表)
今昔文字鏡使用之 &M 表示法 (需有字典資訊)
漢字組字法(中研院資訊所文獻處理實驗室) (需有造字檔及組字規則)
直接使用圖檔表示法 (純文字檔環境不能使用)
使用 Truetype 利用不同字面的方法 (純文字檔不能用)
Open98 使用漢字庫,利用漢語大字典之資訊為編碼原則 (需有字典資訊)



在核心資料加上適當的標記,就可以在各種應用中取得正確而需要的資訊,故標記的設計與標記程式,也是有待研發的項目。
簡單標記介紹 -- CBETA 電子報第四期
校勘版
XML 標記簡介() -- CBETA 電子報第五期
校勘版
XML 標記簡介() -- CBETA 電子報第六期



研發跨平台技術,希望將核心資料在不同作業平台轉成各種格式,以提供不同需求層面的使用者。



發展全文檢索核心,以提供單機成品及網路展現使用。
本協會提供一些簡單搜尋程式,供使用者下載。



用來將核心資料展示出來,變成單機成品或網路成品,以供流通。
CBETA 感謝以下諸大德的成就因緣:
遠因 :
  過去數年,經由眾人努力,網路上集結了不少佛教經典,也因此帶動佛典電子檔輸入熱潮。大家的目標主要著重在網路應用,比如將這些電子檔置放於 FTP上供人免費下傳,或是透過 GOPHERWWW 方便使用者瀏覽,最近更在 WWW上提供檢索查詢功能。另個發展是將電子檔包裝設計成電子書,以使經文的呈現更加精緻。所有這些努力,莫不希望能夠透過網路,使佛典普及,讓更多人同霑法益,並利用電腦的能力拓展佛典的應用範圍及閱讀方式。
近因 :
1.      蕭鎮國先生的來函,提供 25CCCII 大正藏電子稿,並於 1997 11 6 25T小組籌備會議之後,授權台大佛研中心進行後續之處理。
2.      網路上電子佛典討論版 (buda-tech) 的朋友草擬了電子版大藏經輸入計畫,開始有計畫的進行經典輸入。
3.      1997 11 6 日由台大佛研中心成立 25T 小組, 著手開始進行大規模的藏經電子化。 (二十五冊大正藏會議整理)
成立 :
  由台大佛研中心釋恆清法師開始籌募所需經費,並感謝「北美印順導師基金會」與「中華佛學研究所」全力支持贊助後,於 1998 2 15 日假法鼓山安和分院舉辦籌備會議並於當日正式成立 「中華電子佛典協會」。
助緣 :
1.      中研院資訊所謝清俊教授長期來推動與指導佛典資訊化工作,並擔任本協會顧問。
2.      Buda-Tech 討論群 :台大獅子吼 BBS 站及中山鹿苑佛教 BBS 專站的討論版,專門進行電子佛典化的相關問題討論,並由曾國豐先生架設 Mailing List 提供討論者使用。許多佛典資料及相關技術都是本版網友努友的結果。
3.      電子佛典編輯小組 (EBTWG) :由徐言輝及幾位朋友組成之小組,主要是利用 SCAN+OCR 技術,以佛教大藏經為主,而有系統的產生電子經文檔。
4.      25T 小組 :由台大佛研中心主導,負責處理蕭鎮國先生所提供之 25 CCCII 格式的大正藏經文檔,本小組即為中華電子佛典協會之前身。
5.      缺字小組 :為了深入討論佛典缺字的解決方案,而另外成立的討論小組。
6.      尚有很多熱心朋友與同道默默的支持與鼓勵,無法一一記名,謹此表達致謝之意。

感謝
財團法人菩提文教基金會於 1998 2 15 日至 2001 1 31 日,負責 CBETA計畫之財務與行政等業務。
2001 21 日起,則改由財團法人西蓮教育基金會承辦此業務。
謹此銘謝該兩個基金會所做的一切努力。
相簿設定
標籤設定
相簿狀態