檔案工作的信息化構(gòu)建是迎合潮流,適應(yīng)時(shí)代演進(jìn)的新措施、新需求。檔案作為基礎(chǔ)的信息資產(chǎn),其重要性逐漸顯著,逐步運(yùn)用信息技術(shù)來(lái)服務(wù)于檔案工作,檔案數(shù)字化建設(shè)推動(dòng)社會(huì)主義經(jīng)濟(jì)發(fā)展,及社會(huì)主義文化、數(shù)字檔案館建設(shè)。
檔案信息化是數(shù)字化檔案構(gòu)建中最根本的任務(wù),傳統(tǒng)介質(zhì)的檔案通過(guò)現(xiàn)代科技手段轉(zhuǎn)換為數(shù)字化檔案,通過(guò)內(nèi)網(wǎng)、政府網(wǎng)絡(luò)、因特網(wǎng)實(shí)施數(shù)據(jù)檢索、查閱電子檔案,應(yīng)對(duì)檔案信息服務(wù)新局面的挑戰(zhàn),提升管理效率,增強(qiáng)檔案機(jī)構(gòu)的服務(wù)能力,為檔案內(nèi)部管理和客戶服務(wù)提供高效的全方位服務(wù)。完整的檔案信息化構(gòu)建流程包括案卷移交、檔案整頓、目錄記錄、檔案掃描、圖像處理、OCR文字識(shí)別、數(shù)字校核、數(shù)字質(zhì)量檢測(cè)、數(shù)據(jù)關(guān)聯(lián)、整序還原、案卷存儲(chǔ)等環(huán)節(jié)。
紙質(zhì)檔案信息化標(biāo)準(zhǔn):DA/T31-2005《紙質(zhì)檔案數(shù)字化技術(shù)規(guī)范》 DA/T18-1999《檔案記錄規(guī)則》
為了在數(shù)字化處理過(guò)程中對(duì)紙質(zhì)檔案進(jìn)行有效管理以及對(duì)數(shù)字化處理進(jìn)行有效監(jiān)控,需要對(duì)館藏檔案的數(shù)字化處理分批次實(shí)施。
依據(jù)檔案信息化加工批次計(jì)劃進(jìn)行出庫(kù),對(duì)出庫(kù)的檔案進(jìn)行完整性檢驗(yàn)。對(duì)通過(guò)完整性檢驗(yàn)的檔案,確認(rèn)數(shù)量,并詳細(xì)記錄《資料出庫(kù)單》確保資料在交接過(guò)程中數(shù)量的準(zhǔn)確性,完整性;
根據(jù)文件數(shù)據(jù)庫(kù)目錄結(jié)構(gòu)與目錄記錄要求以及《檔案記錄規(guī)則》(DA/T18)等標(biāo)準(zhǔn),規(guī)范化需要補(bǔ)錄的檔案目錄內(nèi)容,涵蓋確定檔案目錄的記錄項(xiàng)、字段長(zhǎng)度和內(nèi)容要求等,規(guī)范案卷標(biāo)題、文件名稱(chēng)、責(zé)任者、起止頁(yè)碼和頁(yè)數(shù)等。
對(duì)出庫(kù)待加工的檔案進(jìn)行掃描前的預(yù)處理,使之適合于掃描狀態(tài)。如果裝訂影響掃描操作的檔案,應(yīng)需要拆除裝訂物。 文件及檔案中的成冊(cè)資料嚴(yán)禁拆除。區(qū)分同一案卷(卷、件)中的掃描件和非掃描件的頁(yè)面進(jìn)行整理。對(duì)損壞嚴(yán)重、無(wú)法直接掃描的檔案,先進(jìn)行技術(shù)修復(fù),折皺影響掃描質(zhì)量的原進(jìn)行相應(yīng)技術(shù)處理(壓平和燙平等)后再掃描。確保較薄紙(如信紙、便箋紙、損壞紙張、底色較深、如草漿紙、油印紙、字跡較淺、如鉛筆字跡)等紙張狀態(tài)較差的檔案掃描圖像清。檔案整理記錄,詳細(xì)記錄檔案整理后每份文件的起止頁(yè)碼和頁(yè)數(shù)等情況,裝訂、掃描完成后,根據(jù)原檔案保管單位的要求對(duì)檔案重新裝訂,保持每頁(yè)檔案原有的排列順序不變、案卷不掉頁(yè)、右邊和底邊整。
黑白掃描采用(300dpi)TI格式,彩色掃描采用(300dpi)JPG格式,照片以原色彩為準(zhǔn)(dpi)TIFF格式掃描。 確保掃描圖像效果與原件一致,大幅面檔案采用幅面工程掃描儀或小幅面掃描后進(jìn)行圖像拼接,需要進(jìn)行OCR文字識(shí)別的檔案,掃描分辨率≥300dpi,對(duì)成冊(cè)材料不宜拆卷的,采用不拆卷掃描儀掃。 核對(duì)每件文件的掃描頁(yè)碼、頁(yè)數(shù)與實(shí)際的文件頁(yè)碼、頁(yè)數(shù)是否一致,圖命名時(shí)確保正確、避免圖片顛倒、錯(cuò)置等現(xiàn)象。 掃描時(shí)確保檔案原件不受損害。
傾斜的圖像進(jìn)行糾偏處理,傾斜度不超過(guò)3度,方向錯(cuò)誤的圖像進(jìn)行旋轉(zhuǎn)恢復(fù),以符合閱讀習(xí)慣。去污圖像頁(yè)面中影響圖像質(zhì)量的雜質(zhì)如黑點(diǎn)、黑線、黑框、黑邊等進(jìn)行去污處理。圖像拼接大幅面檔案過(guò)分區(qū)掃描形成的多幅圖像進(jìn)行拼接處理,合并為一個(gè)完整圖像,以保證檔案數(shù)字化圖的完整性。 栽邊處理去除多余的白邊,縮小圖像文件的體積,節(jié)省儲(chǔ)存空間。 深淺度調(diào)整圖像深淺度一致時(shí)進(jìn)行修復(fù),確保圖像的深淺度一致。
運(yùn)用先進(jìn)的OCR別軟件,對(duì)掃描的圖像進(jìn)行文字識(shí)別
采用TIFF、JPG格式存儲(chǔ),存時(shí)選擇的壓縮率在確保掃描的圖像清晰可讀的前提下,盡量減小存儲(chǔ)容為準(zhǔn)則。供網(wǎng)絡(luò)查詢的掃描圖像,存儲(chǔ)為PDF文件格式,進(jìn)行過(guò)文字識(shí)別的,形成文件文字層。紙質(zhì)檔
關(guān)鍵性項(xiàng)目檢查和數(shù)據(jù)品質(zhì)隨機(jī)抽查,隨機(jī)抽查任務(wù)由專(zhuān)職團(tuán)隊(duì)執(zhí)行,執(zhí)行結(jié)果予以記錄。數(shù)據(jù)采納全面檢驗(yàn)方法,合格率需達(dá)95%以上以確保品質(zhì)。
采用批量鏈接與單一鏈接方式,使目錄數(shù)據(jù)庫(kù)與圖像庫(kù)相匹配,并產(chǎn)生索引文件。在檔案數(shù)字化轉(zhuǎn)換過(guò)程中創(chuàng)建的目錄數(shù)據(jù)庫(kù)和圖像數(shù)據(jù)庫(kù),在通過(guò)質(zhì)量檢驗(yàn)確認(rèn)為“合格”之后,通過(guò)網(wǎng)絡(luò)上傳至數(shù)據(jù)服務(wù)器端進(jìn)行匯總,實(shí)現(xiàn)快速、大規(guī)模的鏈接。數(shù)據(jù)關(guān)系建立以紙質(zhì)檔案的目錄數(shù)據(jù)庫(kù)為基礎(chǔ),將每份紙質(zhì)檔案掃描得到的一個(gè)或多個(gè)圖像保存為一個(gè)圖像文件,通過(guò)圖像文件的文件名與目錄數(shù)據(jù)庫(kù)中的檔號(hào)的一致性和唯一性,構(gòu)建一對(duì)一的關(guān)系,實(shí)現(xiàn)目錄數(shù)據(jù)庫(kù)和圖像文件的大規(guī)模鏈接。
建立嚴(yán)格的品質(zhì)檢審系統(tǒng),對(duì)處理的數(shù)據(jù)進(jìn)行自審,只有達(dá)到《檔案館紙檔案數(shù)字化驗(yàn)收標(biāo)準(zhǔn)》的要求,才可提交驗(yàn)收。
目錄數(shù)據(jù)庫(kù)、圖像文件及數(shù)據(jù)鏈接的整體品,數(shù)據(jù)校驗(yàn)員在校驗(yàn)過(guò)程中不直接接觸任何紙質(zhì)檔案,僅依據(jù)掃描得到的圖像進(jìn)行校驗(yàn)。首批數(shù)據(jù)采用全面檢驗(yàn)方式,后續(xù)批次則采用隨機(jī)抽查方式,審查所有已完成數(shù)字化的數(shù)據(jù),包括目錄數(shù)據(jù)庫(kù)、圖像文件及數(shù)據(jù)鏈接的整體品質(zhì)。按照《紙質(zhì)檔案數(shù)字化加工驗(yàn)收標(biāo)準(zhǔn)》進(jìn)行審查,檔案實(shí)體驗(yàn)收時(shí)必須逐卷清點(diǎn),按照檔案數(shù)量、文件狀況、卷內(nèi)文件頁(yè)數(shù)與順序、裝訂要求等進(jìn)行審查。
經(jīng)驗(yàn)收合格的完整數(shù)據(jù)應(yīng)及時(shí)備份,同一文件,不跨越兩片DVD編號(hào),光盤(pán)表面標(biāo)記光盤(pán)編號(hào)并標(biāo)明光盤(pán)目錄索引信息,光盤(pán)刻錄完成后,與影像系統(tǒng)檔案進(jìn)行一次比對(duì),確保檔案資料無(wú)遺漏且正確。
加強(qiáng)對(duì)紙質(zhì)檔案數(shù)字化成果的管理,確保其安全、完整性及長(zhǎng)期可用性。
經(jīng)重新整理的檔案依序返回,對(duì)檔案的完整性進(jìn)行驗(yàn)收。拆除裝訂物的檔案應(yīng)按原保管單位重新裝訂,確保每頁(yè)檔案的原始排列順序保持不變。