正文

圖書掃描錄入系統(tǒng)

發(fā)布時間：2023-04-27 06:55:28 稿源：創(chuàng)意嶺閱讀： 536

大家好！今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于圖書掃描錄入系統(tǒng)的問題，以下是小編對此問題的歸納整理，讓我們一起來看看吧。

創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀企業(yè)，服務(wù)客戶遍布全國，相關(guān)業(yè)務(wù)請撥打175-8598-2043，或微信：1454722008

本文目錄:

1、圖書管理系統(tǒng)的概念
2、如何在圖書館快速的把書上的內(nèi)容錄入
3、如何根據(jù)掃描條碼isbn錄入圖書信息和圖片？
4、什么是OCR技術(shù)

圖書掃描錄入系統(tǒng)

一、圖書管理系統(tǒng)的概念

圖書館管理系統(tǒng)是講整個圖書館的信息錄入系統(tǒng)中，可以實現(xiàn)快速尋找、租借等。

在慧芯的智慧圖書館方案中，除了這些功能外，還連接了門禁系統(tǒng)，自動分揀機器人，自助借還設(shè)備等，基本上可以實現(xiàn)租借自動化。

二、如何在圖書館快速的把書上的內(nèi)容錄入

這要看情況來說，圖書館的書有兩種類型。紙質(zhì)圖書和電子圖書。

對于電子圖書很好辦。對于文本型的圖書，直接復(fù)制到U盤里面帶回家就是了，如果是圖片型的，你要把圖片存到一個U盤上，回家放到電腦上直接看，如果你要復(fù)制上面的文字，則需要安裝一個掃描儀，比如漢王掃描儀。

對于紙質(zhì)圖書。你可以帶一個800萬像素以上的數(shù)碼相機，把你想要的內(nèi)容拍照下來，回家后用掃描儀讀取圖片上的內(nèi)容。還有一個比較簡單的辦法就是將圖書拿到圖書館復(fù)印中心進(jìn)行掃描，制作成pdf格式。然后帶回家，用閱讀器讀取。用手機拍照紙質(zhì)圖書的話，最少得300萬像素的才比較清晰。我們在做圖書數(shù)字化試驗的時候用的是800萬像素的數(shù)碼相機，效果還不錯，像你這種情況，可以降低到500萬像素。

三、如何根據(jù)掃描條碼isbn錄入圖書信息和圖片？

目前行業(yè)內(nèi)有一些比較大的平臺，支持API接口調(diào)用的，大平臺的數(shù)據(jù)相對要穩(wěn)定一些，舉例：聚合數(shù)據(jù)、京東萬象、極速數(shù)據(jù)，這些平臺都有ISBN數(shù)據(jù)查詢接口，您可以調(diào)試對比下。

四、什么是OCR技術(shù)

OCR是英文Optical Character Recognition的縮寫，是指電子設(shè)備（例如掃描儀或數(shù)碼相機）檢查紙上打印的字符，通過檢測暗、亮的模式確定其形狀，然后用字符識別方法將形狀翻譯成計算機文字的過程；即，對文本資料進(jìn)行掃描，然后對圖像文件進(jìn)行分析處理，獲取文字及版面信息的過程。OCR的發(fā)展簡況OCR的概念是在1929年由德國科學(xué)家Tausheck最先提出來的，后來美國科學(xué)家Handel也提出了利用技術(shù)對文字進(jìn)行識別的想法。而最早對印刷體漢字識別進(jìn)行研究的是IBM公司的Casey和Nagy，1966年他們發(fā)表了第一篇關(guān)于漢字識別的文章，采用了模板匹配法識別了1000個印刷體漢字。20世紀(jì)70年代初，日本的學(xué)者開始研究漢字識別，并做了大量的工作。我國研究漢字識別的起步比較晚，20世紀(jì)70年代末才開始進(jìn)行OCR的研究工作。早期的OCR軟件，由于識別率及產(chǎn)品化等多方面的因素，未能達(dá)到實際要求。同時，由于硬件設(shè)備成本高，運行速度慢，也沒有達(dá)到實用的程度。只有個別部門，如信息部門、新聞出版單位等使用OCR軟件。1986年以后我國的OCR研究有了很大進(jìn)展，在漢字建模和識別方法上都有所創(chuàng)新，在系統(tǒng)研制和開發(fā)應(yīng)用中都取得了豐碩的成果，不少單位相繼推出了中文OCR產(chǎn)品。進(jìn)入20世紀(jì)90年代以后，隨著平臺式掃描儀的廣泛應(yīng)用，以及我國信息自動化和辦公自動化的普及，大大推動了OCR技術(shù)的進(jìn)一步發(fā)展，使OCR的識別正確率、識別速度滿足了廣大用戶的要求。目前，比較流行的OCR軟件很多，英文OCR主要有OmniPage，中文OCR主要有清華紫光OCR、清華文通OCR、漢王OCR、中晶尚書OCR、丹青OCR、蒙恬OCR等。盡管漢字字量大、字形復(fù)雜，但OCR技術(shù)已經(jīng)走向成熟。許多OCR軟件不僅能識別黑白印刷體漢字，還能識別灰度和彩色印刷體漢字，識別速度很快，識別正確率達(dá)到了99％以上；可識別宋體、黑體、楷體等多種字體的簡、繁體；可對多種字體、不同字號的混排進(jìn)行識別；有些OCR軟件還能識別圖像、表格。與此同時，對于手寫體漢字識別的研究也取得了很大進(jìn)展，正確識別率已達(dá)到了70％以上。OCR軟件的應(yīng)用在掃描儀市場上，許多類型的辦公和家用掃描儀均配有OCR軟件，如紫光的掃描儀配備了紫光OCR，中晶的掃描儀配備了尚書OCR，Mustek的掃描儀配備了丹青OCR等。掃描儀與OCR軟件共同承擔(dān)著從文稿的輸入到文字識別的全過程。文稿掃描在辦公領(lǐng)域中經(jīng)常用到，即將報紙、雜志等媒體上刊載的有關(guān)文稿通過掃描儀進(jìn)行掃描，隨后進(jìn)行OCR識別，或存儲成圖像文件，留待以后進(jìn)行OCR識別，將圖像文件轉(zhuǎn)換成文本文件或Word文件進(jìn)行存儲。此外，數(shù)字化信息的存儲、傳輸、不僅成本低、效率高，而且能夠適應(yīng)排版，網(wǎng)絡(luò)傳輸?shù)炔粩喟l(fā)展的需要。目前我國有很多歷史遺留下來的大量圖書、報刊、雜志等紙質(zhì)珍品，急需將其轉(zhuǎn)換成電子信息。如電子圖書館的建立，就需要將圖書逐頁掃描，加上OCR軟件的識別，更替代了人工鍵入文字的工作，大大縮短了錄入時間，減輕了勞動強度，節(jié)省了人力且降低了費用，提高了錄入正確率、工作效率和現(xiàn)代辦公自動化程度。目前OCR軟件與掃描儀的搭配已應(yīng)用到信息化時代的多個領(lǐng)域，如數(shù)字化圖書館，各種報表的識別，以及銀行、稅務(wù)系統(tǒng)票據(jù)的識別等。隨著網(wǎng)絡(luò)化、信息化的發(fā)展與普及，其應(yīng)用范圍將越來越廣泛。OCR系統(tǒng)的組成漢字識別軟件OCR的功能是將各種錄入漢字、印刷體或手寫體中每個漢字的圖形或圖像通過計算機辨認(rèn)出來，并標(biāo)出漢字類別代碼。因此，漢字識別歸根結(jié)底是一個圖像識別問題。由于漢字信息量很大，具有不同的字形、字體，而且結(jié)構(gòu)復(fù)雜，因此漢字識別的過程極其復(fù)雜。由于掃描儀的普及與廣泛應(yīng)用，OCR軟件只需提供與掃描儀的接口，利用掃描儀驅(qū)動軟件即可。因此，OCR軟件主要是由圖像處理模塊、版面劃分模塊、文字識別模塊和文字編輯模塊等4部分組成。1、圖像處理模塊圖像處理模塊主要具有文稿掃描、圖像縮放、圖像旋轉(zhuǎn)等功能。通過掃描儀輸入后，文稿形成圖像文件，圖像處理模塊可對圖像進(jìn)行放大，去除污點和劃痕，如果圖像放置不正，可以手工或自動旋轉(zhuǎn)圖像，目的是為文字識別創(chuàng)造更好的條件，使識別率更高。2、版面劃分模塊版面劃分模塊主要包括版面劃分、更改劃分，即對版面的理解、字切分、歸一化等，可選擇自動或手動兩種版面劃分方式。目的是告訴OCR軟件將同一版面的文章、表格等分開，以便于分別處理，并按照怎樣的順序進(jìn)行識別。3、文字識別模塊文字識別模塊是OCR軟件的核心部分，文字識別模塊主要對輸入的漢字進(jìn)行"閱讀"，但不能一目多行，必須逐行切割，對于漢字通常也是一個字一個字地辨認(rèn)，即單字識別，再進(jìn)行歸一化。文字識別模塊通過對不同樣本漢字的特征進(jìn)行提取，完成識別，自動查找可疑字，具有前后聯(lián)想等功能。4、文字編輯模塊文字編輯模塊主要對OCR識別后的文字進(jìn)行修改、編輯，如系統(tǒng)識別認(rèn)為有誤，則文字會以醒目的紅色或藍(lán)色顯示，并提供相似的文字供選擇，選擇編輯器供輸出等。OCR軟件的使用方法OCR軟件的種類雖然很多，但其使用方法大同小異。首先要對文稿進(jìn)行掃描，然后進(jìn)行OCR識別。OCR軟件的使用方法如下：1、文稿掃描為了利用OCR軟件進(jìn)行文字識別，可直接在OCR軟件中掃描文稿。運行OCR軟件后，會出現(xiàn)OCR軟件界面。將要掃描的文稿放在掃描儀的玻璃面上，使要掃描的一面朝向掃描儀的玻璃面并讓文稿的上端朝下，與標(biāo)尺邊緣對齊，再將掃描儀蓋上，即可準(zhǔn)備掃描。點擊視窗中的"掃描"鍵，即可進(jìn)入掃描驅(qū)動軟件進(jìn)行掃描，有關(guān)掃描方法這里不再贅述。但應(yīng)注意的是：分辨力可設(shè)置在200～400dpi，對于文本文檔，調(diào)整亮度適中很關(guān)鍵。掃描后的文檔圖像出現(xiàn)在OCR軟件視窗中。2、OCR識別為了便于操作，可從菜單中選擇選項，各種圖標(biāo)出現(xiàn)在視窗的左邊。為了更好使用，首先從上到下介紹畫面左邊的圖標(biāo)："放大"工具：用于放大圖像；"縮小"工具：用于縮小圖像；"設(shè)定識別區(qū)域"工具：用于設(shè)定識別區(qū)域；"設(shè)定識別順序"工具：用于設(shè)定識別順序；"刪除識別區(qū)域"工具：用于刪除識別區(qū)域；"擦除圖像雜點"工具：用于擦除圖像中的雜點；"擦拭圖像塊"工具：用于擦除圖像中的某一區(qū)域；"旋轉(zhuǎn)圖像"工具：用于將圖像旋轉(zhuǎn)90°、180°或270°；"傾斜校正"工具：用于手動圖像傾斜校正。OCR識別的一般步驟：(1)文稿掃描后，剛開始出現(xiàn)在視窗中的要識別的文字畫面很小，首先選擇"放大"工具，對畫面進(jìn)行適當(dāng)放大，以使畫面看得更清楚。必要時還可以選擇"縮小"工具，將畫面適當(dāng)縮小。(2)如果畫面需要旋轉(zhuǎn)90°，180°或270°，可使用"旋轉(zhuǎn)圖像"工具旋轉(zhuǎn)圖像。如果文字畫面傾斜，可選擇"傾斜校正"工具，將畫面調(diào)正。(3)識別時選擇"設(shè)定識別區(qū)域"工具，在文字畫面上框出要識別的區(qū)域，這時也可根據(jù)畫面情況框出多個區(qū)域。如果所框區(qū)域有誤，則可使用"刪除識別區(qū)域"工具，刪除所選識別區(qū)域。(4)為了提高識別率，如果所選識別區(qū)有雜點或有不能識別的圖像，則可選擇"擦除圖像雜點"工具，將雜點一點一點地擦除。如果需要成片地擦除，則可選擇"擦拭圖像塊"工具。(5)點擊"識別"圖標(biāo)，則OCR顯示正在進(jìn)行文字切分，然后轉(zhuǎn)入"正在識別"畫面，將識別的文字逐步顯示出來，"文稿校對"窗口。許多OCR軟件都具有文字修改功能，被識別出可能有錯誤的文字，用比較鮮明的顏色顯示出來，并且可以進(jìn)行修改。(6)將識別后的文件存儲成文本(TXT)文件或Word的RTF文件。

以上就是關(guān)于圖書掃描錄入系統(tǒng)相關(guān)問題的回答。希望能幫到你，如有更多相關(guān)問題，您也可以聯(lián)系我們的客服進(jìn)行咨詢，客服也會為您講解更多精彩的知識和內(nèi)容。