當前位置:一號簡歷網 >

熱點 >黨建文案 >

數據挖掘技術在數字圖書館中的應用研究

數據挖掘技術在數字圖書館中的應用研究

(北京大學 醫學部,北京 100191)
摘 要:
文章介紹了數據挖掘的主要技術,即關聯規則和聚類算法,並針對北京林業大學數 字圖書館數據的具體特點,將這兩種關鍵技術運用到圖書館借閲信息挖掘過程中,通過分析 挖掘結果,尋找借閲書刊一些潛在的規律,優化圖書館的館藏佈局,提高個性化服務質量。
關鍵詞:數據挖掘;

關聯規則;

聚類算法;

數字圖書館
中圖分類號:TP274  文獻標識碼:A  文章編號:[HT K]1007—6921(2009)04—0158—03

數據挖掘技術在數字圖書館中的應用研究

隨着高校圖書館數據庫中數據量的迅速增加,如何使高校圖書館朝着自動化、數字化和信息 化的方向發展,已成為目前迫切需要解決的問題。如果將數據挖掘技術很好的運用到圖書館 數據庫中,將會使其職能相應地實現轉型,即除了傳統的服務和教育職能外,還可以為高校 的決策、管理及建設發展提供信息諮詢與服務。這樣可以使高校圖書館逐步成為開放的社會 化數字圖書館,為師生的學習及科研創造更好的環境和氛圍。
1 數據挖掘及其關鍵技術
1.1 數據挖掘的定義

數據挖掘(Data Mining,簡稱DM),就是從大量的、不完全的、有噪聲的、模糊的、隨機的數 據庫中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程 [1] 。它主要研究發現知識的各種方法和技術,並利用各種分析工具在海量數據中分析發現模型 和數據間的潛在關係。
1.2 數據挖掘中的主要技術
1.2.1 關聯規則。關聯規則是數據挖掘的主要技術之一。所謂關聯規則,就是尋找數據庫 中 數據項(屬性、變量)之間存在(潛在)的關聯規則。利用關聯規則的數據挖掘技術,可以找出 大量數據之間未知的依賴關係。例如:通過對讀者借閲行為進行關聯規則分析,可以分析出 不同圖書類別中的潛在關係。雖然數據挖掘中頻繁項集挖掘算法對於一些非稠密數據庫能夠 取得較好的性能,但對於稠密數據庫或者支持度閾值比較小時,頻繁項集的數量會以指數形 式增長,使得找出所有的頻繁項集成為不可能的任務。但實際上,在頻繁項集中,存在着較 多的宂餘,最大頻繁項集的規模是所有頻繁項集中最小的,並且可以導出頻繁項集。因此我 們可以使用最大頻繁項集數據挖掘,提高關聯規則挖掘效率。
1.2.2 聚類分析。聚類是一種常見的數據分析工具,其目的是把大量數據點的集合分成若 幹 類,使得每個類中的數據之間最大程度地相似,而不同類中的數據最大程度地不同。因此在 數據進行聚類這一過程中沒有指導,是一種無監督分類。聚類分析是用數學方法研究和處理 所給對象的分類以及各類之間的親疏程度,是在對數據不作任何假設的條件下進行分析的技 術[2]。
2 數據挖掘技術在圖書館借閲信息中的應用

數據挖掘在商業領域內的應用給圖書館帶來了很大啟發,圖書館讀者的特點是數量巨大、讀 者的年齡不同、工作性質和專業方向不同、研究領域更是差別很大,這樣的讀者特點給圖書 館提出了不同的個性化要求。如何滿足讀者的需求,提高讀者的滿意度,給讀者更好的服務 ,是一個值得研究的問題[3]。

在讀者利用圖書館的資源過程中會留下諸如讀者基本信息、借閲歷史、檢索歷史等有價值的 大量信息,這正是圖書館工作者獲取讀者信息需求、讀者分類、需求聚類的寶貴數據,獲取 這些信息就可以據此提供個性化信息服務,即根據讀者興趣文件或興趣規則主動向讀者提供 有價值的資源。通過分析數據挖掘的結果,尋找各個學科領域中的一些相互關聯的知識、優 化圖書館的館藏佈局。圖書館數據庫的各個表中包含很多信息,其中讀者的借閲信息是主要 信息之一,它直接面向讀者,反應讀者的借閲需求。下面以北京林業大學數字圖書館為例, 對讀者的借閲信息進行數據挖掘。
2.1 關聯規則算法的應用

應用關聯規則算法對借閲數據進行挖掘,在圖書館優化書架書庫的管理、發現學科間的隱性 關聯、指導讀者的借閲行為和提供個性化服務等方面有積極作用。
2.1.1 提供個性化特色服務。在傳統的期刊服務過程中,一般是用户提出信息服務請求, 然 後由圖書館員做出解答,後來出現了定製式服務,由圖書館員定期向用户提供與其所從事的 課題有關的信息資料。顯然,這二者都是由客户首先提出服務需求,然後才得到相應的服務 。利用數據挖掘,完全可以根據用户借閲、查閲的歷史資料以及正在從事的課題研究進行數 據挖掘,從而瞭解用户的所需,確定個性化服務內容,主動將相關資料發送到他們手中 [4] 。另外,由於有的讀者在借閲圖書之前,有一些盲目性,不知道自己需要哪類書,什麼書適 合自己,因此可以根據挖掘出來的關聯規則,指導讀者借閲書籍,也利於他們今後的學習和 研究。

在進行數據挖掘前,首先選取2005年至2007年三年內北京林業大學圖書館所有讀者借閲數據 ,並對數據進行預處理,將一些屬性根據實際需要進行離散化,例如:用年級將大學生的年 齡離散化為:00級、01級、02級、03級、04級、05級……。在本文挖掘的數據庫中,由於借 閲信息表中有一個“學號”的屬性,學號前兩位標識該學生所在的年級,所以用年級將大學 生的年齡離散化,可操作性強,並且含義清晰。同理,由於北京林業大學圖書館圖書是按照 中圖法進行分類上架的,我們只需選取讀者借閲圖書索書號的前3位,就可將圖書種類進行 離散化。最後我們對數據運用清理、轉換、消減等其他方法進行預處理。

對數據進行預處理之後,使用Apriori關聯規則挖掘算法,設最小支持度為1%,最小置信度 為50%,進行關聯規則挖掘,可以得到最大頻繁項集。從挖掘結果可以看出,大部分院系的 讀者借閲與本專業相關的圖書比較頻繁,例如:信息學院電子信息科學與技術專業借閲計算 機技術類圖書的支持度為1.5%,同時可以看出,借閲計算機類圖書(TP3)比較頻繁的讀者 有:電子信息科學與技術系、自動化系、木材科學與工程系、計算機藝術設計系、工商管理 系、電子信息科學與技術系、信息管理與信息系統系、工業設計系、機械設計製造自動化系 、林學系。因此可以在新書推薦時,針對這些系的學生推薦計算機類圖書。由於北京林業大 學的學生的自身特點,對於地下建築類(TU9)、建築設計類(TU2)圖書,主要是園林學院的學 生借閲較多,這也因為此類圖書內容和讀者專業知識關係比較密切。因此在新書推薦中,可 以針對園林學院學生的特點,將地下建築類及建築設計類圖書推薦給他們,更好地方便這些 讀者的借閲。
2.1.2 發現學科間隱性關聯。此外,針對學科領域的主要研究人員進行關聯關係挖掘還能 發 現最新學科發展動向,我們選取前面已經處理過的數據表,並對該讀者借閲信息表進行降維 ,使它只包含每個讀者借閲的所有圖書種類。然後使用挖掘速度較快的FP-growth算法,挖 掘最大頻繁項集,設置最小置信度為80%。從挖掘結果可以看出,在同一個大類學科中有些 小類之間有很強的關聯關係,例如:頻繁二項集F71,F27(國內貿易經濟,企業經濟)的支 持度為17.9%,即同時借閲國內貿易經濟與企業經濟類的書籍的借閲信息佔總借閲信息的17. 9%,因此可以説在F(經濟類)圖書中,國內貿易經濟和企業經濟這兩類有很強的隱性關聯 和隱含的學科動向。其他頻繁二項集有相同結果。同樣,頻繁三項集I25,I26,I24(報告 文學,散文,小説)的支持度為13.4%,報告文學,散文,小説三種小類的圖書存在隱 性關聯關係。

同理,在不同大類中的頻繁項集也存在隱含的關聯,例如:頻繁二項集C91,B84(社會學, 心理學)的支持度為18.0%,即從挖掘結果看在C(社會科學總論)和B(哲學)這兩大類中 社會學和心理學有着隱性的關聯關係。因此可以通過數據挖掘中的單維關聯規則,挖掘出各 種不同學科中的隱性關係,指出學科的發展方向及潛在關聯。
2.2 聚類算法的應用

應用聚類算法對借閲數據進行挖掘,對讀者借閲規律的分析和把握、館藏圖書質量判斷等方 面有積極作用。

由於有些優秀的書籍往往會被反覆借閲,並長期在某一固定用户手中,其借閲次數不一定很 高,但借閲時間很長。這是圖書館中最有利用價值的文獻。這些圖書並不一定能從借閲次數 上體現其優勢,因為某本質量很差的書籍會因為其較為吸引人的標題而被經常借閲,但也不 能因此從書籍的借閲時長來斷定其價值。判斷館藏書籍的優劣需從多方面考慮[5] 。筆者通 過統計借閲書籍的平均借閲時間,然後設定最小平均借閲閾值,去掉未達到閾值的圖書種類 ,得到館藏中借閲時間較長的圖書。

根據讀者借閲數據表中借閲圖書日期和歸還圖書日期,可以得到讀者對每種類別圖書的借閲 次數及借閲時長。由於讀者的借閲行為有這種相似性及連續性,因此只需要對2006年和2007 年讀者的借閲信息進行聚類分析,就可以挖掘出讀者最近這幾年來對圖書的需求信息,挖掘 出哪些類圖書是最受讀者歡迎的圖書,從而優化館藏,引導學生的借閲傾向。

對數據表進行k-中心點聚類分析,將數據集分類,可以得到平均借閲時長較短並且借閲次數 較少的數據類即這類圖書不太受讀者歡迎(設定為A類);
平均借閲時長較長並且借閲次數 較多的數據類,即這類圖書較受讀者歡迎,是比較受歡迎的圖書(設定為B類);
平均借閲 時長較長但並未超過借閲時間的期限並且借閲次數很多的數據類,即這類圖書是讀者最感興 趣的圖書,是熱門圖書(設定為C類);
平均借閲時長非常長而且借閲次數較少的數據類, 分析具體的數據可以得出,這類圖書的平均借閲時長遠遠超過了圖書館規定的借閲時間段, 因此是讀者忘記歸還或者讀者將此類圖書丟失造成的,並不是由於讀者喜歡這類圖書而不按 時歸還,因此這類圖書也不應該是熱門圖書(設定為D類)。

比較2006年和2007年的聚類分析圖可以看出2007年不受歡迎的圖書數量有了很大的下降。因 此可以得出不受歡迎和在超過規定歸還期限的圖書種類在減少,受歡迎的圖書相對增加,而 最受歡迎的圖書的種類沒有變化。總體來説,圖書館2007年的圖書比2006年的圖書更受歡迎 ,圖書館的服務質量有所提高。
3 圖書館讀者借閲數據挖掘系統設計與實現
3.1 系統需求分析

圖書館讀者借閲數據挖掘系統的主要用户包括:讀者、圖書館管理者、圖書館工作人員。其 中讀者包括任何借閲圖書的人,例如:學生、教師、研究人員等,圖書館工作人員包括圖書 館數據庫維護人員、圖書館負責上架的工作人員、採購圖書的工作人員等。
740)h=740" border=undefined>

讀者用户羣的主要需求包括瞭解當前學科動向、讀者借閲傾向及需求、掌握最新熱門圖書信 息等。圖書館管理者需求主要包括掌握讀者借閲傾向、圖書借閲情況等,從而為進一步決策 提供依據。圖書館工作人員需求主要包括如何優化館藏,方便圖書上架,以及更好對圖書館 借閲信息進行處理,為讀者提供更好的服務。用户功能需求如圖1所示。
3.2 圖書館讀者借閲數據挖掘系統體系結構

根據前面提出的數據挖掘算法,並結合北京林業大學圖書館實際應用的需求,設計圖書館讀 者借閲數據挖掘系統。該系統在SQl Server數據庫基礎上,運用數據挖掘模型庫為中間層, 進行模型匹配、數據挖掘等操作,併為用户提供可以進行操作的可視化界面。具體系統體系 結構如圖2所示。740)h=740" border=undefined>
本系統採用C/S結構,在VC6.0下用C++實現圖書館借閲數據挖掘系統,主要面向圖書館管理 人員及普通讀者,應用的具體環境為操作系統Windows XP及數據庫服務器SQL Server 2003 。
3.3 系統功能詳細設計

根據數據挖掘算法及系統體系結構,本文提出圖書館讀者借閲數據挖掘系統的需求模型,如 下圖3所示。

740)h=740" border=undefined>
3.4 關聯規則及聚類分析模塊主要界面

在前面介紹的系統體系結構及詳細功能設計的基礎上,運用VC++進行編程,實現圖書 館讀者借閲信息數據挖掘系統,主要的關聯規則及聚類分析界面如圖4、圖5。

740)h=740" border=undefined>
4 結束語
本文以數據挖掘為研究對象,將挖掘算法運用到圖書館借閲數據中,挖掘出對讀者以及工作 人員有指導意義的隱含信息。儘管目前數據挖掘技術在數字圖書館的應用還處於起步階段, 但是本文對數據挖掘在高校數圖書館服務中的應用方面作了一定的研究,並取得了一些研究 成果。
由於個性化服務將成為未來數字圖書館技術發展的主要趨勢,隨着網絡用户羣的日益增長, 更多的用户期望能得到具有針對性的、個性化的信息服務和用户支持。數據挖掘技術因其在 海量信息資源中的智能表現,能為數字圖書館的個性化服務建設提供不可或缺的技術支持。

儘管數據挖掘作為一門前沿技術,自身還在不斷髮展完善,還面臨着許多問題,但隨着研究 的深入,數據挖掘技術必將對數字圖書館的建設產生積極的影響。
[參考文獻]
[1] [ZK(]Han Jiawei,Micheline Kamber.範明,孟曉峯譯.數據挖掘概念與技術[M]. 北京:機械工業出版社,2001.158~161.
[2] 姜園,張朝陽,仇佩亮,周東方.用於數據挖掘的聚類算法[J].電子與信息學報 ,2005.4,(27) :655~662.
[3] 鮑翠梅,王尊新,白如江.數據挖掘技術及其在圖書館中的應用[J].情報雜誌, 2004,(9).
[4] 蔡會霞,朱潔,蔡瑞英.關聯規則的數據挖掘在高校圖書館中的應用[J].南京 工業大學學報,2005,27(1).
[5] 李盼池.基於核聚類算法的高校圖書借閲信息分類方法[J].現代情報,2003,9(9).

  • 文章版權屬於文章作者所有,轉載請註明 https://yhjlw.com/zh-mo/redian/dangjianwenan/evd30q.html
專題