- 相關推薦
字頻視角的古文字“四書”分布發(fā)展研究
字頻視角的古文字“四書”分布發(fā)展研究
劉志基(華東師范大學中國文字研究與應用中心,上海200062)
[摘要]就整個文字系統(tǒng)的歷時演變來說,四書中呈直線變化且變化程度較為顯著的是象形和形聲,前者歷時減量,后者歷時增量,最終互換了在總字形數和總字頻中的主體位置,其字頻統(tǒng)計遠低于字形統(tǒng)計的增減幅度,更加真實地顯示了文字結構的發(fā)展速度。會意自西周金文較甲骨文有較大增長后即在字形系統(tǒng)中占據相對穩(wěn)定的比重,同樣體現了正常發(fā)展軌跡。只有指事的比重發(fā)展缺乏規(guī)律,表現了結構發(fā)展的某種復雜性.
[關鍵詞]字頻;古文字;四書[中圖分類號]H122[文獻標識碼]A[文章編號]1001-5442(2009)04-0054-10
字形表達文字本義的構成方式,一直是文字學研究的基本問題。自許慎首創(chuàng)“六書”體系以來,歷代學者多有相關論說。大體來說,古代學者多恪守“六書”總體框架,發(fā)展也就是在這個總框架的基礎上加以細化、完善而已。而現代學者每每試圖顛覆“六書”這個基礎,總體來說,目前學界對結構理論框架的新探討還沒有形成一個得到普遍贊同的定論,而許慎首創(chuàng)的“六書”理論雖然每每受到古今學者批評,但明清學者在其基礎上形成的“四體二用”之說迄今仍然得到較多的認同。①值得注意的是,近年來,人們開始把漢字結構研究落實到某一具體斷代的漢字中,注重各結構類型字形的數量統(tǒng)計,進而揭示其總體結構狀況。在這種研究中,先秦時段的出土古文字因其時代較早而得到了更多關注(具體述評詳見后文)。這無疑是一種更加務實的研究,基于這種研究的積累,漢字結構理論框架的科學構建或許可以獲得比較堅實的基礎。然而,此類既有研究顯然還有進一步的發(fā)展空間.
作為結構研究對象的字形,可以有兩種存在形式,一種是靜態(tài)儲存性的,如字典所收的字目,其特征是所有字形一律只有一次露臉的機會;一種是動態(tài)使用性的,如文章、書籍用字,其特征為字形是按其出現次數重復計算的。既有相關古文字結構的研究都是以前者為對象的(以下簡稱為“字形角度研究”),而以后者為對象的探索(以下簡稱為“字頻角度研究”②)迄今尚未有問津者。毫無疑問,字形的上述兩種存在形式是有差別的:前者是經人工整理才得以呈現的狀態(tài),后者則保留著文字原始的存在狀態(tài)。所以,至少對于揭示文字系統(tǒng)原生的結構狀態(tài)而言,字頻角度的研究能夠呈現更加真實的信息。鑒此,本文將從字頻的角度,通過殷商、西周、戰(zhàn)國三個時段漢字的“四書”分布狀況的調查統(tǒng)計及相互比較,來描述先秦漢字結構的發(fā)展,進而嘗試揭示其中內在規(guī)律.
在進入正題的討論之前,有必要就如下幾個問題作簡要說明:首先,僅僅調查分析“四書”,理由固然可見前文相關研究的評述。但在另一方面,作此種選擇,并不意味著我們認為“四書”可以完全概括漢字結構類型。事實上,無法納入“四書”框架的結構類型已多被人們揭示,本文將視線的直接落點鎖定于“四書”,只是為了將研究限定在目前更具可行性的有限范圍內。至于古文字其他結構問題的探討,并不視為本文的任務.
其次,字頻視角的“四書”研究是需要一定條件的,這種大致上可以概括為技術的和學術的兩個方面。就技術而言,相關古文字材料必須得到數字化的處理,否則,以人工計數為基礎來完成字頻研究,僅僅存在理論上的可行性。就學術而言,則是被統(tǒng)計文本的用字正確和統(tǒng)一,能夠反映最新研究水平?陀^來說由于字頻研究需要以巨大字量的文本為對象,而古文字材料一方面至今尚未得到電腦通用字符集的支持進而導致數字化處理的諸多盲區(qū),另一方面又在考釋研究方面存在不少分歧甚至盲點,要滿足這兩方面的條件絕非易事,憑借個人力量去完成相關工作更無可能。這也就是字頻角度結構研究迄今尚為空白的重要原因所在。本世紀以來,筆者先后主持了多個以古文字數字化為內容的研究課題,經課題組近10年的不懈努力,才營造了可以支持字頻研究的基礎平臺。作為該基礎平臺組成部分及本文數據來源的各古文字數據庫均經過如下幾個方面的加工處理:依據最新資料公布完成材料匯集;根據考釋研究的最新進展完成釋文校訂;對釋文用字進行符合數字化處理要求的統(tǒng)一整理,并對集外字逐個造字形成字體支持,進而將經過整理的釋文輸入數據庫,實現其全文檢索功能;逐字進行“四書”的標注。因此本文的研究,得益于課題組團隊的集體努力的支持,特此說明.
第三,具體字形的“四書”判定是本文討論的基礎,而“四書”類型判定的標準學界尚未取得完全一致,故有必要擇其容易形成分歧的若干問題簡單說明如下:1,關于“象形”,本文依從象形均為獨體的觀點,所謂“合體象形”,如段注所言“箕”者,本文視為形聲;“眉”者,其中之“目”視為依附性構件,與眉的形象組成一個不可分割之獨體。2,關于“指事”,只認定有抽象指示符號者,或單純由抽象指示符號組成,或由象形符號與抽象指示符號合成,抽象指示符號可以表示種種抽象意義,也可以標志區(qū)別性,且兩種指事字均視為獨體!胺Α薄ⅰ皩邸敝惤柚笮畏栕兓硎颈玖x者則視為象形。3,關于“會意”與“形聲”:前者為兩個或兩個以上單純表義或表形字符組合者;后者為兩個或兩個以上組合字符中有標音功能者.
第四,字頻的研究,難免涉及海量的材料及驗證數據,由此而引發(fā)如下兩個問題:其一,相對其他材料,古文字材料有著較多考釋未定或未有考釋者,故大范圍地引用材料,便也加大了引證失誤的幾率。我們的應對方略是,在全面吸收學界最新研究成果的基礎上認真審核材料,對尚無確釋的材料加以排除。事實上,在整個研究過程中,這項工作要占工作總量的絕大部分比重。即便如此也不能確保避免所有問題,但對于系統(tǒng)材料提供的巨量數據而言,個別問題不至于影響大局。其二,以傳統(tǒng)論文形式的紙張載體,一般是難以勝任承載驗證研究結果的海量數據的,本文的應對方略是,論文本身一般只給出最核心的材料數據,而將相關驗證材料掛在網上,作為本文的網絡附錄,供讀者查驗。后文凡標明“網絡附錄”者,均屬此類。①
一、殷商甲骨文“四書”分布及其初步分析
鑒于可行性要求,我們首先根據統(tǒng)計學的抽樣原則,限定了材料范圍,確定《小屯南地甲骨》[1](下文簡稱《屯南》)和《花園莊東地甲骨》[2](下文簡稱《花東》)卜辭為字頻統(tǒng)計的資料.
抽樣首先是為了限制材料的量,以便在目前條件下確保材料學術和技術加工的完成。當然,這種數量限制是被控制在實現字頻研究目標的可允許范圍內的。根據統(tǒng)計學原理,在一個總體為250的例子中,“只要樣本量不是太小——通常為10或20就夠了,統(tǒng)計學理論表明這個分布近似于正態(tài)分布。”[3][p9]這也就是說,這兩種材料的58544的總字量,可以滿足100萬以上字量文本的抽樣要求,而這個數字,已大大超過迄今所見已經公布的卜辭材料中的字量。①其次,因為需要涉及不同時段文字相關數據的比較,而甲骨文總字數相對偏大,抽樣也是比較的對應性所要求的.
當然,由于材料存在殘泐模糊、屬于習刻,以及釋讀尚存在盲點的原因,我們并不能將所確定范圍內所有文字毫無遺漏地進行結構分析。在確定的可作結構分析字為范圍進行統(tǒng)計,得到如下數據:被分析用字總數為43897,其中象形380個字形,總頻次31527;指事54個字形,字頻數合計5385;會意319個字形,字頻合計4516;形聲120字形,字頻合計2469。(甲骨文四書分布的字形及其出現頻次、各頻次具體出處詳見網絡附錄《小屯、花東用字結構分析》)以上數據按字頻統(tǒng)計,象形占總字頻數的71.82%,指事占總字頻數的12.27%,會意10.29%,形聲占總字頻數的5.62%.
字頻視角的“四書”分布觀察,雖然是一種全新的研究途徑,但其真正的認識價值,卻是在與字形統(tǒng)計的同類研究結果相比較中才能得以實現的,而后一種統(tǒng)計并不乏既有研究.
2006年鄭振峰遵循王寧“漢字構形學”理論,將甲骨文的構形模式分為10種,[4][p41-44]這10種構形模式實際可與“四書”對應,對應后可以得到鄭書中關于甲骨文結構的“四書”數據:象形字為271個,占字形總數27.51%,指事字46個,占字形總數4.67%,會意字311個,占字形總數31.57%,形聲字357個,占字形總數36.17%。[5][p166]2007年陳婷珠以《新編甲骨文字形總表》為基礎,增補《花園莊東地甲骨》等新材料,并注重吸取學界考釋研究最新成果,確定“甲骨文能進行表詞結構分析的單字字形總數共2134個,占甲骨文單字的字形總數的35.84%。其中,象形字字形數為821個,占甲骨文字能進行表詞分析的部分的38.47%;指事字字形數為108個,占5.06%;會意字字形數為875個,占41%;形聲字字形數為330個,占15.46%!盵5][p171]當然,前文完成的甲骨文“四書”分布的頻率統(tǒng)計,也同時完成了不重復字形層面的這種統(tǒng)計,而其相關數據為:象形380字,占總字形數43.53%;指示54字,占總字形數6.19%;會意319字,占總字形數36.54%;形聲120字,占總字形數13.75%.
縱觀以上三種統(tǒng)計結果,不難發(fā)現本文的調查數據與陳書的統(tǒng)計結果比較接近,而與鄭書的統(tǒng)計結果距離稍大,這或許與鄭書的統(tǒng)計主要依據《甲骨文字典》這一相對陳舊的材料有關。而這種差距,如果相對字頻角度的“四書”分布統(tǒng)計結果來看,似乎也可忽略不計了.
從比較的對應性考慮,我們就以同一種材料的兩種數據加以對比,而它們的差異之大頗為出人意表:象形和指事的比重有較大幅度的上升——前者從43.53%上升到71.82%,后者從6.19%上升到12.27%;而會意和形聲則有較大幅度的下降——前者從36.54%下降到10.29%,后者從13.75%下降到5.62%.
上述數據的變化,除了更加準確地呈現了甲骨文各“書”文字投入使用后的真實比重外,還折射了一個極具認識價值的漢字發(fā)展史信息:象形、指事字在甲骨文獻的動態(tài)統(tǒng)計中的比重上升,意味著這兩種結構的獨體字在甲骨文的常用字集中比其他兩書的合體字占據更高的比重,而文字單位之所以取得相對常用的地位是因為它是和語言中相對基本、常用的單位相對應的。一個文字系統(tǒng)中較早產生的文字單位總是和語言中相對基本、常用的單位相對應的,所以象形、指事字也就被證明為甲
【字頻視角的古文字“四書”分布發(fā)展研究】相關文章:
分布式水文模型的發(fā)展、現狀及前景12-01
《細菌和真菌的分布》教案03-09
《降水和降水的分布》教案02-25
轉化視角·生命的意義04-08
研究生個人發(fā)展計劃(通用8篇)09-09
鄉(xiāng)村體育發(fā)展問題研究報告(通用10篇)10-26
山西小雜糧競爭優(yōu)勢與產業(yè)發(fā)展研究論文11-25
傳統(tǒng)武術在高校發(fā)展的現狀及其對策研究論文11-28
國內激光加工專利分布調研報告06-26
黃石市礦業(yè)遺跡分布及其類型04-12