漢字構字式字群集合


作者:Владимир Лесной

Lastest update : 2014/11/15

(第一次更新版,尚未完整)


「漢字構字式」實際上是一種漢字構成方法,如果考慮了已經存在的漢字及可能存在的漢字兩大類,則漢字組字法可以分成兩大類:「規範漢字組字」及 「自由部件組字」。

其中,若是採用了「規範漢字組字」的方法,則必然會發生「字群集合」的問題。

中文語言方程當中,採用了「字群集合」作為解決編碼空間限制及限制漢字無限組合問題的主要方法。

自由部件組字


所謂的「自由部件組字」,即為完全不考慮所組成的漢字是否在使用漢字的地區是否曾經出現過,只要符合漢字構造方法,使用任意可以被組合出來的漢字 部件,採用限定的組合規則而產生的漢字,此種方法即稱為「自由部件組字」。

「自由部件組字」所產生的問題如下:
  1. 幾乎所有的國際標準編碼都不存在「自由組字」所造漢字。
  2. 除了透過表意文字序列(IDS)去表達這種字以外,幾乎沒有任何辦法來做為資訊交換,而目前的表意文字序列定義並不完整。
  3. 許多不曾獨立存在的字素部件,並不存在於現有的編碼空間上,無法實際表達一些可能被造出來的字。
過往宣稱為「動態組字」的技術,通常實際上就是「自由部件組字」,而自由組字通常實際應用範圍都是屬於「書法」及「藝術」的範疇,並非實際的「漢 字構 字式」。

技術上而言,中文語言方程也支援「自由部件組字」,但並未將「自由部件組字」所構造的字,做為編碼處理,它只能使用API或是IDS表達法來處 理。

規範漢字組字


所謂的「規範漢字組字」,即特定構形的特定位置,只有規範過的「字群」才可以在該位置上做為「部件成員」。

舉例而言:CLF(05)構形有兩個位置,CLF ( 05 , A , B )。

CLF-05-S

其中,位置A只有指定的「字群」才可以做為「部件成員」,下面列出Unicode Plane 0當中,做為CLF(05)及CLF(23)當中A位置的「部件成員」:

構形編號
構形 位置A
位置B 位置C
05
CLF-05-S 丨亻冫氵二工木文正飠
饣山丬扌止月禾甘十女
巾土足身阝革子歹申彳
巾口火弓礻衤片爿牜田
白皮目矛矢示米缶羊耒
耳虫讠豕豸貝贝車纟王
方忄犭石有光見至龺玄
亡文古云舟采立糹言羽
谷豆金钅韋糹死

-
-
23
CLF-23-S
廴風兀丸光是屯爪瓜永
九支更元风見虎堯支豕
虎瓦乙尢尤尾克丸尺克
免也鬼文鼠麥毛走辶
-
-


從上表所見,在Unicode Plane 0當中,使用CLF(05)構形的漢字,A左部件實際上大約在90個左右,使用CLF(23)構形的漢字,A部件實際上大約在40個左右,我們將 這兩群「字群」再使用拆解分類法進行更細的分析。

簡單的說,「規範漢字組字」即CLF(05,A)及CLF(23,A)的位置,只有指定的「字群」可以做為「組字部件」,而不是像「自由部件組 字」是使用完全自由的「字群」。


字群


當我們將所有構形位置所形成的「字群」整理過以後,我們發現有許多的「字群集合共通性」,這些共通性使得「規範漢字組字」的標準化成為有可能。

在「字群分析」方面,主體有「雙部件分析」、「三部件分析」及「多部件分析」。在特定構形與位置下,只有某些特定的「字群」可以互相組合。其中, 「單部件字群」及「雙部件字群」分別為獨立的群編碼系統,「三部件分析」及「多部件分析」為另一種群編碼系統。