漢字構字式五十型


作者:Владимир Лесной

在早期的中文語言方程裡面,為方便理解,採用了「漢字構字式二十型」的解說方式,完整的實作是「漢字構字式五十型」,五十型當中有兩個構形被縮減,供應設計的實際使用,因此實際的實作是四十八型,而全部的合字構形為五十型,含「獨字」及「特殊字」則為五十二型,此外尚有一批被縮編的「隱性構形」,本篇說明完整的「構字式五十型結構法」。

「漢字構形法」當中,有七大構字主系統,係為「獨」、「橫」、「直」、「圍」、「疊」、「披」及「箝」。

助記七字訣:「獨、橫、直、圍、疊、披、箝」。

「獨」即為「獨字」,也就是構字基本字,「獨字」的分析需要使用「筆画」進行更深一步的分析,主要的方法是「筆画樹」結構分析。處理技術為「筆画」與「分支樹」,由於構形將漢字降低處理維度,因此,獨字可以採用很細膩的「筆画處理技術」(Strokes-Based Text Processing)。

「橫」即為「橫排字」,「構字式五十型」當中有七種構形屬於「橫排系」,其中有一型在實作中被併入另一型一起處理。

「直」即為「直排字」,「構字式五十型」當中有八種構形屬於「直排系」,其中有一型在實作中被併入另一型一起處理。

「圍」即為「圈形字」,「構字式五十型」當中有一種構形屬於「圍字系」。

「疊」即為「三角」、「四角」及「五疊字」,「構字式五十型」當中有六種構形屬於「疊字系」。

「披」即為「字上披字」或「字坐於字」,「構字式五十型」當中有四種構形屬於「披字系」。

「箝」即為「字中箝字」,「構字式五十型」當中有二十四種構形屬於「箝字系」。

中文語言方程處理漢字的方法,採用「集合論」,將「字集」歸類為「集合」,「構形」為「運算子」,如此使得漢字形成一種「泛函形式」,成功地將漢字數學化處理。

中文語言方程將「構形」指定為函式,以Cn代表,其中n為構形編號,C則為Conformation。

而漢字通常使用Cn(A,B,C,D,E)來表示,泛函表達式為(Cn,A,B,C,D,E),中文語言方程裡面通常使用CLF(n,A,B,C,D,E,F,G,H)或CLF(n)做表達式,其中A,B,C,D,E為「組字部件集合」,也就是「字集」。

例如,「獨字」,也就是基本字,一般使用C1(A)或(1,A)來代表,「朋」字則以C4(月)或(4,月)來代表,而「明」字則以C3(日,月)或(3,日,月)來代表。

由於五十型漢字構形當中,有些組合會產生「構形等價」的問題,編碼技巧若是不正確,會產生「一字多碼」的問題,中文語言方程採用「集合組合列舉法」,將可能的變化列舉以後,消除了構字式當中比較嚴重的「重碼」問題,因此中文語言方程的編碼是可以沒有「重碼」問題的,漢字編碼確實可以透過數學化,把「一字多碼」的問題消除掉。

中文語言方程主體理論是專攻「漢字數學化」,並不只是單純只有針對字形,亦有「組字部件」到「賦意域空間」(Semantic field)的模糊映射關係,在文意理解系統當中亦有相當程度的實體功能,構形的部份,亦有漢字字形辨識的功能,與中央研究院研究領域有所區分,傾向於「擬人智能」領域。

詞彙的用法:

  • 目前作者將原有的「構件」這個詞彙,修改為英文的Grapheme,這是一個比較精準的語言學詞彙。中文的翻譯,在整個文件當中,一律改採「字素」。
  • 「部件」包含了「字素」與「構字」(組合出來的字,CLF(3) ~ CLF(50)),組字時期實際使用「部件」,「字素」只有在CLF(1)與CLF(2)當中才有。
  • 作者因為懶得去想每個構形的中文名稱,請使用者及研究者自行開會研究中文命名。

  • 部件的拆分:

  • 部件的拆分一般具有比較強的人為性,某些拆分方式則涉及漢字語源學,作者的拆分方式為「直覺式拆分」,因為個人精力有限,直接取形直拆,因此不見得吻合語源學的根據。
  • 由於結構式分類相當細膩,所有的漢字都有辦法透過構形法進行分解,若是某些特定的字有特殊字源,需要修改拆分方式,可自行於編輯器上修改。

  • 構形記號
    字素序列
    編號
    記號
    部件
    構字系
    函式記號
    數量(*1)
    範例
    說明
    C00 Unicode 1 CLF(0,A) 等同於Unicode的UTF-16定義。
    clf-01 clf-01 C01 Conformation 1 CLF(1,A) 537
    (暫時,尚需最後一次整理。)
    一、丨、亅、丁、㐅、㔾、井…。 正式規定為「不可拆分獨字」,可拆分的「獨字」需要歸類到C02,僅有少數特例可拆分的獨字才使用這個分類。
    clf-02 clf-02 C02 Complex 1 CLF(2,A) 9
    (暫時,尚需最後一次整理。)
    彡、忄、彳、心、彔…。 用於簡化構形處理,某些構形及字十分罕見及少用,但作為組字部件,卻經常出現,但這種字卻又無法被歸類於「獨字」,而出現時卻是以單一整體出現,需要將之視為可拆分的「獨字」,以單一字處理,此時可以運用這個構形來做特別的處理技巧。
    clf-03 clf-03 C03 H11 2 CLF(3,A,B) 3136
    (最後一次整理的數量。)
    㚈、㦤、㪂、馛…。 橫排左右大小對稱,使用兩個部件,基本上是左右不相同的部件。
    clf-04 clf-04 C04 H11E 1 CLF(4,A) 83
    (最後一次整理的數量。)
    吅、奻、囍、龖…。 橫排左右大小對稱,使用一個字素,左右部件相同。
    clf-05 clf-05 C05 H12 2 CLF(5,A,B) 15132 什、䃀、禐、猐…。 橫排左一右二比例,使用兩個部件。
    clf-06 clf-06 C06 H21 2 CLF(6,A,B) 693 㓚、効、㣏、㱄…。 橫排左二右一比例,使用兩個部件。
    clf-07 clf-07 C07 H3 3 CLF(7,A,B,C) 52 樹、衍、卿、承…。 橫排左中右,使用三個部件,原則上A與C部件不相同。
    clf-08 clf-08 C08 H3C 2 CLF(8,A,B) 42 巛、嬲、讎、粥…。 橫排左中右,使用兩個部件,與CLF(7,A,B,C)相比,原則上A與C部件相同,因此只使用兩個部件。
    clf-09 clf-09 C09 V11 2 CLF(9,A,B) 2403 䂬、殳、朵、雪…。 直排上下大小對稱,使用兩個部件,基本上是上下不相同的部件。
    clf-10 clf-10 C10 V11E 1 CLF(10,A) 16 吕、炎、岀、亖…。 直排上下大小對稱,使用一個字素,上下部件相同。
    clf-11 clf-11 C11 V12 2 CLF(11,A,B) 2330 䒒、䈌、巃、犖…。 直排上一下二比例,使用兩個部件。
    clf-12 clf-12 C12 V21 2 CLF(12,A,B) 172 勲、孟、鱼、轡…。 直排上二下一比例,使用兩個部件。
    clf-13 clf-13 C13 V3 3 CLF(13,A,B,C) 1(暫時,尚需最後一次整理。) 㝷。 直排上中下,使用三個部件,原則上A與C部件不相同。
    clf-14 clf-14 C14 V3C 2 CLF(14,A,B,C) 6(暫時,尚需最後一次整理。) 噐、嚚、嚣、尜、三、囂。 直排上中下,使用兩個部件,與CLF(13,A,B,C)相比,原則上A與C部件相同,因此只使用兩個部件。
    clf-15 clf-15 C15 Hat 2 CLF(15,A,B) 662 企、㝑、空、冗…。 直排帶帽子的構字,使用兩個部件。
    clf-16 clf-16 C16 Siege 2 CLF(16,A,B) 85 回、圍、國、国、囻…。 外面的字包圍裡面的字,使用兩個部件。
    clf-17 clf-17 C17 Triplet 3 CLF(17,A,B,C) UTF-8定義漢字中無此類型。 品字結構,使用三個部件。
    clf-18 clf-18 C18 TriSymmetry 1 CLF(18,A) 54 品、众、姦、贔…。 品字結構,(A,B,C)三者皆相同,使用一個部件。
    clf-19 clf-19 C19 Quadlet 4 CLF(19,A,B,C,D) UTF-8定義漢字中無此類型。 四角結構,使用四個部件。
    clf-20 clf-20 C20 QuadSymmetry 1 CLF(20,A) 10 㠭、㗊、㵘、朤、燚、㸚、䨻、叕、䲜、茻。 四角結構,(A,B,C,D)四者皆相同,使用一個部件。
    clf-21 clf-21 C21 Five 5 CLF(21,A,B,C,D,E) UTF-8定義漢字中無此類型。 五疊結構,使用五個部件。
    clf-22 clf-22 C22 FiveSymmetry 2 CLF(22,A,B) 2 器、噩。 五疊結構,CLF(21)當中的(A,B,C,D)四者皆相同,使用兩個部件為原有的CLF(21)當中的(A,E)。
    clf-23 clf-23 C23 Chair 2 CLF(23,A,B) 731 廵、䫹、䢎、䞨…。 字坐於L形字的椅子字之上,使用兩個部件,椅子為A。
    clf-24 clf-24 C24 Sofa 2 CLF(24,A,B) 2 斗、头。 字坐於鏡射的L形字的沙發字之上,使用兩個部件,沙發為A。
    clf-25 clf-25 C25 Body 2 CLF(25,A,B) 860 㽱、㕂、庁、尻…。 字左披於字,使用兩個部件,左衣服為A,使用兩個部件。
    clf-26 clf-26 C26 Sheet 2 CLF(26,A,B) 136 刁、氕、弌、寸…。 字右披於字,使用兩個部件,右衣服為A,使用兩個部件。
    clf-27 clf-27 C27 Door 2 CLF(27,A,B) 263 冈、向、鬨、夙…。 字箝於字,開口向下,蓋子為A,使用兩個部件。
    clf-28 clf-28 C28 Concave 2 CLF(28,A,B) 9 㓙、凷、凶、凼、函、凾、鼎、鼑、兇…。 字箝於字,開口向上,盆子為A,使用兩個部件。
    clf-29 clf-29 C29 Giant 2 CLF(29,A,B) 48 㔰、區、区、匼…。 字箝於字,開口向右,嘴巴為A,使用兩個部件。
    clf-30 clf-30 C30 Teeth 2 CLF(30,A,B) UTF-8定義漢字中無此類型。 字箝於字,開口向左,嘴巴為A,使用兩個部件。
    clf-31 clf-31 C31 Mountain 3 CLF(31,A,B,C) UTF-8定義漢字中無此類型。 字箝於字,開口向上,山為A,使用三個部件。
    clf-32 clf-32 C32 MountainSymmetry 2 CLF(32,A,B) 3 㟗、豳、幽。 字箝於字,開口向上,山為A,B與C相同,因此使用兩個部件。
    clf-33 clf-33 C33 Rain 3 CLF(33,A,B,C) 2 雨、㡀。 字箝於字,開口向下,雨為A,使用三個部件。
    clf-34 clf-34 C34 RainSymmetry 2 CLF(34,A,B) 4 㒳、爾、兩、㒼。 字箝於字,開口向下,雨為A,B與C相同,因此使用兩個部件。
    clf-35 clf-35 C35 EUD 3 CLF(35,A,B,C) UTF-8定義漢字中無此類型。 字箝於字,E形開口向右,E形為A,使用三個部件。
    clf-36 clf-36 C36 EudSymmetry 2 CLF(36,A,B) 1 㡭。 字箝於字,E形開口向右,E形為A,B與C相同,因此使用兩個部件。
    clf-37 clf-37 C37 REUD 3 CLF(37,A,B,C) UTF-8定義漢字中無此類型。 字箝於字,E形開口向左,E形為A,使用三個部件。
    clf-38 clf-38 C38 ReudSymmetry 2 CLF(38,A,B) 1 哥。 字箝於字,E形開口向左,E形為A,B與C相同,因此使用兩個部件。
    clf-39 clf-39 C39 TShape 3 CLF(39,A,B,C) 3 乖、畞、䏋。 字箝於字,T形尖向下,T形為A,使用三個部件。
    clf-40 clf-40 C40 TShapeSymmetry 2 CLF(40,A,B) 1 譱。 字箝於字,T形尖向下,T形為A,B與C相同,因此使用兩個部件。
    clf-41 clf-41 C41 Thumbtack 3 CLF(41,A,B,C) 1 㘴。 字箝於字,T形尖向上,T形為A,使用三個部件。
    clf-42 clf-42 C42 ThumtackSymmetry 2 CLF(42,A,B) 3 坐、㡬、幾。 字箝於字,T形尖向上,T形為A,B與C相同,因此使用兩個部件。
    clf-43 clf-43 C43 RightT 3 CLF(43,A,B,C) UTF-8定義漢字中無此類型。 字箝於字,T形尖向右,T形為A,使用三個部件。
    clf-44 clf-44 C44 RightTSymmetry 2 CLF(44,A,B) UTF-8定義漢字中無此類型。 字箝於字,T形尖向右,T形為A,B與C相同,因此使用兩個部件。
    clf-45 clf-45 C45 LeftT 3 CLF(45,A,B,C) UTF-8定義漢字中無此類型。 字箝於字,T形尖向左,T形為A,使用三個部件。
    clf-46 clf-46 C46 LeftTSymmetry 2 CLF(46,A,B) UTF-8定義漢字中無此類型。 字箝於字,T形尖向左,T形為A,B與C相同,因此使用兩個部件。
    clf-47 clf-47 C47 Worker 3 CLF(47,A,B,C) 2 乘、埀。 字箝於字,工型為A,使用三個部件。
    clf-48 clf-48 C48 WorkerSymmetry 2 CLF(48,A,B) 9 㻎、巫、爽、奭、來、㚒、䘮、喪、垂。 字箝於字,工型為A,B與C相同,因此使用兩個部件。
    clf-49 clf-49 C49 HShape 3 CLF(49,A,B,C) UTF-8定義漢字中無此類型。 字箝於字,H型為A,使用三個部件。
    clf-50 clf-50 C50 HShapeSymmetry 2 CLF(50,A,B) UTF-8定義漢字中無此類型。 字箝於字,H型為A,B與C相同,因此使用兩個部件。
    clf-51 clf-51 C51 H3S 1 CLF(51,A) 5 川、州、巛、雦、㴇。 等同於CLF(7,A,A,A)構形,縮編構形。
    clf-52 clf-52 C52 V3S 1 CLF(52,A) 1 三。 等同於CLF(13,A,A,A)構形,縮編構形。
    clf-53 clf-53 C53 H11R 1 CLF(53,A) 未統計。 北、戼。 橫排左右相反結構,使用一個部件。實作上使用CLF(3,A,B)替換,A與B部件呈現左右反轉。
    隱性構形,僅使用於理論分析用途。
    clf-54 clf-54 C54 V11R 1 CLF(54,A) 未統計。 留給諸君在CLF(9)類型中自行尋找。 直排上下相反結構,使用一個部件。實作上使用CLF(9,A,B)替換,A與B部件呈現上下反轉。
    隱性構形,僅使用於理論分析用途。
    clf-55 clf-55 C55 FiveIdentical 1 CLF(55,A) UTF-8定義漢字中無此類型。 五個位置均為相同的部件。實作上使用CLF(22,A,B)替換,A與B部件相同。
    隱性構形,僅使用於理論分析用途。
    clf-56 clf-56 C56 H11RR 1 CLF(56,A) 未統計。 橫排左右相反結構,使用一個部件。實作上使用CLF(3,B,A)替換,A與B部件呈現左右反轉,此類型與CLF(53)恰好相反。
    隱性構形,僅使用於理論分析用途。
    clf-57 clf-57 C57 V11RR 1 CLF(57,A) 未統計。 隱性構形,僅使用於理論分析用途。
    clf-58 clf-58 C58 H11V 1 CLF(58,A) 未統計。 隱性構形,僅使用於理論分析用途。
    clf-59 clf-59 C59 H11VR 1 CLF(59,A) 未統計。 隱性構形,僅使用於理論分析用途。
    clf-60 clf-60 C60 MountainR 2 CLF(60,A,B) 未統計。 隱性構形,僅使用於理論分析用途。
    clf-61 clf-61 C61 RainR 2 CLF(61,A,B) 未統計。 隱性構形,僅使用於理論分析用途。
    clf-62 clf-62 C62 EUDF 2 CLF(62,A,B) 未統計。 隱性構形,僅使用於理論分析用途。
    clf-63 clf-63 C63 REUDF 2 CLF(63,A,B) 未統計。 隱性構形,僅使用於理論分析用途。
    clf-64 clf-64 C64 TShapeF 2 CLF(64,A,B) 未統計。 隱性構形,僅使用於理論分析用途。
    clf-65 clf-65 C65 ThumbtackF 2 CLF(65,A,B) 未統計。 隱性構形,僅使用於理論分析用途。
    clf-66 clf-66 C66 RightTR 2 CLF(66,A,B) 未統計。 隱性構形,僅使用於理論分析用途。
    clf-67 clf-67 C67 LeftTR 2 CLF(67,A,B) 未統計。 隱性構形,僅使用於理論分析用途。
    clf-68 clf-68 C68 WorkerF 2 CLF(68,A,B) 未統計。 隱性構形,僅使用於理論分析用途。
    clf-69 clf-69 C69 HShapeR 2 CLF(69,A,B) 未統計。 隱性構形,僅使用於理論分析用途。
    clf-70 clf-70 C70 H3F 2 CLF(70,A,B) 未統計。 隱性構形,僅使用於理論分析用途。
    clf-71 clf-71 C71 H3FR 2 CLF(71,A,B) 未統計。 隱性構形,僅使用於理論分析用途。
    clf-72 clf-72 C72 V3R 2 CLF(72,A,B) 未統計。 隱性構形,僅使用於理論分析用途。
    clf-73 clf-73 C73 V3RR 2 CLF(73,A,B) 未統計。 隱性構形,僅使用於理論分析用途。
    clf-74 clf-74 C74 QuadletHF 2 CLF(74,A,B) 未統計。 隱性構形,僅使用於理論分析用途。
    clf-75 clf-75 C75 QuadletVR 2 CLF(75,A,B) 未統計。 隱性構形,僅使用於理論分析用途。
    clf-76 clf-76 C76 FiveHF 3 CLF(76,A,B,C) 未統計。 隱性構形,僅使用於理論分析用途。
    clf-77 clf-77 C77 FiveVR 3 CLF(77,A,B,C) 未統計。 隱性構形,僅使用於理論分析用途。

    (*1) Unicode Plane 0 (0×0000 – 0xFFFF)區域內。目前的Unicode Plane為0-16,範圍0×00000000 – 0x0010FFFF。本文數據僅分析Unicode Plane 0,完整的中文語言方程為分析107931個漢字,專有系統才能處理顯示、辨識及語意推測。分析新增漢字已經不具備實際意義,分析工作已經完成而終止。


    構形clf-01clf-02
    編號12
    HEX0102
    構形clf-03clf-05clf-06clf-07
    編號3567
    HEX03050607
    構形clf-04clf-08
    編號48
    HEX0408
    構形clf-09clf-11clf-12clf-13clf-15
    編號911121315
    HEX9BCDF
    構形clf-10clf-14
    編號1014
    HEXAE
    構形clf-16
    編號16
    HEX10
    構形clf-17clf-19clf-21
    編號171921
    HEX111315
    構形clf-18clf-20clf-22
    編號182022
    HEX121416
    構形clf-23clf-24clf-25clf-26
    編號23242526
    HEX1718191A
    構形clf-27clf-28clf-29clf-30clf-31clf-33clf-35clf-37clf-39clf-41clf-43clf-45clf-47clf-49
    編號2728293031333537394143454749
    HEX1B1C1D1E1F21232527292B2D2F31
    構形clf-32clf-34clf-36clf-38clf-40clf-42clf-44clf-46clf-48clf-50
    編號32343638404244464850
    HEX20222526282A2C2E3032