漢字構字式五十型
在早期的中文語言方程裡面,為方便理解,採用了「漢字構字式二十型」的解說方式,完整的實作是「漢字構字式五十型」,五十型當中有兩個構形被縮減,供應設計的實際使用,因此實際的實作是四十八型,而全部的合字構形為五十型,含「獨字」及「特殊字」則為五十二型,此外尚有一批被縮編的「隱性構形」,本篇說明完整的「構字式五十型結構法」。
「漢字構形法」當中,有七大構字主系統,係為「獨」、「橫」、「直」、「圍」、「疊」、「披」及「箝」。
助記七字訣:「獨、橫、直、圍、疊、披、箝」。
「獨」即為「獨字」,也就是構字基本字,「獨字」的分析需要使用「筆画」進行更深一步的分析,主要的方法是「筆画樹」結構分析。處理技術為「筆画」與「分支樹」,由於構形將漢字降低處理維度,因此,獨字可以採用很細膩的「筆画處理技術」(Strokes-Based Text Processing)。
「橫」即為「橫排字」,「構字式五十型」當中有七種構形屬於「橫排系」,其中有一型在實作中被併入另一型一起處理。
「直」即為「直排字」,「構字式五十型」當中有八種構形屬於「直排系」,其中有一型在實作中被併入另一型一起處理。
「圍」即為「圈形字」,「構字式五十型」當中有一種構形屬於「圍字系」。
「疊」即為「三角」、「四角」及「五疊字」,「構字式五十型」當中有六種構形屬於「疊字系」。
「披」即為「字上披字」或「字坐於字」,「構字式五十型」當中有四種構形屬於「披字系」。
「箝」即為「字中箝字」,「構字式五十型」當中有二十四種構形屬於「箝字系」。
中文語言方程處理漢字的方法,採用「集合論」,將「字集」歸類為「集合」,「構形」為「運算子」,如此使得漢字形成一種「泛函形式」,成功地將漢字數學化處理。
中文語言方程將「構形」指定為函式,以Cn代表,其中n為構形編號,C則為Conformation。
而漢字通常使用Cn(A,B,C,D,E)來表示,泛函表達式為(Cn,A,B,C,D,E),中文語言方程裡面通常使用CLF(n,A,B,C,D,E,F,G,H)或CLF(n)做表達式,其中A,B,C,D,E為「組字部件集合」,也就是「字集」。
例如,「獨字」,也就是基本字,一般使用C1(A)或(1,A)來代表,「朋」字則以C4(月)或(4,月)來代表,而「明」字則以C3(日,月)或(3,日,月)來代表。
由於五十型漢字構形當中,有些組合會產生「構形等價」的問題,編碼技巧若是不正確,會產生「一字多碼」的問題,中文語言方程採用「集合組合列舉法」,將可能的變化列舉以後,消除了構字式當中比較嚴重的「重碼」問題,因此中文語言方程的編碼是可以沒有「重碼」問題的,漢字編碼確實可以透過數學化,把「一字多碼」的問題消除掉。
中文語言方程主體理論是專攻「漢字數學化」,並不只是單純只有針對字形,亦有「組字部件」到「賦意域空間」(Semantic field)的模糊映射關係,在文意理解系統當中亦有相當程度的實體功能,構形的部份,亦有漢字字形辨識的功能,與中央研究院研究領域有所區分,傾向於「擬人智能」領域。
詞彙的用法:
部件的拆分:
C00 | Unicode | 1 | 無 | CLF(0,A) | 等同於Unicode的UTF-16定義。 | ||||
C01 | Conformation | 1 | 獨 | CLF(1,A) | 537 (暫時,尚需最後一次整理。) |
一、丨、亅、丁、㐅、㔾、井…。 | 正式規定為「不可拆分獨字」,可拆分的「獨字」需要歸類到C02,僅有少數特例可拆分的獨字才使用這個分類。 | ||
C02 | Complex | 1 | 獨 | CLF(2,A) | 9 (暫時,尚需最後一次整理。) |
彡、忄、彳、心、彔…。 | 用於簡化構形處理,某些構形及字十分罕見及少用,但作為組字部件,卻經常出現,但這種字卻又無法被歸類於「獨字」,而出現時卻是以單一整體出現,需要將之視為可拆分的「獨字」,以單一字處理,此時可以運用這個構形來做特別的處理技巧。 | ||
C03 | H11 | 2 | 橫 | CLF(3,A,B) | 3136 (最後一次整理的數量。) |
㚈、㦤、㪂、馛…。 | 橫排左右大小對稱,使用兩個部件,基本上是左右不相同的部件。 | ||
C04 | H11E | 1 | 橫 | CLF(4,A) | 83 (最後一次整理的數量。) |
吅、奻、囍、龖…。 | 橫排左右大小對稱,使用一個字素,左右部件相同。 | ||
C05 | H12 | 2 | 橫 | CLF(5,A,B) | 15132 | 什、䃀、禐、猐…。 | 橫排左一右二比例,使用兩個部件。 | ||
C06 | H21 | 2 | 橫 | CLF(6,A,B) | 693 | 㓚、効、㣏、㱄…。 | 橫排左二右一比例,使用兩個部件。 | ||
C07 | H3 | 3 | 橫 | CLF(7,A,B,C) | 52 | 樹、衍、卿、承…。 | 橫排左中右,使用三個部件,原則上A與C部件不相同。 | ||
C08 | H3C | 2 | 橫 | CLF(8,A,B) | 42 | 巛、嬲、讎、粥…。 | 橫排左中右,使用兩個部件,與CLF(7,A,B,C)相比,原則上A與C部件相同,因此只使用兩個部件。 | ||
C09 | V11 | 2 | 直 | CLF(9,A,B) | 2403 | 䂬、殳、朵、雪…。 | 直排上下大小對稱,使用兩個部件,基本上是上下不相同的部件。 | ||
C10 | V11E | 1 | 直 | CLF(10,A) | 16 | 吕、炎、岀、亖…。 | 直排上下大小對稱,使用一個字素,上下部件相同。 | ||
C11 | V12 | 2 | 直 | CLF(11,A,B) | 2330 | 䒒、䈌、巃、犖…。 | 直排上一下二比例,使用兩個部件。 | ||
C12 | V21 | 2 | 直 | CLF(12,A,B) | 172 | 勲、孟、鱼、轡…。 | 直排上二下一比例,使用兩個部件。 | ||
C13 | V3 | 3 | 直 | CLF(13,A,B,C) | 1(暫時,尚需最後一次整理。) | 㝷。 | 直排上中下,使用三個部件,原則上A與C部件不相同。 | ||
C14 | V3C | 2 | 直 | CLF(14,A,B,C) | 6(暫時,尚需最後一次整理。) | 噐、嚚、嚣、尜、三、囂。 | 直排上中下,使用兩個部件,與CLF(13,A,B,C)相比,原則上A與C部件相同,因此只使用兩個部件。 | ||
C15 | Hat | 2 | 直 | CLF(15,A,B) | 662 | 企、㝑、空、冗…。 | 直排帶帽子的構字,使用兩個部件。 | ||
C16 | Siege | 2 | 圍 | CLF(16,A,B) | 85 | 回、圍、國、国、囻…。 | 外面的字包圍裡面的字,使用兩個部件。 | ||
C17 | Triplet | 3 | 疊 | CLF(17,A,B,C) | UTF-8定義漢字中無此類型。 | 品字結構,使用三個部件。 | |||
C18 | TriSymmetry | 1 | 疊 | CLF(18,A) | 54 | 品、众、姦、贔…。 | 品字結構,(A,B,C)三者皆相同,使用一個部件。 | ||
C19 | Quadlet | 4 | 疊 | CLF(19,A,B,C,D) | UTF-8定義漢字中無此類型。 | 四角結構,使用四個部件。 | |||
C20 | QuadSymmetry | 1 | 疊 | CLF(20,A) | 10 | 㠭、㗊、㵘、朤、燚、㸚、䨻、叕、䲜、茻。 | 四角結構,(A,B,C,D)四者皆相同,使用一個部件。 | ||
C21 | Five | 5 | 疊 | CLF(21,A,B,C,D,E) | UTF-8定義漢字中無此類型。 | 五疊結構,使用五個部件。 | |||
C22 | FiveSymmetry | 2 | 疊 | CLF(22,A,B) | 2 | 器、噩。 | 五疊結構,CLF(21)當中的(A,B,C,D)四者皆相同,使用兩個部件為原有的CLF(21)當中的(A,E)。 | ||
C23 | Chair | 2 | 披 | CLF(23,A,B) | 731 | 廵、䫹、䢎、䞨…。 | 字坐於L形字的椅子字之上,使用兩個部件,椅子為A。 | ||
C24 | Sofa | 2 | 披 | CLF(24,A,B) | 2 | 斗、头。 | 字坐於鏡射的L形字的沙發字之上,使用兩個部件,沙發為A。 | ||
C25 | Body | 2 | 披 | CLF(25,A,B) | 860 | 㽱、㕂、庁、尻…。 | 字左披於字,使用兩個部件,左衣服為A,使用兩個部件。 | ||
C26 | Sheet | 2 | 披 | CLF(26,A,B) | 136 | 刁、氕、弌、寸…。 | 字右披於字,使用兩個部件,右衣服為A,使用兩個部件。 | ||
C27 | Door | 2 | 箝 | CLF(27,A,B) | 263 | 冈、向、鬨、夙…。 | 字箝於字,開口向下,蓋子為A,使用兩個部件。 | ||
C28 | Concave | 2 | 箝 | CLF(28,A,B) | 9 | 㓙、凷、凶、凼、函、凾、鼎、鼑、兇…。 | 字箝於字,開口向上,盆子為A,使用兩個部件。 | ||
C29 | Giant | 2 | 箝 | CLF(29,A,B) | 48 | 㔰、區、区、匼…。 | 字箝於字,開口向右,嘴巴為A,使用兩個部件。 | ||
C30 | Teeth | 2 | 箝 | CLF(30,A,B) | UTF-8定義漢字中無此類型。 | 字箝於字,開口向左,嘴巴為A,使用兩個部件。 | |||
C31 | Mountain | 3 | 箝 | CLF(31,A,B,C) | UTF-8定義漢字中無此類型。 | 字箝於字,開口向上,山為A,使用三個部件。 | |||
C32 | MountainSymmetry | 2 | 箝 | CLF(32,A,B) | 3 | 㟗、豳、幽。 | 字箝於字,開口向上,山為A,B與C相同,因此使用兩個部件。 | ||
C33 | Rain | 3 | 箝 | CLF(33,A,B,C) | 2 | 雨、㡀。 | 字箝於字,開口向下,雨為A,使用三個部件。 | ||
C34 | RainSymmetry | 2 | 箝 | CLF(34,A,B) | 4 | 㒳、爾、兩、㒼。 | 字箝於字,開口向下,雨為A,B與C相同,因此使用兩個部件。 | ||
C35 | EUD | 3 | 箝 | CLF(35,A,B,C) | UTF-8定義漢字中無此類型。 | 字箝於字,E形開口向右,E形為A,使用三個部件。 | |||
C36 | EudSymmetry | 2 | 箝 | CLF(36,A,B) | 1 | 㡭。 | 字箝於字,E形開口向右,E形為A,B與C相同,因此使用兩個部件。 | ||
C37 | REUD | 3 | 箝 | CLF(37,A,B,C) | UTF-8定義漢字中無此類型。 | 字箝於字,E形開口向左,E形為A,使用三個部件。 | |||
C38 | ReudSymmetry | 2 | 箝 | CLF(38,A,B) | 1 | 哥。 | 字箝於字,E形開口向左,E形為A,B與C相同,因此使用兩個部件。 | ||
C39 | TShape | 3 | 箝 | CLF(39,A,B,C) | 3 | 乖、畞、䏋。 | 字箝於字,T形尖向下,T形為A,使用三個部件。 | ||
C40 | TShapeSymmetry | 2 | 箝 | CLF(40,A,B) | 1 | 譱。 | 字箝於字,T形尖向下,T形為A,B與C相同,因此使用兩個部件。 | ||
C41 | Thumbtack | 3 | 箝 | CLF(41,A,B,C) | 1 | 㘴。 | 字箝於字,T形尖向上,T形為A,使用三個部件。 | ||
C42 | ThumtackSymmetry | 2 | 箝 | CLF(42,A,B) | 3 | 坐、㡬、幾。 | 字箝於字,T形尖向上,T形為A,B與C相同,因此使用兩個部件。 | ||
C43 | RightT | 3 | 箝 | CLF(43,A,B,C) | UTF-8定義漢字中無此類型。 | 字箝於字,T形尖向右,T形為A,使用三個部件。 | |||
C44 | RightTSymmetry | 2 | 箝 | CLF(44,A,B) | UTF-8定義漢字中無此類型。 | 字箝於字,T形尖向右,T形為A,B與C相同,因此使用兩個部件。 | |||
C45 | LeftT | 3 | 箝 | CLF(45,A,B,C) | UTF-8定義漢字中無此類型。 | 字箝於字,T形尖向左,T形為A,使用三個部件。 | |||
C46 | LeftTSymmetry | 2 | 箝 | CLF(46,A,B) | UTF-8定義漢字中無此類型。 | 字箝於字,T形尖向左,T形為A,B與C相同,因此使用兩個部件。 | |||
C47 | Worker | 3 | 箝 | CLF(47,A,B,C) | 2 | 乘、埀。 | 字箝於字,工型為A,使用三個部件。 | ||
C48 | WorkerSymmetry | 2 | 箝 | CLF(48,A,B) | 9 | 㻎、巫、爽、奭、來、㚒、䘮、喪、垂。 | 字箝於字,工型為A,B與C相同,因此使用兩個部件。 | ||
C49 | HShape | 3 | 箝 | CLF(49,A,B,C) | UTF-8定義漢字中無此類型。 | 字箝於字,H型為A,使用三個部件。 | |||
C50 | HShapeSymmetry | 2 | 箝 | CLF(50,A,B) | UTF-8定義漢字中無此類型。 | 字箝於字,H型為A,B與C相同,因此使用兩個部件。 | |||
C51 | H3S | 1 | 橫 | CLF(51,A) | 5 | 川、州、巛、雦、㴇。 | 等同於CLF(7,A,A,A)構形,縮編構形。 | ||
C52 | V3S | 1 | 直 | CLF(52,A) | 1 | 三。 | 等同於CLF(13,A,A,A)構形,縮編構形。 | ||
C53 | H11R | 1 | 橫 | CLF(53,A) | 未統計。 | 北、戼。 | 橫排左右相反結構,使用一個部件。實作上使用CLF(3,A,B)替換,A與B部件呈現左右反轉。 隱性構形,僅使用於理論分析用途。 |
||
C54 | V11R | 1 | 直 | CLF(54,A) | 未統計。 | 留給諸君在CLF(9)類型中自行尋找。 | 直排上下相反結構,使用一個部件。實作上使用CLF(9,A,B)替換,A與B部件呈現上下反轉。 隱性構形,僅使用於理論分析用途。 |
||
C55 | FiveIdentical | 1 | 圍 | CLF(55,A) | UTF-8定義漢字中無此類型。 | 五個位置均為相同的部件。實作上使用CLF(22,A,B)替換,A與B部件相同。 隱性構形,僅使用於理論分析用途。 |
|||
C56 | H11RR | 1 | 橫 | CLF(56,A) | 未統計。 | 橫排左右相反結構,使用一個部件。實作上使用CLF(3,B,A)替換,A與B部件呈現左右反轉,此類型與CLF(53)恰好相反。 隱性構形,僅使用於理論分析用途。 |
|||
C57 | V11RR | 1 | 直 | CLF(57,A) | 未統計。 | 隱性構形,僅使用於理論分析用途。 | |||
C58 | H11V | 1 | 橫 | CLF(58,A) | 未統計。 | 隱性構形,僅使用於理論分析用途。 | |||
C59 | H11VR | 1 | 橫 | CLF(59,A) | 未統計。 | 隱性構形,僅使用於理論分析用途。 | |||
C60 | MountainR | 2 | 箝 | CLF(60,A,B) | 未統計。 | 隱性構形,僅使用於理論分析用途。 | |||
C61 | RainR | 2 | 箝 | CLF(61,A,B) | 未統計。 | 隱性構形,僅使用於理論分析用途。 | |||
C62 | EUDF | 2 | 箝 | CLF(62,A,B) | 未統計。 | 隱性構形,僅使用於理論分析用途。 | |||
C63 | REUDF | 2 | 箝 | CLF(63,A,B) | 未統計。 | 隱性構形,僅使用於理論分析用途。 | |||
C64 | TShapeF | 2 | 箝 | CLF(64,A,B) | 未統計。 | 隱性構形,僅使用於理論分析用途。 | |||
C65 | ThumbtackF | 2 | 箝 | CLF(65,A,B) | 未統計。 | 隱性構形,僅使用於理論分析用途。 | |||
C66 | RightTR | 2 | 箝 | CLF(66,A,B) | 未統計。 | 隱性構形,僅使用於理論分析用途。 | |||
C67 | LeftTR | 2 | 箝 | CLF(67,A,B) | 未統計。 | 隱性構形,僅使用於理論分析用途。 | |||
C68 | WorkerF | 2 | 箝 | CLF(68,A,B) | 未統計。 | 隱性構形,僅使用於理論分析用途。 | |||
C69 | HShapeR | 2 | 箝 | CLF(69,A,B) | 未統計。 | 隱性構形,僅使用於理論分析用途。 | |||
C70 | H3F | 2 | 橫 | CLF(70,A,B) | 未統計。 | 隱性構形,僅使用於理論分析用途。 | |||
C71 | H3FR | 2 | 橫 | CLF(71,A,B) | 未統計。 | 隱性構形,僅使用於理論分析用途。 | |||
C72 | V3R | 2 | 直 | CLF(72,A,B) | 未統計。 | 隱性構形,僅使用於理論分析用途。 | |||
C73 | V3RR | 2 | 直 | CLF(73,A,B) | 未統計。 | 隱性構形,僅使用於理論分析用途。 | |||
C74 | QuadletHF | 2 | 疊 | CLF(74,A,B) | 未統計。 | 隱性構形,僅使用於理論分析用途。 | |||
C75 | QuadletVR | 2 | 疊 | CLF(75,A,B) | 未統計。 | 隱性構形,僅使用於理論分析用途。 | |||
C76 | FiveHF | 3 | 疊 | CLF(76,A,B,C) | 未統計。 | 隱性構形,僅使用於理論分析用途。 | |||
C77 | FiveVR | 3 | 疊 | CLF(77,A,B,C) | 未統計。 | 隱性構形,僅使用於理論分析用途。 |
(*1) Unicode Plane 0 (0×0000 – 0xFFFF)區域內。目前的Unicode Plane為0-16,範圍0×00000000 – 0x0010FFFF。本文數據僅分析Unicode Plane 0,完整的中文語言方程為分析107931個漢字,專有系統才能處理顯示、辨識及語意推測。分析新增漢字已經不具備實際意義,分析工作已經完成而終止。
獨 |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
橫 |
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
直 |
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
圍 |
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
疊 |
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
披 |
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
箝 |
|