汉字构字式五十型
在早期的中文语言方程裡面,为方便理解,採用了「汉字构字式二十型」的解说方式,完整的实作是「汉字构字式五十型」,五十型当中有两个构形被缩减,供应设计的实际使用,因此实际的实作是四十八型,而全部的合字构形为五十型,含「独字」及「特殊字」则为五十二型,此外尚有一批被缩编的「隐性构形」,本篇说明完整的「构字式五十型结构法」。
「汉字构形法」当中,有七大构字主系统,係为「独」、「直」、「横」、「叠」、「围」、「披」及「箝」。
助记七字诀:「独、直、横、叠、围、披、箝」。
「独」即为「独字」,也就是构字基本字,「独字」的分析需要使用「笔画」进行更深一步的分析,主要的方法是「笔画树」结构分析。处理技术为「笔画」与「分支树」,由于构形将汉字降低处理维度,因此,独字可以採用很细腻的「笔画处理技术」(Strokes-Based Text Processing)。
「直」即为「直排字」,「构字式五十型」当中有八种构形属于「直排系」,其中有一型在实作中被併入另一型一起处理。
「横」即为「横排字」,「构字式五十型」当中有七种构形属于「横排系」,其中有一型在实作中被併入另一型一起处理。
「叠」即为「三角」、「四角」及「五叠字」,「构字式五十型」当中有六种构形属于「叠字系」。
「围」即为「圈形字」,「构字式五十型」当中有一种构形属于「围字系」。
「披」即为「字上披字」或「字坐于字」,「构字式五十型」当中有四种构形属于「披字系」。
「箝」即为「字中箝字」,「构字式五十型」当中有二十四种构形属于「箝字系」。
中文语言方程处理汉字的方法,採用「集合论」,将「字集」归类为「集合」,「构形」为「运算子」,如此使得汉字形成一种「泛函形式」,成功地将汉字数学化处理。
中文语言方程将「构形」指定为函式,以Cn代表,其中n为构形编号,C则为Conformation。
而汉字通常使用Cn(A,B,C,D,E)来表示,泛函表达式为(Cn,A,B,C,D,E),中文语言方程裡面通常使用CLF(n,A,B,C,D,E,F,G,H)或CLF(n)做表达式,其中A,B,C,D,E为「组字部件集合」,也就是「字集」。
例如,「独字」,也就是基本字,一般使用C1(A)或(1,A)来代表,「朋」字则以C4(月)或(4,月)来代表,而「明」字则以C3(日,月)或(3,日,月)来代表。
由于五十型汉字构形当中,有些组合会产生「构形等价」的问题,编码技巧若是不正确,会产生「一字多码」的问题,中文语言方程採用「集合组合列举法」,将可能的变化列举以后,消除了构字式当中比较严重的「重码」问题,因此中文语言方程的编码是可以没有「重码」问题的,汉字编码确实可以透过数学化,把「一字多码」的问题消除掉。
中文语言方程主体理论是专攻「汉字数学化」,并不只是单纯只有针对字形,亦有「组字部件」到「赋意域空间」(Semantic field)的模煳映射关係,在文意理解系统当中亦有相当程度的实体功能,构形的部份,亦有汉字字形辨识的功能,与中央研究院研究领域有所区分,倾向于「拟人智能」领域。
词彙的用法:
部件的拆分:
C00 | Unicode | 1 | 无 | CLF(0,A) | 等同于Unicode的UTF-16定义。 | |||
C01 | Conformation | 1 | 独 | CLF(1,A) | 537 (暂时,尚需最后一次整理。) |
一、丨、亅、丁、㐅、㔾、井…。 | 正式规定为「不可拆分独字」,可拆分的「独字」需要归类到C02,仅有少数特例可拆分的独字才使用这个分类。 | |
C02 | Complex | 1 | 独 | CLF(2,A) | 9 (暂时,尚需最后一次整理。) |
彡、忄、彳、心、彔…。 | 用于简化构形处理,某些构形及字十分罕见及少用,但作为组字部件,却经常出现,但这种字却又无法被归类于「独字」,而出现时却是以单一整体出现,需要将之视为可拆分的「独字」,以单一字处理,此时可以运用这个构形来做特别的处理技巧。 | |
C03 | H11 | 2 | 横 | CLF(3,A,B) | 3136 (最后一次整理的数量。) |
㚈、㦤、㪂、馛…。 | 横排左右大小对称,使用两个部件,基本上是左右不相同的部件。 | |
C04 | H11E | 1 | 横 | CLF(4,A) | 83 (最后一次整理的数量。) |
吅、奻、囍、龖…。 | 横排左右大小对称,使用一个字素,左右部件相同。 | |
C05 | H12 | 2 | 横 | CLF(5,A,B) | 15132 | 什、䃀、禐、猐…。 | 横排左一右二比例,使用两个部件。 | |
C06 | H21 | 2 | 横 | CLF(6,A,B) | 693 | 㓚、効、㣏、㱄…。 | 横排左二右一比例,使用两个部件。 | |
C07 | H3 | 3 | 横 | CLF(7,A,B,C) | 52 | 树、衍、卿、承…。 | 横排左中右,使用三个部件,原则上A与C部件不相同。 | |
C08 | H3C | 2 | 横 | CLF(8,A,B) | 42 | 巛、嬲、雠、粥…。 | 横排左中右,使用两个部件,与CLF(7,A,B,C)相比,原则上A与C部件相同,因此只使用两个部件。 | |
C09 | V11 | 2 | 直 | CLF(9,A,B) | 2403 | 䂬、殳、朵、雪…。 | 直排上下大小对称,使用两个部件,基本上是上下不相同的部件。 | |
C10 | V11E | 1 | 直 | CLF(10,A) | 16 | 吕、炎、岀、亖…。 | 直排上下大小对称,使用一个字素,上下部件相同。 | |
C11 | V12 | 2 | 直 | CLF(11,A,B) | 2330 | 䒒、䈌、巃、荦…。 | 直排上一下二比例,使用两个部件。 | |
C12 | V21 | 2 | 直 | CLF(12,A,B) | 172 | 勲、孟、鱼、辔…。 | 直排上二下一比例,使用两个部件。 | |
C13 | V3 | 3 | 直 | CLF(13,A,B,C) | 1(暂时,尚需最后一次整理。) | 㝷。 | 直排上中下,使用三个部件,原则上A与C部件不相同。 | |
C14 | V3C | 2 | 直 | CLF(14,A,B,C) | 6(暂时,尚需最后一次整理。) | 噐、嚚、嚣、尜、三、嚣。 | 直排上中下,使用两个部件,与CLF(13,A,B,C)相比,原则上A与C部件相同,因此只使用两个部件。 | |
C15 | Hat | 2 | 直 | CLF(15,A,B) | 662 | 企、㝑、空、冗…。 | 直排带帽子的构字,使用两个部件。 | |
C16 | Siege | 2 | 围 | CLF(16,A,B) | 85 | 回、围、國、国、囻…。 | 外面的字包围裡面的字,使用两个部件。 | |
C17 | Triplet | 3 | 叠 | CLF(17,A,B,C) | UTF-8定义汉字中无此类型。 | 品字结构,使用三个部件。 | ||
C18 | TriSymmetry | 1 | 叠 | CLF(18,A) | 54 | 品、众、姦、贔…。 | 品字结构,(A,B,C)三者皆相同,使用一个部件。 | |
C19 | Quadlet | 4 | 叠 | CLF(19,A,B,C,D) | UTF-8定义汉字中无此类型。 | 四角结构,使用四个部件。 | ||
C20 | QuadSymmetry | 1 | 叠 | CLF(20,A) | 10 | 㠭、㗊、㵘、朤、燚、㸚、䨻、叕、䲜、茻。 | 四角结构,(A,B,C,D)四者皆相同,使用一个部件。 | |
C21 | Five | 5 | 叠 | CLF(21,A,B,C,D,E) | UTF-8定义汉字中无此类型。 | 五叠结构,使用五个部件。 | ||
C22 | FiveSymmetry | 2 | 叠 | CLF(22,A,B) | 2 | 器、噩。 | 五叠结构,CLF(21)当中的(A,B,C,D)四者皆相同,使用两个部件为原有的CLF(21)当中的(A,E)。 | |
C23 | Chair | 2 | 披 | CLF(23,A,B) | 731 | 廵、䫹、䢎、䞨…。 | 字坐于L形字的椅子字之上,使用两个部件,椅子为A。 | |
C24 | Sofa | 2 | 披 | CLF(24,A,B) | 2 | 斗、头。 | 字坐于镜射的L形字的沙发字之上,使用两个部件,沙发为A。 | |
C25 | Body | 2 | 披 | CLF(25,A,B) | 860 | 㽱、㕂、庁、尻…。 | 字左披于字,使用两个部件,左衣服为A,使用两个部件。 | |
C26 | Sheet | 2 | 披 | CLF(26,A,B) | 136 | 刁、氕、弌、寸…。 | 字右披于字,使用两个部件,右衣服为A,使用两个部件。 | |
C27 | Door | 2 | 箝 | CLF(27,A,B) | 263 | 冈、向、鬨、夙…。 | 字箝于字,开口向下,盖子为A,使用两个部件。 | |
C28 | Concave | 2 | 箝 | CLF(28,A,B) | 9 | 㓙、凷、凶、凼、函、凾、鼎、鼑、凶…。 | 字箝于字,开口向上,盆子为A,使用两个部件。 | |
C29 | Giant | 2 | 箝 | CLF(29,A,B) | 48 | 㔰、区、区、匼…。 | 字箝于字,开口向右,嘴巴为A,使用两个部件。 | |
C30 | Teeth | 2 | 箝 | CLF(30,A,B) | UTF-8定义汉字中无此类型。 | 字箝于字,开口向左,嘴巴为A,使用两个部件。 | ||
C31 | Mountain | 3 | 箝 | CLF(31,A,B,C) | UTF-8定义汉字中无此类型。 | 字箝于字,开口向上,山为A,使用三个部件。 | ||
C32 | MountainSymmetry | 2 | 箝 | CLF(32,A,B) | 3 | 㟗、豳、幽。 | 字箝于字,开口向上,山为A,B与C相同,因此使用两个部件。 | |
C33 | Rain | 3 | 箝 | CLF(33,A,B,C) | 2 | 雨、㡀。 | 字箝于字,开口向下,雨为A,使用三个部件。 | |
C34 | RainSymmetry | 2 | 箝 | CLF(34,A,B) | 4 | 㒳、爾、兩、㒼。 | 字箝于字,开口向下,雨为A,B与C相同,因此使用两个部件。 | |
C35 | EUD | 3 | 箝 | CLF(35,A,B,C) | UTF-8定义汉字中无此类型。 | 字箝于字,E形开口向右,E形为A,使用三个部件。 | ||
C36 | EudSymmetry | 2 | 箝 | CLF(36,A,B) | 1 | 㡭。 | 字箝于字,E形开口向右,E形为A,B与C相同,因此使用两个部件。 | |
C37 | REUD | 3 | 箝 | CLF(37,A,B,C) | UTF-8定义汉字中无此类型。 | 字箝于字,E形开口向左,E形为A,使用三个部件。 | ||
C38 | ReudSymmetry | 2 | 箝 | CLF(38,A,B) | 1 | 哥。 | 字箝于字,E形开口向左,E形为A,B与C相同,因此使用两个部件。 | |
C39 | TShape | 3 | 箝 | CLF(39,A,B,C) | 3 | 乖、畞、䏋。 | 字箝于字,T形尖向下,T形为A,使用三个部件。 | |
C40 | TShapeSymmetry | 2 | 箝 | CLF(40,A,B) | 1 | 譱。 | 字箝于字,T形尖向下,T形为A,B与C相同,因此使用两个部件。 | |
C41 | Thumbtack | 3 | 箝 | CLF(41,A,B,C) | 1 | 㘴。 | 字箝于字,T形尖向上,T形为A,使用三个部件。 | |
C42 | ThumtackSymmetry | 2 | 箝 | CLF(42,A,B) | 3 | 坐、㡬、幾。 | 字箝于字,T形尖向上,T形为A,B与C相同,因此使用两个部件。 | |
C43 | RightT | 3 | 箝 | CLF(43,A,B,C) | UTF-8定义汉字中无此类型。 | 字箝于字,T形尖向右,T形为A,使用三个部件。 | ||
C44 | RightTSymmetry | 2 | 箝 | CLF(44,A,B) | UTF-8定义汉字中无此类型。 | 字箝于字,T形尖向右,T形为A,B与C相同,因此使用两个部件。 | ||
C45 | LeftT | 3 | 箝 | CLF(45,A,B,C) | UTF-8定义汉字中无此类型。 | 字箝于字,T形尖向左,T形为A,使用三个部件。 | ||
C46 | LeftTSymmetry | 2 | 箝 | CLF(46,A,B) | UTF-8定义汉字中无此类型。 | 字箝于字,T形尖向左,T形为A,B与C相同,因此使用两个部件。 | ||
C47 | Worker | 3 | 箝 | CLF(47,A,B,C) | 2 | 乘、埀。 | 字箝于字,工型为A,使用三个部件。 | |
C48 | WorkerSymmetry | 2 | 箝 | CLF(48,A,B) | 9 | 㻎、巫、爽、奭、來、㚒、䘮、喪、垂。。 | 字箝于字,工型为A,B与C相同,因此使用两个部件。 | |
C49 | HShape | 3 | 箝 | CLF(49,A,B,C) | UTF-8定义汉字中无此类型。 | 字箝于字,H型为A,使用三个部件。 | ||
C50 | HShapeSymmetry | 2 | 箝 | CLF(50,A,B) | UTF-8定义汉字中无此类型。 | 字箝于字,H型为A,B与C相同,因此使用两个部件。 | ||
C51 | H3S | 1 | 横 | CLF(51,A) | 5 | 川、州、巛、雦、㴇。 | 等同于CLF(7,A,A,A)构形,缩编构形。 | |
C52 | V3S | 1 | 直 | CLF(52,A) | 1 | 三。 | 等同于CLF(13,A,A,A)构形,缩编构形。 | |
C53 | H11R | 1 | 横 | CLF(53,A) | 未统计。 | 北、戼。 | 横排左右相反结构,使用一个部件。实作上使用CLF(3,A,B)替换,A与B部件呈现左右反转。 隐性构形,仅使用于理论分析用途。 |
|
C54 | V11R | 1 | 直 | CLF(54,A) | 未统计。 | 留给诸君在CLF(9)类型中自行寻找。 | 直排上下相反结构,使用一个部件。实作上使用CLF(9,A,B)替换,A与B部件呈现上下反转。 隐性构形,仅使用于理论分析用途。 |
|
C55 | FiveIdentical | 1 | 围 | CLF(55,A) | UTF-8定义汉字中无此类型。 | 五个位置均为相同的部件。实作上使用CLF(22,A,B)替换,A与B部件相同。 隐性构形,仅使用于理论分析用途。 |
||
C56 | 隐性构形,仅使用于理论分析用途。(CLF(56)之后,预定于2014/11/09日更新。) | |||||||
C57 | 隐性构形,仅使用于理论分析用途。 | |||||||
C58 | 隐性构形,仅使用于理论分析用途。 | |||||||
C59 | 隐性构形,仅使用于理论分析用途。 | |||||||
C60 | 隐性构形,仅使用于理论分析用途。 | |||||||
C61 | 隐性构形,仅使用于理论分析用途。 | |||||||
C62 | 隐性构形,仅使用于理论分析用途。 | |||||||
C63 | 隐性构形,仅使用于理论分析用途。 | |||||||
C64 | 隐性构形,仅使用于理论分析用途。 | |||||||
C65 | 隐性构形,仅使用于理论分析用途。 | |||||||
C66 | 隐性构形,仅使用于理论分析用途。 | |||||||
C67 | 隐性构形,仅使用于理论分析用途。 | |||||||
C68 | 隐性构形,仅使用于理论分析用途。 | |||||||
C69 | 隐性构形,仅使用于理论分析用途。 | |||||||
C70 | 隐性构形,仅使用于理论分析用途。 | |||||||
C71 | 隐性构形,仅使用于理论分析用途。 | |||||||
C72 | 隐性构形,仅使用于理论分析用途。 | |||||||
C73 | 隐性构形,仅使用于理论分析用途。 | |||||||
C74 | 隐性构形,仅使用于理论分析用途。 | |||||||
C75 | 隐性构形,仅使用于理论分析用途。 |
(*1) Unicode Plane 0 (0×0000 – 0xFFFF)区域内。目前的Unicode Plane为0-16,范围0×00000000 – 0x0010FFFF。本文数据仅分析Unicode Plane 0,完整的中文语言方程为分析107931个汉字,专有系统才能处理显示、辨识及语意推测。分析新增汉字已经不具备实际意义,分析工作已经完成而终止。