汉字构字式五十型


作者:Владимир Лесной

在早期的中文语言方程裡面,为方便理解,採用了「汉字构字式二十型」的解说方式,完整的实作是「汉字构字式五十型」,五十型当中有两个构形被缩减,供应设计的实际使用,因此实际的实作是四十八型,而全部的合字构形为五十型,含「独字」及「特殊字」则为五十二型,此外尚有一批被缩编的「隐性构形」,本篇说明完整的「构字式五十型结构法」。

「汉字构形法」当中,有七大构字主系统,係为「独」、「直」、「横」、「叠」、「围」、「披」及「箝」。

助记七字诀:「独、直、横、叠、围、披、箝」。

「独」即为「独字」,也就是构字基本字,「独字」的分析需要使用「笔画」进行更深一步的分析,主要的方法是「笔画树」结构分析。处理技术为「笔画」与「分支树」,由于构形将汉字降低处理维度,因此,独字可以採用很细腻的「笔画处理技术」(Strokes-Based Text Processing)。

「直」即为「直排字」,「构字式五十型」当中有八种构形属于「直排系」,其中有一型在实作中被併入另一型一起处理。

「横」即为「横排字」,「构字式五十型」当中有七种构形属于「横排系」,其中有一型在实作中被併入另一型一起处理。

「叠」即为「三角」、「四角」及「五叠字」,「构字式五十型」当中有六种构形属于「叠字系」。

「围」即为「圈形字」,「构字式五十型」当中有一种构形属于「围字系」。

「披」即为「字上披字」或「字坐于字」,「构字式五十型」当中有四种构形属于「披字系」。

「箝」即为「字中箝字」,「构字式五十型」当中有二十四种构形属于「箝字系」。

中文语言方程处理汉字的方法,採用「集合论」,将「字集」归类为「集合」,「构形」为「运算子」,如此使得汉字形成一种「泛函形式」,成功地将汉字数学化处理。

中文语言方程将「构形」指定为函式,以Cn代表,其中n为构形编号,C则为Conformation。

而汉字通常使用Cn(A,B,C,D,E)来表示,泛函表达式为(Cn,A,B,C,D,E),中文语言方程裡面通常使用CLF(n,A,B,C,D,E,F,G,H)或CLF(n)做表达式,其中A,B,C,D,E为「组字部件集合」,也就是「字集」。

例如,「独字」,也就是基本字,一般使用C1(A)或(1,A)来代表,「朋」字则以C4(月)或(4,月)来代表,而「明」字则以C3(日,月)或(3,日,月)来代表。

由于五十型汉字构形当中,有些组合会产生「构形等价」的问题,编码技巧若是不正确,会产生「一字多码」的问题,中文语言方程採用「集合组合列举法」,将可能的变化列举以后,消除了构字式当中比较严重的「重码」问题,因此中文语言方程的编码是可以没有「重码」问题的,汉字编码确实可以透过数学化,把「一字多码」的问题消除掉。

中文语言方程主体理论是专攻「汉字数学化」,并不只是单纯只有针对字形,亦有「组字部件」到「赋意域空间」(Semantic field)的模煳映射关係,在文意理解系统当中亦有相当程度的实体功能,构形的部份,亦有汉字字形辨识的功能,与中央研究院研究领域有所区分,倾向于「拟人智能」领域。

词彙的用法:

  • 目前作者将原有的「构件」这个词彙,修改为英文的Grapheme,这是一个比较精准的语言学词彙。中文的翻译,在整个文件当中,一律改採「字素」。
  • 「部件」包含了「字素」与「构字」(组合出来的字,CLF(3) ~ CLF(50)),组字时期实际使用「部件」,「字素」只有在CLF(1)与CLF(2)当中才有。
  • 作者因为懒得去想每个构形的中文名称,请使用者及研究者自行开会研究中文命名。

  • 部件的拆分:

  • 部件的拆分一般具有比较强的人为性,某些拆分方式则涉及汉字语源学,作者的拆分方式为「直觉式拆分」,因为个人精力有限,直接取形直拆,因此不见得吻合语源学的根据。
  • 由于结构式分类相当细腻,所有的汉字都有办法透过构形法进行分解,若是某些特定的字有特殊字源,需要修改拆分方式,可自行于编辑器上修改。

  • 构形记号
    编号
    记号
    部件
    构字系
    函式记号
    数量(*1)
    范例
    说明
    C00 Unicode 1 CLF(0,A) 等同于Unicode的UTF-16定义。
    clf-01 C01 Conformation 1 CLF(1,A) 537
    (暂时,尚需最后一次整理。)
    一、丨、亅、丁、㐅、㔾、井…。 正式规定为「不可拆分独字」,可拆分的「独字」需要归类到C02,仅有少数特例可拆分的独字才使用这个分类。
    clf-02 C02 Complex 1 CLF(2,A) 9
    (暂时,尚需最后一次整理。)
    彡、忄、彳、心、彔…。 用于简化构形处理,某些构形及字十分罕见及少用,但作为组字部件,却经常出现,但这种字却又无法被归类于「独字」,而出现时却是以单一整体出现,需要将之视为可拆分的「独字」,以单一字处理,此时可以运用这个构形来做特别的处理技巧。
    clf-03 C03 H11 2 CLF(3,A,B) 3136
    (最后一次整理的数量。)
    㚈、㦤、㪂、馛…。 横排左右大小对称,使用两个部件,基本上是左右不相同的部件。
    clf-04 C04 H11E 1 CLF(4,A) 83
    (最后一次整理的数量。)
    吅、奻、囍、龖…。 横排左右大小对称,使用一个字素,左右部件相同。
    clf-05 C05 H12 2 CLF(5,A,B) 15132 什、䃀、禐、猐…。 横排左一右二比例,使用两个部件。
    clf-06 C06 H21 2 CLF(6,A,B) 693 㓚、効、㣏、㱄…。 横排左二右一比例,使用两个部件。
    clf-07 C07 H3 3 CLF(7,A,B,C) 52 树、衍、卿、承…。 横排左中右,使用三个部件,原则上A与C部件不相同。
    clf-08 C08 H3C 2 CLF(8,A,B) 42 巛、嬲、雠、粥…。 横排左中右,使用两个部件,与CLF(7,A,B,C)相比,原则上A与C部件相同,因此只使用两个部件。
    clf-09 C09 V11 2 CLF(9,A,B) 2403 䂬、殳、朵、雪…。 直排上下大小对称,使用两个部件,基本上是上下不相同的部件。
    clf-10 C10 V11E 1 CLF(10,A) 16 吕、炎、岀、亖…。 直排上下大小对称,使用一个字素,上下部件相同。
    clf-11 C11 V12 2 CLF(11,A,B) 2330 䒒、䈌、巃、荦…。 直排上一下二比例,使用两个部件。
    clf-12 C12 V21 2 CLF(12,A,B) 172 勲、孟、鱼、辔…。 直排上二下一比例,使用两个部件。
    clf-13 C13 V3 3 CLF(13,A,B,C) 1(暂时,尚需最后一次整理。) 㝷。 直排上中下,使用三个部件,原则上A与C部件不相同。
    clf-14 C14 V3C 2 CLF(14,A,B,C) 6(暂时,尚需最后一次整理。) 噐、嚚、嚣、尜、三、嚣。 直排上中下,使用两个部件,与CLF(13,A,B,C)相比,原则上A与C部件相同,因此只使用两个部件。
    clf-15 C15 Hat 2 CLF(15,A,B) 662 企、㝑、空、冗…。 直排带帽子的构字,使用两个部件。
    clf-16 C16 Siege 2 CLF(16,A,B) 85 回、围、國、国、囻…。 外面的字包围裡面的字,使用两个部件。
    clf-17 C17 Triplet 3 CLF(17,A,B,C) UTF-8定义汉字中无此类型。 品字结构,使用三个部件。
    clf-18 C18 TriSymmetry 1 CLF(18,A) 54 品、众、姦、贔…。 品字结构,(A,B,C)三者皆相同,使用一个部件。
    clf-19 C19 Quadlet 4 CLF(19,A,B,C,D) UTF-8定义汉字中无此类型。 四角结构,使用四个部件。
    clf-20 C20 QuadSymmetry 1 CLF(20,A) 10 㠭、㗊、㵘、朤、燚、㸚、䨻、叕、䲜、茻。 四角结构,(A,B,C,D)四者皆相同,使用一个部件。
    clf-21 C21 Five 5 CLF(21,A,B,C,D,E) UTF-8定义汉字中无此类型。 五叠结构,使用五个部件。
    clf-22 C22 FiveSymmetry 2 CLF(22,A,B) 2 器、噩。 五叠结构,CLF(21)当中的(A,B,C,D)四者皆相同,使用两个部件为原有的CLF(21)当中的(A,E)。
    clf-23 C23 Chair 2 CLF(23,A,B) 731 廵、䫹、䢎、䞨…。 字坐于L形字的椅子字之上,使用两个部件,椅子为A。
    clf-24 C24 Sofa 2 CLF(24,A,B) 2 斗、头。 字坐于镜射的L形字的沙发字之上,使用两个部件,沙发为A。
    clf-25 C25 Body 2 CLF(25,A,B) 860 㽱、㕂、庁、尻…。 字左披于字,使用两个部件,左衣服为A,使用两个部件。
    clf-26 C26 Sheet 2 CLF(26,A,B) 136 刁、氕、弌、寸…。 字右披于字,使用两个部件,右衣服为A,使用两个部件。
    clf-27 C27 Door 2 CLF(27,A,B) 263 冈、向、鬨、夙…。 字箝于字,开口向下,盖子为A,使用两个部件。
    clf-28 C28 Concave 2 CLF(28,A,B) 9 㓙、凷、凶、凼、函、凾、鼎、鼑、凶…。 字箝于字,开口向上,盆子为A,使用两个部件。
    clf-29 C29 Giant 2 CLF(29,A,B) 48 㔰、区、区、匼…。 字箝于字,开口向右,嘴巴为A,使用两个部件。
    clf-30 C30 Teeth 2 CLF(30,A,B) UTF-8定义汉字中无此类型。 字箝于字,开口向左,嘴巴为A,使用两个部件。
    clf-31 C31 Mountain 3 CLF(31,A,B,C) UTF-8定义汉字中无此类型。 字箝于字,开口向上,山为A,使用三个部件。
    clf-32 C32 MountainSymmetry 2 CLF(32,A,B) 3 㟗、豳、幽。 字箝于字,开口向上,山为A,B与C相同,因此使用两个部件。
    clf-33 C33 Rain 3 CLF(33,A,B,C) 2 雨、㡀。 字箝于字,开口向下,雨为A,使用三个部件。
    clf-34 C34 RainSymmetry 2 CLF(34,A,B) 4 㒳、爾、兩、㒼。 字箝于字,开口向下,雨为A,B与C相同,因此使用两个部件。
    clf-35 C35 EUD 3 CLF(35,A,B,C) UTF-8定义汉字中无此类型。 字箝于字,E形开口向右,E形为A,使用三个部件。
    clf-36 C36 EudSymmetry 2 CLF(36,A,B) 1 㡭。 字箝于字,E形开口向右,E形为A,B与C相同,因此使用两个部件。
    clf-37 C37 REUD 3 CLF(37,A,B,C) UTF-8定义汉字中无此类型。 字箝于字,E形开口向左,E形为A,使用三个部件。
    clf-38 C38 ReudSymmetry 2 CLF(38,A,B) 1 哥。 字箝于字,E形开口向左,E形为A,B与C相同,因此使用两个部件。
    clf-39 C39 TShape 3 CLF(39,A,B,C) 3 乖、畞、䏋。 字箝于字,T形尖向下,T形为A,使用三个部件。
    clf-40 C40 TShapeSymmetry 2 CLF(40,A,B) 1 譱。 字箝于字,T形尖向下,T形为A,B与C相同,因此使用两个部件。
    clf-41 C41 Thumbtack 3 CLF(41,A,B,C) 1 㘴。 字箝于字,T形尖向上,T形为A,使用三个部件。
    clf-42 C42 ThumtackSymmetry 2 CLF(42,A,B) 3 坐、㡬、幾。 字箝于字,T形尖向上,T形为A,B与C相同,因此使用两个部件。
    clf-43 C43 RightT 3 CLF(43,A,B,C) UTF-8定义汉字中无此类型。 字箝于字,T形尖向右,T形为A,使用三个部件。
    clf-44 C44 RightTSymmetry 2 CLF(44,A,B) UTF-8定义汉字中无此类型。 字箝于字,T形尖向右,T形为A,B与C相同,因此使用两个部件。
    clf-45 C45 LeftT 3 CLF(45,A,B,C) UTF-8定义汉字中无此类型。 字箝于字,T形尖向左,T形为A,使用三个部件。
    clf-46 C46 LeftTSymmetry 2 CLF(46,A,B) UTF-8定义汉字中无此类型。 字箝于字,T形尖向左,T形为A,B与C相同,因此使用两个部件。
    clf-47 C47 Worker 3 CLF(47,A,B,C) 2 乘、埀。 字箝于字,工型为A,使用三个部件。
    clf-48 C48 WorkerSymmetry 2 CLF(48,A,B) 9 㻎、巫、爽、奭、來、㚒、䘮、喪、垂。。 字箝于字,工型为A,B与C相同,因此使用两个部件。
    clf-49 C49 HShape 3 CLF(49,A,B,C) UTF-8定义汉字中无此类型。 字箝于字,H型为A,使用三个部件。
    clf-50 C50 HShapeSymmetry 2 CLF(50,A,B) UTF-8定义汉字中无此类型。 字箝于字,H型为A,B与C相同,因此使用两个部件。
    clf-51 C51 H3S 1 CLF(51,A) 5 川、州、巛、雦、㴇。 等同于CLF(7,A,A,A)构形,缩编构形。
    clf-52 C52 V3S 1 CLF(52,A) 1 三。 等同于CLF(13,A,A,A)构形,缩编构形。
    clf-53 C53 H11R 1 CLF(53,A) 未统计。 北、戼。 横排左右相反结构,使用一个部件。实作上使用CLF(3,A,B)替换,A与B部件呈现左右反转。
    隐性构形,仅使用于理论分析用途。
    clf-54 C54 V11R 1 CLF(54,A) 未统计。 留给诸君在CLF(9)类型中自行寻找。 直排上下相反结构,使用一个部件。实作上使用CLF(9,A,B)替换,A与B部件呈现上下反转。
    隐性构形,仅使用于理论分析用途。
    clf-55 C55 FiveIdentical 1 CLF(55,A) UTF-8定义汉字中无此类型。 五个位置均为相同的部件。实作上使用CLF(22,A,B)替换,A与B部件相同。
    隐性构形,仅使用于理论分析用途。
    clf-56 C56 隐性构形,仅使用于理论分析用途。(CLF(56)之后,预定于2014/11/09日更新。)
    clf-57 C57 隐性构形,仅使用于理论分析用途。
    clf-58 C58 隐性构形,仅使用于理论分析用途。
    clf-59 C59 隐性构形,仅使用于理论分析用途。
    clf-60 C60 隐性构形,仅使用于理论分析用途。
    clf-61 C61 隐性构形,仅使用于理论分析用途。
    clf-62 C62 隐性构形,仅使用于理论分析用途。
    clf-63 C63 隐性构形,仅使用于理论分析用途。
    clf-64 C64 隐性构形,仅使用于理论分析用途。
    clf-65 C65 隐性构形,仅使用于理论分析用途。
    clf-66 C66 隐性构形,仅使用于理论分析用途。
    clf-67 C67 隐性构形,仅使用于理论分析用途。
    clf-68 C68 隐性构形,仅使用于理论分析用途。
    clf-69 C69 隐性构形,仅使用于理论分析用途。
    clf-70 C70 隐性构形,仅使用于理论分析用途。
    clf-71 C71 隐性构形,仅使用于理论分析用途。
    clf-72 C72 隐性构形,仅使用于理论分析用途。
    clf-73 C73 隐性构形,仅使用于理论分析用途。
    clf-74 C74 隐性构形,仅使用于理论分析用途。
    clf-75 C75 隐性构形,仅使用于理论分析用途。

    (*1) Unicode Plane 0 (0×0000 – 0xFFFF)区域内。目前的Unicode Plane为0-16,范围0×00000000 – 0x0010FFFF。本文数据仅分析Unicode Plane 0,完整的中文语言方程为分析107931个汉字,专有系统才能处理显示、辨识及语意推测。分析新增汉字已经不具备实际意义,分析工作已经完成而终止。