中文語言方程釋出計畫


作者:Владимир Лесной

Lastest update : 2014/12/31

中文語言方程(Chinese Language Formula, C.L.F.),目前的主要功能被深度箝入一套同樣是作者開發的集智作業系統(Collective Intelligence Operating System, C.I.O.S.),規模大約在620萬行C++程式,其中大約320萬行C++程式為作者所撰寫,其餘300萬行則為CIOS本身的智能所撰寫的 (Yes, CIOS is a Program that can write Program.),周圍函式庫數量總數為3750萬行左右,最後一次整合其他套件總數目前為893個,用途為「擬人智能」技術 (Anthropomorphic intelligence)及計算物理(Computational Physics),智能估計約在9-11歲人類兒童的智能,中文語言方程是集智作業系統當中的一個相對很小的次系統。

中文語言方程早期實作曾經使用過C語言,但後來由於相關複雜度越來越高,要讀懂C語言相關程式,困難度越來越高,維護的代價也越來越高,後期實作 則完全修改成C++,維護及理解的容易程度也因此大幅度增加,因此,目前沒有任何修改成C語言的計畫。

釋出工作的主要負荷為補齊文件、抽離原始碼、測試及最後一次的人工檢閱。

與中文語言方程相關,已經完成的工作有下列項目:

項目
名稱
功能
說明
Library CLF 中文語言方程:函式庫
  • wchar_t的處理。
  • LfChar及LfString的處理。
  • 漢字骨架。
  • 字素描述。
  • 全字描述。
  • 字型成像。
  • 編碼轉換。
  • 基礎漢字檢索。
LCLF目前是CIOS當中的語言學的語言方程次系統(Language Formula, L.F. Subsystem)當中的其中一個組件。CIOS針對所有的ISO 639-3及民族語,採取語言學的正規方法,進行統一處理,許多具備強烈規則性的人類自然語言,都採用了「數理語言學」的方法一致化,稱之為 Language Formula Subsystem。

因此目前LCLF的功能,大約超過70%使用CIOS Linguistics Module及其他模組的功能。釋出的工作當中,將其他無關部分抽離,使得LCLF只處理中文語言相關的部份,是這個部分的主要的負荷。
Library Enhanced CLF
中文語言方程:函式庫(辨識與理解)
  • 字型輸出成TTF。
  • 漢字OCR辨識。
  • 漢字手寫辨識。
  • 模糊工廠引擎。
  • C++ Logic Programming Templates
  • 賦意域映射。
  • 漢字模糊搜尋。
  • 詞庫處理功能。
  • 字型的圖學處理功能。

Qt CLF
中文語言方程:Qt支援函式庫
  • LfPainter。
  • SQL支援。
  • 圖庫處理支援。
  • CLF相關Widgets。

CLF Editor 中文語言方程:編輯器
  • 筆劃編輯。
  • 字素編輯。
  • 全字編輯(傳統TTF技術)。
  • 組件編輯(基本的構形樹)。
  • 漢字OCR辨識。
  • 漢字手寫辨識。
  • 漢字OCR訓練。
  • 漢字手寫辨識訓練。
  • 字集整理。
  • 編碼設計。
  • 編碼轉換。
  • 相關程式自動生成。(是的,就是程式產生器。)
  • 賦意域空間編輯。
  • 詞庫處理。
  • 單字映射賦意域。
  • 詞彙映射賦意域。
  • 漢字模糊搜尋。

Input Method - Athena 中文語言方程:輸入法 「I'm Athena」或是「Input Method - Athena」,雅典娜輸入法。

該計畫為另外一個獨立計畫,位於Source Forge:

http://imathena.sourceforge.net

用途是支援構形輸入法,由 Yahoo Key Key 修改而來,為支援UTF-16,修改幅度有相當的規模。
TeX CLF Module 中文語言方程:TeX支援模組
使TeX可以處理構形法編碼的TeX模組。

TexMaker CLF
TexMaker修改版
TeXMaker CLF為Qt程式,大幅度修改成支援UTF-16編碼,與「中文語言方 程:TeX支援模組」配合,可作為支援構形法的文書編輯器。
CIOS Linguistics CIOS語言學分析工具 ISO 639-3語言支援及分析工具,語音辨識、文字辨識、手寫辨識、賦意域空間處理、兩百六 十九種語言詞典、中文語言方程 、民族語、語源學、方言語音變化處理…。 此部份將不會釋出,但與中文語言方程相關的功能將會全數抽出,與「中文語言方程:編輯器 」重新整合。
CLF Utilities
CLF的各類輔助工具集
例如libUniHan一類的處理工具。

CLF Android
CLF於Android上的工具
這個部分目前尚未製作,僅為計畫,有可能會取消。
CLF iOS
CLF於Apple iOS上的工具 這個部分目前尚未製作,僅為計畫,有可能會取消。


釋出計畫基本原則大體如下:

  1. 釋出時間分布於2014年十月一日至2015年十二月三十一日,如果作者其他活動較為頻繁,則將釋出活動持續到全部釋出為止。
  2. 大體共分十批更新釋出。
  3. 人工檢查大體無重大問題的即釋出。
  4. 相依性較低的優先釋出。
  5. 理論、技術與說明文件優先釋出,原因是構形法其實只要有理論及技術說明文件,實作其實並沒有很大困難性,稍有經驗的設計者便可依據理 論及文件來實踐漢字構形法。
  6. 函式庫優於應用程式釋出。
  7. 漢字辨識與漢字理解相關功能最後幾批才釋出。
  8. 漢語及漢語方言語音辨識及TTS相關功能將不會釋出,請勿詢問或以任何理由進行此類要求。
  9. 完全釋出後,作者將不再繼續維護,亦無暇在外進行推廣活動或是參加相關論壇,因此CLF並無版本編號,均以日期作為版本判斷基準。
  10. 作者內定版權格式為WYL或是WYLJDBM, 但由於基礎原理及分析數據使用台灣中央研究院的研究數據為基礎,最終版權,作者與中央 研究院有口頭約定,由中央研究院文獻處理實驗室做最後決定。
  11. 除了嚴重錯誤必須做patch修改以外,用戶或程式設計師無須做任何回應到原作者,原作者因為有其他重要物理研究課題及需要接工作項 目維持平日正常生活,原作者理會處理的機率一般很低很低。

大體活動時間表如下,隨時會依實際狀況變動:

批次 開始時間 大致結束時間 項目 內容
第一批
2014年九月十日 2015年三月十五日 CLF數學碼、中研院IDS風格碼及Unicode UTF-16的漢字最後一次比對工作。
CLF數學碼使用數學編碼方案,共計50種構形類,中研院文獻處理實驗室則使用IDS風格碼來實 作構形法,使用13種構形法,兩者為符合現行系統實作的問題,均有對應至現行的Unicode UTF-16編碼的實際問題。

此部份釋出前準備工作,目的是為保證在各個作業系統內部的字型引擎在修改成新型構形法實作方式之前,最低都可以保證使用TTF顯 示方案可處理Unicode UTF-16漢字。
第一批 2014年九月十五日 2015年四月三十日 CCCII原始漢字分析數據、中研院文獻處理實驗室漢字構形法處理程式及小學館漢字數據及少數其 他作者蒐集的漢字源的漢字OCR辨識工作。
第一批 2014年十月一日 2015年三月三十一日 中文語言方程:構形法理論文件。
第一批 2014年十一月一日 2015年一月三十一日 主要網頁建構。
第一批 2014年十二月十五日 2015年五月十五日 中文語言方程:構形法技術文件。







已經處理好的列表如下:

項目
釋出日期
最後更新日期
內容
說明





漢字構字式五十型(繁體版) 2014年十一月一日 2014年十一月五日 中文語言方程構字式五十型說明文件。 CLF的構形原理文件。
Unicode漢字定義區 2014年十一月二日 2014年十一月十五日 Unicode的漢字定義區域及數量統計。 參考文件。
未統一漢字列表 2014年十一月二日 2014年十一月三日 字源分離原則所影響的漢字。 參考文件。
中文語言方程原始整理數據 2014年十一月四日 2014年十一月五日 中文語言方程針對CCCII字集的原始分析數據。 圖檔約400張。
CLF Notations 2014年十一月五日 2014年十一月五日 中文語言方程構字式構形記號77個。 PNG圖檔77個。
CLF Sequences 2014年十一月六日 2014年十一月六日 中文語言方程字素序列記號77個。 PNG圖檔77個。
「同字異位體」的漢字顯示方法 2014年十一月七日 2014年十一月七日 同一個字處於不同構形位置的顯示處理。 理論文件。
基礎全部網頁列表(繁體版) 2014年十一月八日 2014年十一月八日 全部網頁的鏈結頁。 網頁
Unicode Plane 0的全部漢字(繁體單頁) 2014年十一月九日 2014年十一月九日 Unihan於Plane 0的全部列表。 標準文件。
Unicode Plane 0的全部漢字(簡體單頁) 2014年十一月九日 2014年十一月九日 Unihan於Plane 0的全部列表。 標準文件。
Unicode Plane 0當中的「字素樹」 2014年十一月九日 2014年十一月九日 字素表使用筆劃分析以後的結構樹。
理論文件。
基 本開發系統環境說明 2014年十一月十一日 2014年十一月十一日 Linux, Mac OS X, Windows, Android, Apple iOS平台下的開發環境說明。 Qt與周邊使用的libraries編譯及環境建立說明。
libjpeg 的編譯及設定 2014年十一月十一日 2014年十一月十二日 Linux, Mac OS X, Windows, Android, Apple iOS平台下的編譯說明。 libjpeg的編譯及設定。
UTF-8編碼法(繁體版文件)
2014年十一月十二日 2014年十一月十二日 CLF數學碼與UTF-8編碼的混和使用狀況。 標準文件。
UTF-16編碼法(繁體版文件)
2014年十一月十三日 2014年十一月十三日 CLF數學碼與UTF-16編碼的混和使用狀況。 標準文件。
Unicode Plane 0的全部韓語諺文(單頁)
2014年十一月十三日 2014年十一月十三日 韓語諺文於Plane 0的全部列表。 標準文件。
Unicode編碼分布表
2014年十一月十三日 2014年十一月十五日 Unicode編碼分布表。 標準文件。
ISO 639-3 2014年十一月十五日 2014年十一月十五日 語言代號編碼國際標準。 標準文件。
漢字構字式字群集合(繁體版文件)
2014年十一月十五日 2014年十一月十五日 構字式字群集合。 理論文件。
中文語言方程的數學表達法建議(繁體版文件)
2014年十一月十五日 2014年十一月十六日 使用數學的方式表達漢字組成、拆解及運算。 理論文件。
漢字細節層次技術(繁體版文件)
2014年十一月十六日 2014年十一月十六日 組字法當中的Level Of Details處理方法。 技術文件。
Unicode 7.0的全部漢字(單頁)
2014年十一月十六日 2014年十一月十六日 Unicode 7.0的全部漢字(單頁)。 標準文件。
CIOS Audio Core
2014/11/17 2014/12/28 http://ciosaudio.sourceforge.net 其他的計畫
漢字筆劃技術(繁體版文件)
2014年十二月二十六日 2014年十二月三十一日 Stroke-Based Text Processing解決方案。 技術文件。







預定在當月將釋出的列表如下:

項目
預定釋出日期
內容
說明
ISO 3166-1
2015年一月八日 國家代號編碼國際標準。 標準文件。
繁體版內容主網頁
2015年一月十日 繁體版內容大綱網頁。 網頁。
漢字構字式五十型聚合法(繁體版文件)
2015年一月十五日 構字式組字法基本原則。 理論文件。
漢字平面幾何映射公式(繁體版文件)
2015年一月二十日 使用到的基礎的幾何學公式列表。 技術文件。
漢字構字式五十型拆分法(繁體版文件)
2015年一月二十五日 構字式拆字法建議規則。 理論文件。
漢字字素技術(繁體版文件)
2015年一月二十八日 以字素為基礎,聚合成完整漢字的技術解決方案。 技術文件。
諺文十六型 2015年一月三十日 韓語構形方程。 理論文件。
集智作業系統 語言方程次系統簡介 2015年二月二日 集智作業系統針對通用語言數學化的處理方式。 技術文件。
IDS表意文字序列 2015年二月十日
技術文件。
中央研究院風格碼 2015年二月十五日
技術文件。
其他語種的「構形語言方程」 2015年二月二十五日
理論文件。
其他的事務
2014/11/23 ~ 2014/12/10 其他的事務
雅典娜輸入平台
2015/1/15 ~ 2015/3/25 雅典娜輸入平台基本說明文件。
LfChar技術文件 2015年二月十六日
技術文件。
LfString技術文件 2015年二月二十六日
技術文件。
語言方程碼定義 2014年十二月二十七日 最後更新為2014年十一月十五日 技術文件。
CCCII當中整理出來的字素表 2015年三月十日
原始數據。