让中国人在信息时代畅行无阻――记THOCR在解决汉字自动输入上的丰硕成果

让中国人在信息时代畅行无阻

――记THOCR在解决汉字自动输入上的丰硕成果

清华大学电子工程系教授  丁晓青
 
汉字的计算机输入问题成了制约我国信息时代发展的瓶颈
 
    二十世纪后半期,随着半导体和计算机技术的飞速发展,人类社会开始进入了信息时代。由于信息事业的发展将极大地影响到国家的发达和民族的兴旺,因此,世界各国都对信息事业和产业的发展给予了极大的关注。面对这一轮最新的国际竞争,面对我们中华民族千载难逢的发展机遇,我们只能是抓紧机遇、迎头赶上。
 
    但是,在这千载难逢的历史机遇中,我国的信息发展却遇到了巨大障碍和似乎难以逾越的瓶颈,这就是我们五千年灿烂文化的结晶,五千年文明的瑰宝――汉字,面临着计算机输入的极大困难。我们知道,文字是人类信息最重要的载体和最集中表现,文字的计算机输入是信息化的极为重要的一环。由于计算机的键盘是由西方人设计的,能够适应由少数拼音符号构成的西方文字的输入。但对于东方文字的输入,尤其是基于象形结构的、包含了成千上万个不同结构的方块汉字来说,用计算机的键盘输入汉字,将会遇到极大的困难。
 
    中国人应该怎么办?我们能够选择的路好像也只有两条:前进,去解决汉字计算机输入问题,在信息时代继续发扬我国五千年的汉字文化;或是退后,抛弃现行使用的汉字,代之以汉语的拼音化。
 
    很显然,选择第一条路我们将面临重重困难,在这条前人没有走过的的路上我们注定要披荆斩棘,才能够闯出一条路来;选择第二条路,直接将汉语拼音化后,则可以直接借鉴西方语言处理的现成方案,从技术上来说,是轻而易举的。因此,一度曾经有一些对我国使用汉字的前景感到悲观的人大力宣传第二种方案。
 
     诚然,将汉语拼音化确实可以绕过汉字计算机输入问题的瓶颈,但废弃了汉字,就等于割裂了联系我们中华民族五千年悠久历史的纽带,放弃了沟通我国广大地域上说不同方言的人群之间的桥梁。汉字已经成为我们民族文化的重要组成部分,成为中华民族生生不息、不断发展的象征,放弃使用汉字,甚至会直接危及到我们的民族认同感和国家的生存,这,决不是危言耸听。
 
     更何况,将汉语拼音化后,使用国外的技术方案,虽然可以省去不少开发过程,但在这一领域内我们没有任何优势,没有自主的知识产权,就没有发言权。不要说这样一块巨大的市场就将拱手出让,我们自己要想在其基础上有所发展,也要受制于国外,显然,从技术发展的角度来看,这也是行不通的。
 
作为新中国培养起来的科技工作者,我们又该怎么办?
 
中国人决不能再丧失计算机时代,
解决汉字计算机自动录入是时代赋予我们的历史使命!
 
    事实上,在这个问题上,我国的科技工作者还是有着清醒的认识,并且不少人都投入了极大的勇气和毅力来解决汉字的输入问题。70-80年代,成百上千种汉字输入编码的输入方案的提出和实现,就可以说明这一点。
 
    众多的汉字编码汉字键盘输入方案(主要有字形编码和拼音编码两类)都是将汉字拆分以适应为西方文字设计的键盘输入。虽然这在一定程度上缓解了汉字输入的困难和矛盾,但是利用小键盘输入大数量汉字集的汉字编码键入方法,不仅需要记忆各种编码规则,而且还需要繁冗的手工劳动,费时、费力,远远不能满足高速发展信息时代的要求。自然而然的,汉字的计算机自动录入问题就摆在了我们的面前。吴佑寿院士曾经说过,“我们中国人已经丢失了打字机时代,但我们决不能再丢失计算机时代。我们必须把解决好汉字的计算机自动录入问题,作为时代赋予我们的历史使命,由我们中国人自己承担起来”。这席话,也代表了我们的心声。正是这种强烈的民族责任感促使我们在这一领域研究不断深入,并且,也取得了越来越多的成果。
 
    1984年,我和吴佑寿院士就意识到汉字自动输入技术将有着广阔的应用前景和巨大的发展潜力,虽然这一领域的研究当时还处于空白,有许多的问题有待于解决,但困难往往就是与机遇并存,研究越少的领域,越是容易出现突破性的进展。因此,尽管当时实验室从资金、设备上都是比较有限,我和吴教授还是决定将汉字的自动输入作为主要的研究方向。这个认识对我们实验室的发展可以说起到了决定性的作用。要想在科学研究上有所突破,准确地把握研究方向可以说是一个关键,我们的经历也正说明了这一点。
 
    在国家863计划、国家自然科学基金,七五攻关计划等项目支持下,我们从1985年开始了汉字识别的研究工作。在这以后的十年中,我们实验室的全体师生,就走上了利用模式识别的先进技术,解决汉字的自动输入问题的征途。这是一条对发展我国信息事业,同时也是对发展模式识别、人工智能技术都极为有价值的征途。它将使人们和计算机的关系产生巨大的转变:从人们服从计算机、适应计算机,到使计算机来适应人们的需要和习惯。无论是各种印刷的文本,还是人们的自然书写的文字,都能使计算机自动适应它们,都能自动和方便的输入到计算机中去。
 
    当然,这条征途是崎岖的,充满了困难。
 
    但对于我们来说,困难就意味着挑战,我们能够做的,只有迎难而上!
 
迎接成功者的总是鲜花,
但成功者跋涉过的道路上往往是长满了荆棘
 
    汉字的特点是数量浩大,结构繁杂,变化多端,使得寻求解决汉字的自动输入问题要比西方文字自动输入艰巨的多。我们知道,英文只有26个字符,而常用的汉字就有四千余字,全部汉字更多达数万,字符的数量是十分惊人的。从同一汉字的产生途径上看,有印刷的,也有手写的,计算机出现后又增加了一种边书写边记录笔迹生成的联机手写生成的。对于每一个汉字来说,其表象也是五化八门、各式各样的。从字体上划分,有仿宋、宋、黑、揩、圆、隶、魏碑、行楷等不同字体;从大小上看,同一字体下有1-6号、特大号、特小号等各种不同大小尺寸;并且按照汉字的印刷编排格式划分,还有横排和竖排之分,以及各种复杂的表格列表等。对于手写汉字,由于书写者具有不同的文化层次、不同的年龄结构,以及具体书写情况的不同,使得即使是相同书写者在不同情况下手写的汉字,其笔划结构和形态的变化也是巨大的,有时甚至人都难以加以辨别,更不用说是计算机了。
 
    针对这种种复杂情况,我们采取了先易后难,逐层深入的办法,逐步解决面临的问题。从印刷文本的识别,到联机手写汉字的识别,进而脱机手写数字和汉字的识别;从汉字的识别、英文的识别、到日文和韩文的识别;从简单版面的自动分析、识别和理解,到复杂报纸版面的自动分析、识别和理解,层层深入,研究的深度和广度都在不断增加,逐渐覆盖了几乎所有的汉字识别领域,并且成功地开发出了具有自主知识产权的软件产品。
 
    开拓者的历程总是艰辛的,回想我们开始这方面的研究之初,还在80年代初期,由于计算机系统的性能还很差,利用IBMPC进行汉字识别的研究,内存仅有64KB,外存仅有20MB的硬盘,10M的时钟频率,内存小、速度慢,给汉字识别的研究造成极大的困难。但我们想尽办法来克服困难,解决问题。没有扫描仪,我们就用传真机代替;计算机速度慢,我们晚上就睡在实验室继续干;为了尽快取得汉字识别的研究进展,我们不分节假日,几乎是天天工作在实验室里,研究比较不同的算法和方案,以取得最优的汉字识别的解决方案。
 
     在这个过程中,我们深深地体会到,从事科学研究的指导思想是关系到最后的成败。例如,我们分析了写字和认字的不同,人类认字过程是全局、并行的,是对字符图象的认知过程。模仿人类认字过程来识别汉字,决定了汉字识别主要的是对汉字图象的模式识别。这一认识和分析,指引我们采用正确的理论和方法,为较快和较好地解决了汉字识别问题奠定了基础;又如,我们研究和提出了模式识别的信息熵理论,对于特征选择决定了识别性能的极限,有了深刻的理论依据。而逼近这一性能极限,则要依赖对样本的学习和分类器的优化设计。针对多种多样的汉字识别问题,如,印刷的、联机手写的、脱机手写的等等,我们提出汉字识别的综合识别研究课题。因为,各式各样的汉字,虽然表象不同,却有着本质的相似之处,因此,不是割裂的,而是统一和综合的研究各种识别问题,是我们高速、高效取得各项研究成果的重要因素。
 
    并且,强烈的民族责任感使我们面对国外的激烈竞争,不敢有丝毫的松懈。要想始终领先一步,就只有自己给自己提高要求,加重砝码。当超大字符集的多体印刷汉字识别系统研究成功时,联机和脱机手写汉字识别的研究已开始启动;当达到一定的识别性能指标,新的模式识别理论和分类器算法研究就已开始,我们以行百里则半九十的精神看待已达到的和将要达到的目标,这样才能一步一个脚印,勇往直前,达到今天的研究成果。
 
让中国人在信息时代畅行无阻!
 
     十五年过去了,我们在汉字识别领域取得了多项具有国际领先水平的研究成果,下面给出了一些对实验室影响比较大的阶段性成果:
 
1. 1986年鉴定通过国标两级印刷汉字识别的实验系统,是最早的对超大模式类(6763类)模式识别问题的有益探索;
 
2. 1989年鉴定通过多字体印刷汉字识别系统,解决了能实用化的超大字符集多体印刷汉字的识别问题。1990年鉴定通过了THOCR-90实用多字体多字号混合版面印刷体汉字识别系统,成为我国第一个多字体印刷汉字识别系统的汉字OCR产品,清华OCR( TH-OCR),首次推向市场。获国家教委科技进步奖一等奖和“七五”科技攻关重大成果奖;
 
3. 1992年鉴定通过THOCR-92高性能实用简/繁体多字体多功能印刷汉字识别系统,专家评定“在多体识别率方面居国际领先水平”,是印刷汉字识别实用化的又一重大进展。获国家科技进步奖三等奖。
 
4. 1994年鉴定通过THOCR-94高性能汉英混排印刷文本识别系统,专家鉴定为:“THOCR-94是当时已测试的识别率最高的多体印刷体汉字识别系统,是国内外首次推出的汉英混排印刷文本识别系统,具有较高的自动化水平和实用性能,总体上居国际领先水平”。是世界率先推出的汉英混排文字识别系统;获全国十大电子科技成果奖和北京市科技进步二等奖。
 
5. 1997年鉴定通过THOCR-97综合集成汉字识别系统,专家鉴定为:“THOCR-97综合集成汉字识别系统是国内外首次推出的能同时识别多文种(汉、日、英)印刷文本、联机手写汉字、脱机手写汉字文本和手写数字的集成文字识别系统,为汉字自然和快速地输入计算机给出了一个统一的解决方案,是一个有意义的创举。上述多文种OCR以及联机和脱机手写汉字 、数字识别的集成系统,作为一个整体居于国际领先水平” 。由于高水平的研究成果及其在实际中的推广应用,获98年教委科技进步一等奖,并在激烈竞争中荣获99年国家科技进步二等奖。
 
6. 1999年鉴定通过了THOCR-99基于识别的原文重现自动电子出版物制作系统,是针对我国信息资源建设的急迫需求,解决我国已有出版物数字信息化的自动生产的问题。鉴定委员会认为:系统“为我国信息资源建设提供了一个高质、高效、规模化生产的工具,是一个有意义的创举。将有效解决数据重录、版式重排成本居高不下的困难,改变我国电子出版物的生产状态。上述基于识别的原文重现自动电子出版物制作系统作为一个整体居于国际领先水平。
 
7. 99年以来,一方面是新的进一步提高模式识别技术和识别性能,多体实际文本的汉字识别率达99%以上,较规则手写汉字识别率也可达98-99%,自由书写的手写汉字也可达90%以上,联机手写汉字识别率   ,这些研究结果说明我们汉字识别技术达到比较成熟的高水平。另一方面是将汉字识别技术在更广泛的有关国家政治生活和国民经济领域有效的推广应用,如在公安、税务、银行、出版等,以及在日常生活中,发挥重要作用。
 
    我们的技术不仅仅得到了专家的高度评价,并且,我们开发出的汉字识别领域的一系列产品,经受住了市场的考验,得到了消费者的认可。
 
    为了加速汉字识别研究成果的产品化和产业化过程,在国家科委的支持下,我们创建了我国第一家专门从事文字识别研发、销售和服务的清华文通信息技术公司,为我国文字识别技术由实验室走向市场、走向社会发挥了重要的作用。我们推出的清华OCR系列产品不仅在竞争激烈的国内市场上,占据了绝对的市场份额,还行销到国外市场,并且技术出口到如IBM、Motorola、HP、Nokia、Siemens等国际大公司,创出了我们中国人自己的知名技术品牌!
 
    十余年的奋斗,我们始终以服务于用户、服务于国民经济建设第一线为宗旨,牢牢把握市场消费动向,及时改进,满足用户需求。清华OCR多字体印刷汉字识别系统推向市场以来,从89年清华OCR1.0版本的推出, 2.0版本、2.5版本、3.0版本、3.5版本、4.0版本、4.5版本,…,差不多一年一次大的版本升级,直到最近推出的8.0版本,和专为电子出版的THOCR2000及其网络版本。我们始终坚持不断的听取用户意见,不断改进技术和产品质量,更好地服务于用户。
 
    十余年的奋斗,使汉字识别系统从无到有,使清华OCR从实验室的科研成果转化成深受用户欢迎、包括有汉字、英文、日文、韩文的优秀多文种识别系统,不仅在国内占有65%以上市场份额,更是推向了世界各地,成为同行业中的知名品牌。
 
    十余年的奋斗,使我们的研究成果和产品,从高质量的多文种的印刷文本识别系统、能适应连笔和笔顺无关的联机手写汉字识别系统(文通笔PC机和PDA版本)、高识别率的手写汉字和手写数字识别系统、到各种复杂的表格识别和申报系统等等,几乎覆盖了所有文字识别的领域。
 
    十余年的奋斗,我们深深的体会到:为解决信息时代的障碍,让中国人在信息时代畅行无阻的信念,给了我们克服困难无穷的力量;在开始时如此;在取得一定的成果后,往往根本不知道如何办才能进一步提高识别率和识别性能时,更是如此。
 
    我们要将理论和方法的研究,和实际的应用密切结合起来,直接地服务于国民经济建设的主战场,服务于社会,以中华富强为己任,为民族经济做贡献!
 
    成绩只能说明过去,在信息时代发展的剧烈竞争的今天,为为中华民族的伟大复兴和中国科技的发展,为了中国信息事业的进一步发展,“吾将迈步从头越”。期望在不久的将来,我们能够让所有的中国人,都可以在信息时代真正地做到畅行无阻!