丁晓青,清华大学教授、博士生导师。1962年,毕业于清华大学无线电电子学系,获优秀毕业生金质奖章并留校任教。长期从事智能图文信息处理、模式识别、图像处理、文字识别、生物特征识别、视频智能监控。先后荣获国家科技进步二等奖三次(2008、2003和1999年),国家科技进步三等奖一次(1992年),北京市科学技术一等奖一次(2006年),教育部科技进步一等奖两次,教委等部委科技进步二等奖五次、三等奖一次,95'全国电子十大科技成果奖及863计划先进个人奖等。有27项发明专利被授权。在FAT2004国际评测中获“全面最优人脸验证算法奖”。发表论文近600篇,合作专著5本(其中两本由World Scientific Publishing Co.Pte. Ltd.出版)。提出的“模式识别统一信息熵理论”对模式识别系统的设计有重要的指导作用,受到国内外学者的重视。多年来在汉字识别领域,取得了一系列国际领先的研究成果,并于1992年创立北京清华文通信息技术有限公同,成功地进行了科研成果转化和产业化推广。在最权威的人脸识别评测FRVT2006中达国际领先水平,推动了生物特征识别技术的发展和广泛应用。因研发国际领先的文字识别和生物特征识别技术和系统,被选为国际模式识别协会会士(IAPR Fellow)、国际电气和电子工程师协会终身会士(IEEE Life Fellow)。
访谈之前我们便获知,丁晓青教授带领清华大学智能图文信息处理研究室以图像识别为基础,采用统计学习方法一举攻克了文字识别领域识别性能无法满足实际应用需求的重大瓶颈问题,有效解决了已有文字无法输入计算机的时代难题。这是一条充满艰辛的攀登道路,最终成果斐然。作为一位女性学术带头人,她与其他数十位师生“持续卅余年,齐心奋力,在文字识别的理论和方法研讨上、在大规模印刷、联机和脱机手写汉字识别、中日韩、蒙藏维哈柯阿民族文字文档识别的研究上取得了国际领先的研究成果,并将研究成果在世界范围推广应用”,迄今为止,已鉴定通过文字识别相关研究成果13项。她本人以第一完参成与人荣获国家科技进步二等奖三次,分别为“THOCR-1997综合集成汉字识别系统”(1999年)、“高性能东方文字文档智能全信息数字化系统”(2003年)、“TH-ID人脸和笔迹生物特征身份识别认证系统”(2008年),以第二参与人荣获国家科技进步三等奖一项,即“多字体多字号印刷体汉字识别系统”(1992年);还获得20项省部级奖励……荣膺的奖项、表彰不胜枚举。
我们惊讶于丁晓青教授在文字识别和生物特征识别两大科研方向的多个领域均获殊荣,可谓是攻坚克难,百举百捷。如果将文字识别和生物特征识别两大科研方向比作令人仰望浩叹的两座山峰,那么,她历经艰险,最终攻克难题,堪称征服世界科研高峰的一位杰出的女性攀登者。我们不禁好奇:她究竟走过了怎样的人生跋涉之旅,她是如何攀登成功的?她的娓娓讲述解答了我们的疑问。
早年经历:书香门第蕴人才
丁晓青父母均为浙江大学教师,家庭属于典型的书香门第。抗战爆发后,高校纷纷迁移至大西南。除了西南联大之外,父母随浙大校长竺可桢带领的师生,辗转数千里,西迁贵州,丁晓青即出生在此。抗战胜利后,父亲从贵州返回家乡江苏,1949年解放之初又支援西北,任教于西北工学院物理教授(后扩展为西北工业大学)。刚满十岁的丁晓青跟随父亲来到陕西,初中就读于西安女中,她时常耳闻“女生不如男生”之偏见,很不服气,高中毅然考入了西安高级中学。1956年,她放弃了免试保送兰大物理系的资格,以优异成绩考入清华大学电机类,进入无线电技术专业。当年清华大学在陕西、宁夏、甘肃、新疆西北四省区总共录取了24名高中生。西安高级中学虽是陕西名校,但多年来也无人考入清华,那年却有两人被录取,她是其中之一。
1947年抗战胜利从贵州复原江浙后全家合影(时丁晓青8岁)
丁晓青兄弟姐妹八人,她排行第六。其中,有五人考上清华大学,但因经济条件所限,仅有三人入读清华:46年大哥考入浙江大学,毕业后入哈尔滨工业大学苏联专家研究班;48年二哥从浙大附中考上清华大学,但攻读上海交通大学航空系;50年三姐从浙大附中考上清华大学,可惜入读大连工学院,后转为军事通讯工程学院(西安电子科技大学),并以全班唯一最高军衔上尉毕业,是我国出色的雷达专家;55年五哥从镇江中学考进清华大学自动控制系;64年八妹也从西安考进清华无线电系。56年高考那年,丁晓青从西安高中报考清华也深受五哥影响,临考前她收到五哥的清华介绍和发来的五六张美丽的清华园照片,这成为了她报考清华的强大动力。抗美援朝时,全家有兄姊三人参军:有去军事通讯学校的姐姐、在镇江中学的四哥参军去后勤部和在上海交大航空系的二哥参军去了空军。一家年轻一辈,人才迭出,应归因于书香门第严谨治学的家庭熏陶。
清华留校:磨砺以须待勃发
从1956年秋开始了在清华大学六年半的学习生活。1960年无线电电子学系(1958年改称,亦简称“无线电系”)决定从1956年入学的无线电技术专业学生中抽调丁晓青、姚彦等十余人,组成新班(无208班),筹建量子电子学专业,瞄准当时世界科技前沿的铯原子钟、量子放大器等,学习量子运算、能级分裂、量子跃迁等内容,参加实验室建设,研制相关器件和设备。作为班里年龄最小的一个,她完成了在液氮环境下制作三泵频量子放大器(波长2.5cm,旨在利用低噪声提高雷达作用距离)的毕业设计。后她因选择了无线电技术专业留校而重新再做了一个毕业设计,故而延长半年毕业。在雷达教研组,她完成茅于海教授指定的研制雷达双工器(Duplex)系统毕业设计,将茅老师从美国带回的双工器配成系统。她从翻阅美国雷达丛书开始,理解雷达层次设计,布置、加工Duplex线路,结合雷达信号收发工作,反复实验测试,独立完成整套系统。短短一学期的时间,她推着从匈牙利进口的1176微波发生器,通过地面并不平整的过街楼,往返于在东主楼四楼九区的实验室与仪器室之间,最终毕业设计获得难得的5分好成绩。因平时仅一门4分外全部课程5分的优秀学习成绩,她顺理成章地获得了优秀毕业生金质奖章。在清华大学无线电系,她钻坚研微,吸收知识理论,培养学业技能,提高综合能力。特别是经历两次毕业设计,时间紧、难度大,她更锻炼出了不畏艰难的意志品质,养成了攻苦食淡的良好习惯。
毕业后,无线电系副系主任陆大䋮教授安排她留校担任3、4、5三个年级中的雷达专业学生班主任。1963年,她负责管理多个年级的学生,包括学生入党、因材施教、班干部培养、教学安排等繁复工作。1964年,她被派往顺义县衙门村参加“四清”。文革开始,在江西鲤鱼洲农场劳动近两年后,因电视教研组(图像教研组)归属留京单位(未迁往清华绵阳分校),她也随教研组直接返回北京。在北京这个她熟悉的第二故乡,此时“青阳逼岁除”,她勤奋探索,磨砺以须,耐心等待着学术春天的到来,期待着向科研高峰进发。
图像处理:基础工作夯厚基
1971年回京后,恢复被文革剥夺的专业学习权利而开始回归正业。电视教研组(图像教研组)以集成电路彩色电视机及电视中心设备的研制成为那时的主要工作,着手研制国内首创高频头、彩色接收机等。当年,全球计算机数字化风起云涌,电视教研组(图像教研组)将专业发展方向锁定为图像数字化。针对当时国产计算机TDJS 130、140,首先需要独立解决图像输入计算机及其数字化处理问题,着手设计、研制图像处理器。待到1978年底,改革开放的春风吹来,基础工作已得到相当的厚积。当年因欠缺高速AD变换器,清华无线电系葛成辉教授从美国分两次带回的64K的256×256存储器,这样,丁晓青就获得了组成存储器的四块电路板,她又设法购买了慢速AD变换器,研发成功了我国最早的小型计算机图像处理系统并转产。
时值微处理器(MicroProcessor)问世,这意味着微机的处理能力已超过当时国产计算机的运算能力。丁晓青果断决定在微机上直接尝试,于是和老师同学一起创建性地制作出国内最早的微处理器图像处理系统,实现将图像输入微机和微机图像处理,并顺利转产。在整个研制过程中,她领头开展业务,从零起步,起早贪黑,设计绘制逻辑图、线路图,焊接调试电路,与计算机接口相连接等。基于此,捕捉的信号便可进行计算机处理,这为日后的文字识别夯下了厚实的研究基础。
研发的微机图像处理系统 在微机处理系统上开始汉字识别的研究
文字识别:透出现象探奥窔
文字是人类文明的基石,汉字不仅是中华文化的重要载体,还是世界上唯一沿用至今的最古老文字系统。对于汉字书法艺术,东晋大书法家王羲之曾绘声绘色地描述道:“每作一波,常三过折,每作一竖,常隐锋而为之,每作一横,如列阵之排云……” 这在一方面展示出汉字书法艺术的璀璨瑰丽、博大精深;从另一方面,也勾勒出汉字笔法字体丰富多变的实际特征。
在信息化时代,文字信息数字化计算机处理对于人类文明发展更具特殊意义。具体地,将无处不在、无时不有的印刷或手书的文字文档介质信息,自动转变成计算机可阅读的电子文档,这是文字信息化的核心关键。但是,由于介质上的汉字字体不同,形态各异,字符类别巨大,字形结构复杂,众多汉字输入计算机成为汉字信息化的巨大障碍。不仅手工输入繁琐,计算机识别输入更是困难重重,这一历史最悠久的“活文字”,在信息化时代却正面临前所未有的“生存危机”。因此,国家863计划的一个重要课题是智能计算机主题,其中就有文字识别(OCR)。70年代初,留在北京的清华无线电系电视教研组(清华电子系图像教研组)在1986年前后,丁晓青与同事们决心投入攻克汉字输入壁垒的斗争,揭开了文字识别研究的序幕。虽然当时国际上已开展大量可应用于遥感技术、治疗癌症等领域的相关研究。丁晓青审时度势,做出判断:文字识别这一科研方向站得住脚,大有用武之地,具备独立研究的广阔空间。她决定,依托已掌握的图像处理系统的硬实力,及时转向这一极具战略前景、关系全民文化发展的重要方向。
我要评论 (网友评论仅供其表达个人看法,并不表明本站同意其观点或证实其描述)
全部评论 ( 条)