首页 > 头条 > 正文
数学考15分的钱锺书出了道计算机题,这些人研究了35年
11-18 07:39:47 来源:中国新闻周刊

中国新闻周刊消息,在因涉嫌“贪污罪”取保候审的五年中,栾贵明常常想起钱锺书1985年夏给他的那封信。

在信中,钱锺书告诫他,项目做好了,很多人会高兴,也有很多人会生气,他有可能成为众矢之的。钱锺书还要他十年之后再来看这封信。

出事时,时间刚好将近十年。

这个项目即“中国古典文献数据库”,现在叫“中国古典数字工程”。从1984年钱锺书布置这个任务,35年过去,栾贵明和稍后加入的田奕只干了这一件事,一直到今天。

由于资金缺乏,公司不断往西搬迁。现在的“扫叶”公司位于北京西南五环外房山区一处名为“扫叶园”的平房院落。“扫叶”之名源于一句行内话:校书如扫落叶。

田奕告诉《中国新闻周刊》,截至目前,已完成从太古时期到北宋之前中国古典文献的录入梳理工作,共计十亿多字。预计再过5年,可完成1912年之前主要文献典籍的数字化,工程总计15亿字。

忘年交

1964年9月一个周二的上午,在单位6号楼一楼大书库最后一排书架旁,栾贵明第一次见到了钱锺书。

当时,栾贵明刚从北京大学中文系古典文献专业毕业,分配到中国科学院哲学社会科学部(简称“学部”,为中国社科院前身)文学研究所。出于大学时代萌生的对钱锺书的景仰,他一来便到处打听哪里可以见到钱锺书,得到钱锺书来单位都会到书库看书的“情报”。

栾贵明记得,钱锺书当时看的是一部不引人注意的书《丛书集成》。他过去打招呼,简要地做了自我介绍。令他意外的是,钱对他的家世并不陌生。

栾贵明是世家子弟,外公家曾有很多产业,包括颇有名气的北京双合盛啤酒厂,他上高中时就开始协助外婆打理家产。钱锺书认识他的舅舅、研究茅盾的王积贤。

从那时起,栾贵明常帮钱锺书做一些琐事,如从所里借书、带信、取工资、报销医药费等,两人逐渐成了忘年交。

1972年3月,钱锺书从河南“五七”干校回京后,开始写作《管锥编》。他对书籍的需求量很大,栾贵明用钢管和钢板焊了一辆车,为他运书。

曾担任社科院副秘书长的杨润时说,当时京城世家子弟中有一批“玩家”,栾贵明身上就有这种“玩家”风范。他爱捣鼓半导体收音机、电视机等,虽然外观简陋,却可听可看;还自学成才,成为学部第一个持有国家颁发的证件的放映员。渐渐地,在上世纪六七十年代的学部,许多人都知道栾贵明是个爱“玩”且能“玩”出一些名堂的人。

数学15分的人出的计算机题

1982年,在胡乔木的力邀下,钱锺书出任社科院副院长,但条件是不分管行政工作,也不要办公室和工作人员。

当时,钱锺书已开始《宋诗纪事》的研究。这是一部清代人整理的宋代诗集,他计划在其作者厉鹗的基础上修正补足,形成《宋诗纪事补正》。在他的指导下,栾贵明利用下班后的时间,进行具体编辑与整理。

做了两年,栾贵明发现,这项工作需要做宋代3800多位诗人的补遗工作,工程量巨大。比如在一处发现了某一句诗,就要人工拿这句诗到这位作者的作品集里去查。作品少还好办,像陆游有一万多首诗,查找起来就很困难。钱锺书对工作的进展很不满意,时常说做得“太单薄”。栾贵明提出从所里增加两个人过来一起做,但被拒绝。

1984年的一天,他去钱锺书家时,钱锺书告诉他,给他找了一个“好工具”:计算机。他问,什么叫计算机?钱锺书把女儿钱瑗叫了过来,钱瑗开玩笑地说:“什么机密都透露给别人。”

原来,钱瑗不久前才从英国做访问学者回国,有次向钱锺书提起,英国学者在用计算机辅助研究莎士比亚戏剧。这让钱锺书想到,中国也可以用计算机来研究古籍。

他让栾贵明放下手边的工作,先研究计算机,还当场拿出8000元交给他。当时钱锺书每月工资为365元,杨绛的工资稍少一些。

栾贵明说,钱锺书跟他说的事,在他那里从不过夜。他从钱锺书位于北京西三环南沙沟的家出来,就骑车沿着三环一路寻找哪里有计算机卖。

也巧了,骑到东三环,在人民日报社附近的路口,他看到保定计算机厂正在举办一个小规模的计算机展销会,就进去细问了半天,并留下了联系方式。当晚他到家时,厂家的推销人员已经坐在他家楼梯上等着了。

双方达成协议,计算机可以先免费试用。那时还没有PC机,这是一台苹果机,硬盘只有10兆,售价五六万元,就放在他家里。

栾贵明向钱锺书报告借到了计算机,并把8000元还了回去。他把计算机说明书给钱锺书看,钱锺书嫌中文翻译得不好,直接读的英文原文。

栾贵明回忆,社科院很多人都有过疑惑,说钱先生一个数学只考15分的人怎么可能想出一个关于计算机的项目?栾贵明说,真正做过文献整理的人,太知道计算机是可以帮助他的。

1984年至1985年间,栾贵明自己买书,自学了计算机basic语言。因为钱锺书说,不会德文怎么研究马克思主义,不会文言文怎么研究中国古典文化?计算机技术如同工具,不能找别人帮忙,必须自己学。

在他对计算机渐渐摸索出门道后,钱锺书布置他,用计算机录入《论语》。

栾贵明告诉《中国新闻周刊》,一开始并不知道计算机可以用来做《宋诗纪事补正》,后来随着录入文献的增多,才有了条件做这件事,这是一个逐步认识的过程。但利用计算机研究中国古典文献,有一些文献是一定要录入的,《论语》就是其一。

搞电脑的一个大问题是烧钱。存储代码的软盘一张30元,性能不稳,很容易损坏。电费也成为每月的大额支出。栾贵明一个月工资60元,时常感到经济上的压力。

虽然他都是利用晚上时间在家做,但文学所的同事渐渐听说了,有时会拜托他查找《论语》的资料。

1985年夏天,时任文学所所长的刘再复和党委书记朱寨一同来到栾贵明家中,一再劝说他把这个项目转到所里,作为所里的计算机室。栾贵明给钱锺书打电话,钱锺书让他答应了吧,还开玩笑说:“你背叛了我。”

隔了一天,栾贵明在院里收到钱锺书给他的信。这就是那封让他十年后再重看的信。

信中写道:“昨得电话,我为你欣兴,我当初对你说此事若你一个人干,能力不够,拼了命亦难如愿。此事若出官,一定不让你带头,只让你镶边,你得把你辛苦得来的一些积累交公。果然不出我所料,因为你的牌子不够领衔,而这桩买卖又是大好招牌,你和我一样只是亲自动手的小工,不是组织人事、支配财务、发号运筹的大帅。我已修行多年,可以挂名,你还得当苦力呢。”

钱锺书亲自为这个项目命名为“中国古典文献数据库”。

所里把社科院大楼一层的一个房间拨给栾贵明,作为计算机室的办公用房。从保定计算机厂借的电脑,也由所里支付购买,并添了设备。

计算机室开始招兵买马。第一批14人,几乎都是高中毕业生,并非社科院正式职工,开始时连合同工都算不上,只是“学员”。

整个计算机室没有一个计算机专业毕业生,都是栾贵明带头研究,计算机室的人跟着学。栾贵明几乎吃住在计算机室,曾经在计算机前连续工作40多个小时,以致手足僵直,最后只能被人从椅子上抬下来,放到床上休息。

钱锺书还亲自为栾贵明挑选了一位助手。

1986年初春的一个上午,他和杨绛一起来到计算机室,让栾贵明把新招的学员找来,与他们分别谈话。当晚,他向栾贵明描述了一个学员的外貌和衣着特征。这个学员就是田奕。

田奕高中毕业时由于生病,没有参加成高考,在社会上打零工。当时《光明日报》办了一个十天左右的计算机培训班,她出于兴趣前去听课。栾贵明也被请来在这个班上授课,她从而得知了社科院的计算机室在招人的消息。

田奕向《中国新闻周刊》回忆,当天钱锺书一身英国绅士打扮,戴一条白色围巾。时至今日,她仍然清楚地记得两件事。一是握手时,钱锺书的手像面条一样软。她后来常去钱锺书家,与钱锺书和杨绛渐渐熟悉,杨绛开玩笑说这是由于钱锺书“十指不沾阳春水”。

二是钱锺书的皮鞋特别好看,是棕色的,上面还有花纹,泛着皮革自带的光泽。田奕后来知道这是钱瑗在意大利给他买的。钱锺书逝世后,杨绛特意把这双皮鞋赠给她留作纪念。

谈话时,杨绛没有说话,都是钱锺书在问问题。谈话内容田奕不记得了,只记得很快就谈完了。

钱锺书告诉栾贵明的是:“聪明的孩子容易不可靠,可靠的孩子容易不聪明,这两个优点她都有,她会帮咱们把这个项目完成的。”

“你们是裁缝,不是外科医生”

钱锺书不肯担任任何单位的“顾问”,唯独计算机室例外。他戏称,计算机室的年轻人是他的“孩儿们”。

他来院里开会,常常先到计算机室落脚。每年过生日收到很多蛋糕和鲜花,都叫出租车送来计算机室,或让学生去他家取,鲜花插瓶,蛋糕分吃掉。

研究规范、规划和方案,都是钱锺书亲自制订的。

80年代中期,使用繁体字是一个敏感的事情,但钱锺书要求他们尊重著作原貌,必须使用繁体字。

先前录入《论语》时,栾贵明使用的是计算机自带的输入法,缺字严重。他们搜罗了近十个中文输入系统的资料,请钱锺书选定,钱锺书敲定了台湾的朱邦复创制的“仓颉输入法”。

这种输入法以字首笔作为分类,字身作为补充,可以随时添加新字。钱锺书给了栾贵明一万余元,购买了仓颉输入法硬卡。到现在,“中国古典数字工程”一直在使用这种输入法。

在仓颉输入法的框架下,他们研制出了有近3万汉字并具有繁体字自动生成功能的“全汉字库”。

钱锺书要求,数据库仅收录中华民国建立之前的古籍。他提出,打破经史子集的传统分类,用作者统揽作品,这在古籍整理领域是一种创举。

他还亲自指定了录入所使用的文献底本。他认为,受时代局限和政治考量的影响,乾隆年间完成的文渊阁本《四库全书》有很多不准确和遗漏之处,因此要避免采用。在《全唐诗》版本的选择上,他指定使用乾隆年间江南诗局的原刊本。

在《史记》版本的选择上,则使用张元济编的百衲本中的宋本。钱锺书认为这些版本收录全面,也更准确,同时能避免侵中华书局的权。而当时社会上普遍还没有版权意识,《中华人民共和国著作权法》要到1990年才首次颁布。

慎用现代汉语中的标点符号,正文和后人的注释不得混淆,也是一大规范。钱锺书告诫研究小组:“你们是裁缝,只能是量体裁衣,不能做外科医生。”

1986年,栾贵明和团队返工重新录入了一遍《论语》。第一部使用电脑编制的《论语数据库》于1987年由人民日报出版社正式出版,钱锺书题写了书名。

钱锺书为栾贵明修改该书“前言”时,写下一段评论:“有了纸墨笔砚‘文房四宝’,准还有人用刀笔和竹简;有了汽车、飞机、电报电话,也还有不惜体力和时间的保守者。对新事物的抗拒是历史上常有的现象,抗拒新事物到头来的失败也是历史常给人的教训。”

根据先“文”(《论语》)、后“诗”、再“经”的顺序,钱锺书给研究小组布置的第二项任务是《全唐诗》。

比起《论语》,《全唐诗》可谓浩如烟海,需要增加设备和录入人员,这些都需要经费。栾贵明找所里,所里解决不了;找院里,院里也不能立项。他一遍遍跑院科研局,局长王焕宇下决心冒一次风险,同意从院科研经费中拨出10万元,以借款方式给栾贵明,并约定了还款时间。

研究小组花了近三年时间,录入了27册《全唐诗》的全部正文、异文、补遗和注文,经11次校对,于1988年发布了《全唐诗数据库》。

通过运算,《全唐诗数据库》判定全唐诗共有53035首、作者3276位,订正了4万多首和两千多人的传统说法。

1988年10月的一天,栾贵明到院办公室找当时分管人事的社科院副秘书长兼新闻发言人杨润时,请求以新闻发布会形式向社会公布《全唐诗数据库》成果。并说明,此前曾向院科研局借款10万元,计算机室现有设备足可抵顶这10万元,要求以实物还账,然后把计算机室人员遣散。

杨润时听后,觉得“借款搞科研”在中国社会科学院闻所未闻,也不合规,“拆庙还债”更令人啼笑皆非,表示要先了解情况再说。

经过调查,他核实了栾贵明所说的情况,感到现在的关键是要对《全唐诗数据库》作出评估。他向时任社科院院长胡绳和常务副院长丁伟志报告后,邀请中科院计算所的专家和古典文献研究方面的学者,组织了评估会。

评估会上,一位红学家要求当场检索《全唐诗》中有没有出现过“红楼梦”一词、出现过几次。两分钟后,计算机给出答案:总字数达340余万字的《全唐诗》中,“红楼梦”曾在472卷中蔡京的《咏子规》出现:“凝成紫塞风前泪,惊破红楼梦里心。”

有老学者兴奋地说,做学术研究时,查书抄卡片是件很辛苦的事,所以常有“皓首穷经”的感慨。有了这种数据库,等于大大延长了科研人员的学术生命。大家认为,如果数据库广泛应用,社会科学研究在手段、工具、方式等方面会发生革命性变化。

1989年3月下旬,“中国古典文献计算机处理技术成果”新闻发布会在社科院学术报告厅举行,各大媒体都发了消息。按照钱锺书的要求,他与数据库的关系完全未被提及,他也没有对数据库作出公开评论。杨润时后来猜想,那是为了避免把关注的目光转移到他的身上。

直到两个月后,钱锺书才给杨润时写了一封信,对这一“可喜的成果”表示祝贺,对院领导的支持表示感谢。信中写道:“作为一个对《全唐诗》有兴趣的人,我经常感到寻检词句的困难,对于这个成果提供的绝大便利,更有由衷的欣悦。这是人工知能在中国古典文学研究上的重要贡献。”

5月下旬,在院长胡绳的主持下,社科院初步议定,把当时属于文学研究所的计算机室改建为院计算机室,同时把这一项目确立为院重点科研项目。

那段时间,计算机室上电视,参加广交会,被海外媒体报道。1990年,“中国古典文献计算机处理技术”被授予国家科技进步三等奖,这是社科院的人文学科研究成果第一次获此奖项,是一个非常有分量的奖项。

杨润时告诉《中国新闻周刊》,在80年代,“三论”(控制论、系统论、信息论)可说是一种学术时尚。胡乔木担任社科院院长时就作过指示,鼓励用“三论”丰富和改进社会科学研究方法。因此,社科院领导对这个项目一直是支持的。1989年清查考察小组进驻后,对项目的支持也没有改变。

1990年底,中国社会科学院计算机室正式组建,栾贵明为该室主任。田奕以《全宋词数据库》的研究通过了论文答辩,获得社科院中文系古典专业硕士学位。一直在计算机室工作的17名学员陆续转为了社科院正式职工,在转正名额极少的情况下,令社科院各处室感到“震动”。

那阵子,小小计算机室天天洋溢着过节的气氛。没有人能想到,一场灭顶之灾正向他们扑来。

“我把栾贵明托付给你了”

社科院计算机室组建后,院里加大了投入,拨付了数额较大的经费。栾贵明不满于个别领导在购买设备等事情上有侵占行为,忍不住跟钱锺书提起,钱锺书严命他如实向院领导汇报,并亲自起草了举报信底稿。

1988年,田奕(左四)等在 社科院文学所计算机室。 图/受访者提供

杨润时提起这事,深为栾贵明没有事先告知他而遗憾。他感慨,栾贵明是一块硬骨头,但缺乏一点必要的变通;钱锺书是一位大学问家,同时也书生气十足。

钱锺书和栾贵明意识不到的是,在当时的环境下,举报被认为是别有用心的,是对着清查考察小组而来的。社科院随即开展了财务大检查,计算机室被列为重点查处对象。

每一笔钱都被摊开来审查。1992年8月,上海教育出版社出版了署名为周振甫、冀勤编著的《钱锺书〈谈艺录〉读本》。钱锺书不满自己的作品被任意出版,不想要稿费,但退又退不回去,就把现金放在一个信封里,写上“中国社会科学院计算机室主任栾贵明收”,由计算机室一个工作人员取去。

栾贵明大致记得是几千块,但具体多少他没过问,说不出准确数字来。查账的人质疑,钱锺书的稿费一定多于账目上的金额,是不是栾贵明个人贪污了?但找不出证据。

院内财务检查没有查出问题,又从外面找会计师事务所来查,仍然查不出来,最后动用了司法的力量。

1993年七八月间的一天,栾贵明和田奕突然被北京市东城区检察院传唤。计算机室被彻底搜查,书籍、软件、现金、存折等一应物品被扣押,栾贵明和田奕也在接受传讯后被取保候审。

9月,杨润时调往最高人民法院,担任最高院研究室主任(后担任了最高院审判委员会委员)。年底,获知钱锺书因肾病做手术后在北京医院住院,他即去探望。

两人交谈了半个多小时。钱锺书兴致很高,但杨润时怕打扰太久,遂起身告别。钱锺书从沙发上站起来,拉着他的手神色凝重地说:“栾贵明的事情我管不动了。我把栾贵明托付给你了。”听到这样的话,杨润时心血上涌,竟一时语塞。

走到病房门口,钱锺书又拉住他的手,一字一句地说:“我把栾贵明托付给你了。来,我们拥抱一下告别。”

杨绛送杨润时出去时感慨:“锺书很少用这种方式与人告别,今天我都有点意外,他这真是对你郑重嘱托啊。”

杨润时没有忘记钱锺书这份沉重的嘱托。在办案期间,他以知情者的身份详实介绍了自己所经手部分的来龙去脉。他郑重表示:如果把一个无罪的人搞成有罪,这个后果将是很严重的。

最终,1998年5月中旬,法院下达了无罪判决书。

栾贵明赶到北京医院,把这个消息告诉了钱锺书。钱锺书自1997年夏手术后失语,听到这个判决结果时,流下了眼泪。

1998年10月,钱锺书在医院病床上过完了八十八岁米寿,两个月后去世。

也是在判决书下达后,刚从社科院院长任上退下来的胡绳把杨润时找到家中。他说,他一直关注着此事,但限于当时的情况(胡绳1990年后不再担任社科院党组书记一职),不便发表意见,现在真相清楚了,法院有判决了,应当总结一下这件事的教训。

胡绳还说,得知栾贵明申请提前退休受阻后,他给社科院主持工作的领导写了一封信,大意是,栾贵明及计算机室一案是他任院长期间院内发生的一起最突出的冤案,心颇为之不安,希望准予并处理好栾贵明退休的事,如有牵连的人也望妥善处理。

杨润时说,自己从担任社科院办公厅主任到副秘书长,在胡绳身边工作了九年多,还从未听到他用这样沉重的语言评价一件涉及知识分子政策的个案。

2000年7月,栾贵明终于被批准提前退休,田奕也办理了退职手续,两人分别受到了行政记过和行政记大过的处分。

曾经红红火火的社科院计算机室就此作鸟兽散。

扫叶都净

在社科院期间,“中国古典文献数据库”项目吸引了一些海内外学者的密切关注,不断有人表示愿意提供经费支持或进行合作,其中就有“仓颉输入法”的发明者朱邦复。

在朱邦复的牵线搭桥和香港文化传信集团主席张伟东的邀请下,研究小组进入香港文化传信集团,项目也更名为“中国古典数字工程”。

《宋诗纪事补正》也终于在1999年3月出版,杨绛为这部书题写了书名。

2007年,香港文化传信集团高层发生人事变动,新任董事会决定不再继续出资支持这一工程,栾贵明和田奕不得不离开集团。

二人共同自筹10万元,在2007年成立了“北京扫叶科技文化公司”,田奕为法人,栾贵明为股东。

扫叶公司出的每本书中,都印有钱锺书在《管锥编》序中的几句话:“拾穗靡遗,扫叶都净,网罗理董,俾求全征献,名实相符,犹有待于不耻支离事业之学士焉。”

栾贵明认为,这就是钱锺书的文化态度:中国文化是由众多个体共同建立起来的,这些人的作品散落在典籍的各个角落里,犹如落叶;整理古籍就是要把这些碎片收集起来,如扫落叶,不能有遗。

公司办公室是田奕带领员工自行设计盖起的,像一座农家小院,树木茂密,花园中栽满了朋友送的各式月季,其中不乏珍贵品种。书房里存放着钱锺书的亲笔手稿、书法、信件。围墙低矮,还养狗以防盗。

田奕曾想过各种办法“开源节流”。公司曾养过一千只鸡,每日卖鸡蛋,销路很好。

近期,由于公司所使用的土地被规划为绿化用地,公司面临着又一次搬迁。

扫叶公司顾问范业强和寒小风等人长期协助田奕进行公司运营。他们向《中国新闻周刊》透露,公司今年夏天得到来自南京一家企业的投资,实力将大大增强。

这个中国典籍的基础性工程已逐渐成形,包括钱锺书提出的“四大库”(人名库、地名库、日历库和作品库)以及团队后来开发的“五附加库”(工具库、图片库、地图库、类书收藏库和数据汇编库)。其中,“日历库”逐日编辑了中国五千多年历史的每一天,标注帝号、年、干支,及其对应的公元年月日等。

作为成果之一的《中国古典数字工程丛书》,2013年起由新世界出版社出版。新世界出版社编委会副主任张世林告诉《中国新闻周刊》,出版社看中的正是书稿中很多内容属于首次披露这一特点。

他举《老子集》为例。人们只知道老子的《道德经》,全文五千言,而《老子集》收录的老子言论多达六七万言,多出来的就是利用计算机技术从海量古籍中收集、整理而来的。

目前数据库还未对公众开放,除推出出版物外,仅为一些高层次研究者提供资料查询便利。北京市社会科学院历史研究所研究员、文献学家钟少华就是一位免费用户。他告诉《中国新闻周刊》,这个数据库内容的准确度是目前所有古籍数据库中最令人放心的。

田奕认为,将来商业化是一定的,但首先要有良好的合作伙伴和商业模式。“钱先生对我们的影响就是,待在我们这个院里的年轻人都能静下心来,不受外界诱惑地做这么辛苦的事,这很不简单。”

栾贵明说:“钱先生曾对我说:我该说的都说了,不能陪你们到底了,你们将来会遇到很多困难,但是遇到困难时你们总能想到解决问题的办法,也自然会有天兵天将来助你们。”

他说,钱锺书交待的这个活儿确实是一件累活,但他必须遵命,用余生把这个作业完成。

原标题:数学考15分的钱锺书出了道计算机题,这些人研究了35年

【免责声明】上游新闻客户端未标有“来源:上游新闻-重庆晨报”或“上游新闻LOGO、水印的文字、图片、音频视频等稿件均为转载稿。如转载稿涉及版权等问题,请与上游新闻联系。

  • 头条
  • 重庆
  • 悦读
  • 人物
  • 财富
点击进入频道

本周热榜

汽车

教育

美家

楼市

视频