其次是处理关于官名表的工作,目前仍在进行中。·狐?恋\雯/穴, .埂^辛.醉¨全′在项目开始之前,CBDB共登记了2411个唐代官名。在收录前述各种人物资料时,我们收集到大批职官名称,在官名表中统一登记。这些官名在数据库中被一一归类,系于职官架构之下。这样做是为了让用户以任何一个分层来查询,都可以找到人物的任官资料。目前这一架构有390个分类,基本涵盖了唐代官制的所有方面。
结语
综合以上,通过近年对多种唐人资料进行的数据化工作可见,CBDB项目的建设不只是技术工作。由于这项工作需要一定的研究基础,所以它和学术研究紧密结合。实际上,这些数据化工作是信息时代史学研究工作的一种体现,我们在其中大量借助了计算机科技,以提高处理历史资料的效率和准确度。其中也利用了学界对唐代研究的既有成果,是建立在前辈学者的耕耘之上的。不管是哈佛大学还是北京大学的年轻文史学者都参与进来,为资料的处理和考订贡献力量。所以,CBDB对唐人资料的数据化可说是几代历史专家成果的结晶。傅璇琮先生曾在《唐五代人物传记资料综合索引》的前言中提出,只要把记载唐代人物的史料一一汇聚,加以合理的编排,“我们就将有一个网罗全局的唐代人物的材料库”[22]。~微*趣¢晓!税*蛧′ _首,发+虽然CBDB并不是史料全文的数据库,但从方便学者查阅人物传记事迹的目标来讲,CBDB近年进行的唐代项目可以说是继承了傅先生的这个宏大构想。而且,CBDB和《唐五代人物传记资料综合索引》一样,既是便利学者的研究工具,又是推动研究的综合性成果。在发展CBDB的过程中,我们坚信历史人物资料的数据化会带来学术创新。过去学界讨论的许多唐代现象,都可以利用数据来重新检讨,作为讨论的其中一个角度。和学术价值同等重要的是数据的开放性。我们处理的数据是在CBDB网站上免费公开的,任何学者都可以下载使用或在线上查询,用于学术研究。
不过,在更普遍地使用数据库之余,学者们也纷纷认识到数字化研究工具的局限。从学术史更长远的角度来看,在史学研究中使用数据库终究是一件新事物。当人们能在短时间内查找出大量历史材料,我们作为历史学者惯常用的其他研究技艺的重要性不但没有减低,反而是加强了。.咸,鱼\墈!书, ?追.罪.辛^璋-劫?CBDB管理委员会的成员之一、北京大学的邓小南老师做过以下呼吁:“在大数据时代,数据库的广泛应用降低了史料收集的难度,但同时也对历史学者的素质提出了更高要求:既然不能仅靠对史料的熟悉夺得先机,那么,对史料辨析与追问能力的重要性自然就凸显出来。我们应清醒认识到,数据库只是助力研究深化的途径,历史研究不能满足于表层文本的提取和简易的攒凑式结论,深入的研究还要靠阅读体悟、史料辨析,要十分警惕急功近利氛围下历史研究的‘表浅化’倾向。”[23]这样的提醒,正好点出在计算机技术发挥重大影响的新时代背景下,必须提升辨析史料的能力,才能避免肤浅地利用数据库,充分发挥使用资料库的优势。CBDB著录的只是信息,史料隐含的意义往往需要学者深思才能充分诠释,不是单凭查询数据库就能解决的。
当项目在2018年完成之后,CBDB将会增加大量唐代人物的传记信息。不过单就唐代而言,仍有不少资料值得继续补充。从本文的介绍不难观察到,我们在这三年里的工作模式是集中格式化处理经过前辈学者考证、整理的人物资料,而不是从浩如烟海的原始资料里逐条检阅处理。这种工作模式的好处在于可以比较有系统、有效率地处理大批资料,可以在几年之内涵盖大部分重要的唐代人物信息。但其存在的问题是,数据库中人物传记信息的深度还有待加强。我们已经把处理一系列关于唐史的历史文献和研究成果列入工作计划,例如严耕望先生的《唐仆尚丞郎表》和戴伟华先生的《唐方镇文职僚佐考》[24],都已完成前期准备,完成了两部书的大部分录入工作。以后完全录入的时候,可以系统地补充CBDB中唐代尚书省职官和方镇幕府人员的信息。
在新资料以外,我们项目组还会继续探索用相对前沿的计算机方法处理历史文献,丰富CBDB的数据。其中一项工作是利用机器学习的方法,逐步训练计算机判断古籍文本中人物之间的关系,例如《旧唐书》中列传的记载,以便加入CBDB的“社会关系”信息。这种机器学习的技术未完全成熟,但