由于相关科技在近年发展相当迅速,而且可以不断加入更多训练样本来改良机器的学习能力,因此我们相信机器分析古文献并从中提取有用信息的做法将越来越有价值。进行数据化的过程中,也会发现新的学术问题,例如是对同名人物的大批消歧。
除了本文介绍的数据化工作,CBDB项目组同时进行许多其他朝代史料的收录和处理工作,例如宋代登科录、宋至清代的地方志、清代的朱卷资料中的人物信息等。只要CBDB项目仍有足够的资源,就会不断增加新的资料,务求更全面、系统地收录中国历史人物的信息。长期以来,CBDB的宋人资料被认为是相当丰富的,但对其他断代资料的收录情形则不尽理想。在本文介绍的唐代项目和其他朝代的工作逐步完成以后,这种状况一定会改变。
CBDB尽管从创立至今已有不短的历史,但仍处于开发完善之中。它收录的资料、数据结构和使用方式等方面都处于变动之中,需要通过与用户的不断交流来取得进步。事实上,目前从用户反馈来看,无论是线上版还是单机版,CBDB的一些操作还不够方便易用,造成使用上的障碍。不少用户认为,在数据库中查找人物资料时进行基本检索不难,但要处理更复杂的检索或利用数据进行分析,则技术门槛过高,需要进行系统的学习,容易令人却步。为了减少这方面的障碍,CBDB项目组正致力改进数据库的操作方式。具体做法包括把作业环境转移到MySQL数据库管理系统,让数据的查询变得更加人性化。