字体
关灯
上一页 章节目录 下一章 进书架
下载

请安装我们的客户端

终生免费,永无广告!

第9章完结

波教授的学生、专攻历史地理的暨南大学博士生魏超曾在2015~2016年访问CBDB一年,负责整理这本书的地名数据,按照适合的格式将有关内容整合到CBDB之中。[21]要进行这种工作,我们首先在这部书的电子版中提取地名数据,以实现唐代地名的数据化。我们利用了原书的表述格式判断地名的层级,又在计算机上编写了正则表达式(regular expressions)对书中有一定规律的内容进行批量提取和清理。正则表达式的作用是检索或抽取符合某些特定表达格式的文本,用事先定义好的一串字符和字符的组合来实行对字符串的过滤和提取。在完成地名的提取之后,接下来就要为提取出来的地名进行分级。地名的分级处理是建立在对唐代历史行政区划的理解之上的,务求达到规范,方便历史学者使用。《中国行政区划通史·唐代卷》在梳理唐代行政区划时,对每个府州县存在的时间年限都做了详细的考订,并附在相应的地名之后。之后的任务是以经纬度格式为地名登记地理坐标,为这些地名在计算机上的地图呈现做准备。

在我们处理《中国行政区划通史·唐代卷》之前,CBDB数据只包含2411个唐代地名,而在完成上述工作之后,数据库补充了6209条关于道州县地名的记录,其中包括地名、起讫时间、所属层级等方面信息。另外还有1693条关于羁縻州的记录。和前述《唐五代人交往诗索引》的相关工作原理类似的是,我们利用了计算机对书籍记载进行全面比对和检查,修订原书的一些瑕疵。例如,书中由于政区置废时间无法准确地考订,造成有些地名在时间上无法在隶属关系上匹配到某政区,我们都一一反馈给原作者,做出修订。通过以上工作,我们体会到不论是《唐五代人交往诗索引》还是《中国行政区划通史·唐代卷》,数据库结构对于这种含有大量系统性资料的工具书,适应性要比印刷媒介好,查找和复核资料的工作也比较容易在计算机上进行。

不想错过《唐宋历史评论.第三辑》更新?安装晋江文学城专用APP,作者更新立即推送!终生免费,永无广告!可换源阅读!

放弃 立即下载
上一页 章节目录 下一章 推荐票