关于题库去重复的算法思考
当试题积累量到一定程度后试题去重就变得尤为重要,特别是在面向多网站搜集试题之后。但对于试题的去重却不是一件容易的事,如果要达到预期的满意效果去重甚至是一个行业性技术难题。
关于题库去重算法我们也在不断改善,提升去重效果,截止目前我们处理过的去重算法包括下面几种:
1、全字符匹配去重
这种去重算法是最大限度保留试题广度,对questions表的title字段进行去重,适用于有试题搜索功能的题库产品应用,能最大限度支持搜索需要的海量题库支撑。
2、全文本匹配去重
全文本匹配去重全部html标签,仅对questions表中的title,options_a,options_b,options_c,options_d,options_e,answer2,parse的文本进行去重,此操作会对试题进行比较大的过滤,可能会过滤掉一些本来不是重复的试题,适用于对试题质量要求较高的客户需求。
3、题干内容纯文本匹配去重
仅根据questions表中的title,options_a,options_b,options_c,options_d,options_e的字段去除html标签进行去重,对试题的重复过滤更彻底,得出来的试题质量更高。
4、根据相似度选题(开发中)
通过文本相似度检查,得到每一道题在题库中的最高相似度,相似度越高表示这道题重复的概率越高。
以上是目前学库宝关于试题去重的做法,大家可以根据自己的需要选择去重方式,选择适合自己的。