一、通过提取联系信息的联系方式,建立联系方式黑名单
垃圾信息制造者无论IP如何变化,内容如何变化,联系方式是不变的。我们可以基于这点建立联系方式黑名单数据库。目前,中国最常用的通信方式是电话号码、QQ号码、网址、电子邮件地址等。这些都具有一定特征,容易通过正则表达式提取。
那么如何构建黑名单呢?如果一个信息被用户恶评了五次,那么该信息就被自动标记为恶评状态并隐藏。当一条信息被放在恶评中时,该恶评信息中的所有联系信息都被存储在黑名单数据库中,并且出现频率字段加1。这样,我们就有了联系信息的黑名单数据库。这个数据库有联系信息出现的频率和最新出现时间。除了用户投诉需要人工辨别之外,所有这些操作都是由机器自动进行的。
二、识别并删除异地商家信息
分类信息网站的特点之一是地方性,本地用户来到分类信息网站查看本地出租、朋友、服务等信息。因此,如果信息中有异地电话号码,则应将其看作垃圾信息处理。这可以通过手机归属地数据库和电话区号数据库来判断,但不是所有的类别都采用这种方法,比如交友、寻人等都不应该使用这种方法。但是,像二手车类别和服务类别完全可以用来这种方法过滤异地信息。
三、限制某些类别在同一天一个用户只能发布一条消息
重复的信息太多,对用户体验不好。这里重复信息的定义是指相同的用户或企业(包括企业雇佣的信息发布者)发布相同或相似的信息。这些类别包括生活服务、商务服务、培训、交友、车辆等。
四、关键字过滤
最后,不要忘记关键字过滤。一些有害和敏感的关键字必须被过滤掉。
以上这些方法是能够被分类信息网站采用的简单有效的反垃圾邮件信息的方法,如果能够用贝叶斯算法对垃圾邮件进行过滤,将是更完美的。