Facebook反垃圾实践：人工治理与机器算法齐飞(2)_

　　机器学习的一端，样本主要来自于用户行为，Sigma根据历史数据训练模型，预测某个行为/信息是否有问题，将有问题的行为/信息拦截或者删除。以朋友请求为例，Sigma有多重判断依据：第一，如果某个帐号之前发送的朋友请求都被拒绝，那么接下来他被拒绝的概率就非常高;第二，如果发出请求的帐号和请求的对象没有任何共同好友，那么请求不合理的概率也很高。策略也包含了处理方式，例如，对于非正常请求概率比较高的，让发送请求方进行手机短信验证，或者其他方式认证。

Facebook反垃圾实践：人工治理与机器算法齐飞

　　Facebook反垃圾规则引擎流程图

　　Sigma系统中，用于编写策略的语言，已经从之前的FXL切换为Haskell。Facebook认为，随着策略的扩展和策略复杂度的增加，FXL已经不能很好地表达这些策略了 - FXL缺乏合适的抽象，比如用户定义的数据类型和模块，并且基于解释器(Interpreter)的实现，性能慢于公司的需求，因而Facebook需要性能和表达能力更为成熟的编程语言。而Haskell是纯函数式强类型语言，能够确保策略不会发生意外的相互影响，同时Haskell具有自动批处理和并发数据获取、分钟级推送代码变更到生产环境(快速应用新策略)、性能和支持交互式开发(策略开发者能够马上看到结果)等优势。

Facebook反垃圾实践：人工治理与机器算法齐飞

　　规则引擎升级的设计需求

　　使用Haskell以后，Sigma系统每秒能够处理超过一百万个请求。这对Facebook及时部署新的反垃圾策略应对新出现的恶意行为很重要。

　　人的力量

　　Facebook此前也投入了专门负责内容过滤的团队，让他们不间断地监测新上传的内容，及时删除其中的一些垃圾信息，这些人主要来自外包公司。外界并不知道该团队目前的规模，然而Facebook重视用户举报是确凿的。通过举报、删除等反馈通道的建立，来缩短垃圾信息影响用户的时间。同时，这些行为也会为机器学习提供新的样本。

　　针对虚假新闻， Facebook已经推出工具，让每位用户都能便捷地给可疑内容打上“争议”标签，然后由真实性核查组织如Politifact、Snopes.com独立审查这些消息，根据结果决定保留还是去除“争议”标签。然而这个流程稍显冗长，给虚假新闻留下了一定的传播时间。除此之外，Facebook还在虚假新闻的治理方面投入专人，公司已经发出招聘公告，寻求一位拥有20年以上经验的新闻合作负责人，专门负责提升网站上的新闻质量。

　　Facebook采用了新闻流排序算法，通过机器学习(根据点赞、评论、分享等行为)预测用户对内容感兴趣的程度，决定其排序的权重，这在某种意义上说也是反垃圾，然而目前还没有Facebook用排序算法影响虚假新闻的消息，这与Facebook对虚假新闻的态度有关：让用户和第三方机构来甄别，不会官方标明某条消息的真伪。

　　小结

　　人力的方式，对于Facebook而言意味着很大的人力成本，同时对于审核人员的身体健康与心理素质也是一种考验。曾有外媒报道称，Facebook审查员工通常不到半年就离职。那么Facebook不断研发新的技术手段来提升反垃圾能力的动因就不难理解了。然而由于网站影响正常运营的垃圾信息日益复杂性，在这些垃圾信息消失之前，系统无法一劳永逸，技术对抗不会有终点，故而Facebook需要不断研发新的反垃圾技术，也需要人工来升级规则并提供样本优化系统的规则引擎。

　　编译说明：

　　社交是当前互联网产品的基本属性，垃圾信息对业务的伤害之深自不待言，机器算法的进步不仅为我们治理垃圾信息节约成本，更为我们对二次攻击的快速响应提供了便利。算法协助人必定是未来的趋势，当然这需要基于对业务的深刻理解而设计合理的规则和反垃圾系统才能实现，探索成本不菲，故而我们应该感谢Facebook如此慷慨、系统地分享了他们的经验。

　　事实上，网易云安全(易盾)在反垃圾系统设计方案、业务运行流程、算法技术、特征策略等方面，与Facebook有诸多不谋而合之处，尤其是在对抗中做到快速响应的理念，更是让网易云安全(易盾)团队心有戚戚焉。网易云安全(易盾)属于网易云系列场景化云服务之一，主要提供反垃圾、验证码、活动反作弊、注册保护、登录保护、应用加固等服务，其相关技术已经取得业内领先地位。由于支撑网易内部多个业务，网易云安全(易盾)也基于自己的技术改进和运营经验积累了亿级的特征库，并将内部经验服务化，希望可以帮助到大家打造纯净的互联网产品。

转载请注明出处。