社会焦点

Facebook反垃圾实践:人工治理与机器算法齐飞

字号+ 作者: 来源: 2017-03-22

Facebook反垃圾实践:人工治理与机器算法齐飞,日本垃圾分类视频,关于垃圾分类的资料,机器视觉算法与应用,中国垃圾分类现状

Facebook反垃圾实践:人工治理与机器算法齐飞

  网易云安全(易盾)团队编译

  2016年末,Facebook上的假新闻帮助特朗普胜选的消息,将这家社交网站推到一个尴尬的境地,迫使它上线一个“争议(Disputed)标签”功能,用来标记被认定为不准确的新闻。

  作为一家面向全球的社交平台,Facebook当前月活跃用户数达已达18.6亿人,其中包含各个年龄阶段的用户,这些用户每天都产生大量信息。为了保证用户体验,促进平台良性发展,Facebook通过技术手段和人工手段相结合的方式,针对内容本身和用户帐号进行识别,来实现反垃圾信息的目标。垃圾信息在不断变化,Facebook的反垃圾策略和技术系统也在不断升级。

Facebook反垃圾实践:人工治理与机器算法齐飞

  Facebook上的网络钓鱼攻击,2011年

  Facebook反垃圾策略

  制定反垃圾策略首先需要明确的是垃圾信息的定义。对于Facebook而言,无论恶意的广告、病毒、网络钓鱼,无聊/不受欢迎的骚扰,惊悚、恶作剧类的图文、视频,还是前文提到的虚假新闻,无论私信形式还是公开信息,都会影响网站的正常运营,可能是让用户不高兴,可能是让一些美国政治力量不高兴,这些都属于垃圾信息的范畴。

  从网站上每秒钟产生的海量信息中找出垃圾信息并实时过滤,这是最直接的办法,然而根据Facebook的活跃用户数,从需要的资源和效率来看,这种方法可能不是最优解,况且垃圾信息也会根据过滤规则不断升级,因而找出垃圾信息的难以改变的特征才是将其扼杀的最好依据,这正是Facebook反垃圾工作的核心。Facebook组建了Site Integrity团队专门负责这项工作。

  Facebook反垃圾的一个重要途径,就是识别和处理一些可疑帐号。Facebook认为,泄漏的(被钓鱼、中木马等)、伪造的(马甲帐号、垃圾帐号)以及滥用功能的(骚扰、营销)帐号,产生垃圾信息的三大根源。

  找到可疑帐号的一个方法,是通过异常行为检测,比如一个人发的同样类型评论非常多,所有评论里都包含一个相似链接,这就非常有问题。一般人不会在不同人的主页上发表一样的评论,这就是一种异常行为。Facebook网站上积累了大量的正常行为模式和异常行为模式,可以用于机器学习。

  作为一个社交平台,Facebook还充分发挥了人的力量,用户举报在垃圾信息的识别中占据了很重要的位置。用户举报也是缩短垃圾信息影响时间的一种方式 - 为了达成反垃圾策略的实时性、有效性,Facebook反垃圾系统的设计会采用各种机制来优化响应时间,并在策略制定时注意保护规则难以被攻击者破解。

  Immune系统:基于核心特征的技术对抗

  2011 年,Facebook 发表了一篇题为《Facebook Immune System》的论文,整体介绍了他们与垃圾信息之间的技术对抗。Immune系统的一个重要能力,是对垃圾信息的核心特征的识别,包括能够迅速识别新特征,并支持在线加入新特征、新模型以实现实时的反垃圾。

Facebook反垃圾实践:人工治理与机器算法齐飞

  上图为Facebook与垃圾信息的对抗流程,包括攻击、检测、防御、变异四个环节,又可以分为攻击者控制和防御者控制两大阶段。在攻击者控制阶段,系统还没有响应能力,攻击者可以发布大量的垃圾信息,受攻击对象都会受到垃圾信息的影响;在防御者控制阶段,垃圾信息才会受到控制。Immune系统要做的,是尽量缩短攻击者控制阶段的时间,延长防御者控制阶段的时间。变异环节可能时间很短,Facebook要在对抗中做到快速响应。

  实现快速响应有两个关键点:其一,所有的升级都是在线的,分类器服务和代表最新攻击的特征数据的提供,都不能是通过线下或者需要重新启动;其二,要以攻击者难以检测和变更的特征为目标。

  Facebook为Immune系统的设计归纳的设计原则如下:

  · 快速检测与响应;

  · 包含能够支持各种功能的可进化的接口;

  · 聊天、消息、信息墙(wall posts)、公共讨论和朋友请求等不同渠道之间的信号可以共享;

  · 可以实时分类。

  基于上述思想,Immune 系统设计架构图如下:

Facebook反垃圾实践:人工治理与机器算法齐飞

  Facebook Immune系统架构图

  Immune的主要组件包括:

  ? 分类器服务:分类器服务是一类接口,它们与抽象分类器接口之间建立网络联接。它们之间通过不同的机器学习算法,使用标准的面向对象的方法来实现的。实现的算法包括随机森林、SVM、逻辑回归、Boosting等。分类器服务始终在线,并且被设计为从不重新启动。

  ? 特征提取语言(FXL):FXL(Feature Extraction Language)是用于表达特征和规则的动态执行语言。FXL检查特征表达式,然后在线加载到分类器服务和特征追踪器中,无需重新启动服务。

  ? 动态模型加载:模型建立在特征之上,而这些特征都是基本的FXL表达式或其派生的表达式。同样地,模型在线加载到分类器服务,分类器服务或特征追踪器无需重新启动,并且许多分类器实现支持在线训练。

  ? 策略引擎:策略引擎将分类和特征结合起来表达业务逻辑和业务策略,并评估分类器的性能。策略是布尔值,由FXL表达式触发响应,在机器学习得到的分类和特征数据提供者之上执行。响应是系统操作,包括多种类型,例如阻止操作、要求身份验证质询和禁用帐号等。

  ? 特征回路(Floops):分类在特征提取期间生成各种信息和关联,Floops接收这些数据,将其聚合,并将其作为特征提供给分类器。Floops还包含用户反馈、来自爬虫程序的数据以及来自数据仓库的查询数据。

  Sigma 系统:编写策略手段升级

  Facebook的反垃圾技术也在不断的对抗中迭代。Facebook用于垃圾信息过滤和清理的规则引擎演进为Sigma系统,部署于2000多台服务器之上。该系统将规则和机器算法相结合,判断所有用户的评论、链接、朋友请求等行为是否正常,日均处理信息数量达百亿级。

转载请注明出处。


1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

相关文章