TSec技术奖议题出炉：悲观主义影响下的 AI WAF 能否拟合理想的安全边界？

2018-9-17 12:35:39

“面对现今愈演愈烈的安全威胁，越来越多的人已经放弃‘银弹’思维，并不期望什么灵丹妙药可以解决所有安全问题，而是非常务实地‘每天进步1%’，并不幻想在某一天突然达到完美的状态。”

RSA总裁在今年大会上的全新论调正在各种安全场景中得到验证。在CSS2018腾讯安全探索论坛（TSec）的现场，腾讯安全云鼎实验室高级安全研究员刘少东分享的《另辟蹊径，更智能更安全的 AI WAF 》，凭借对机器学习技术的深度理解和 AI 在网站应用防护系统的创新实践，获得CSS2018腾讯安全探索论坛技术奖。刘少东在议题分享中表示，基于悲观主义理念设计的AI WAF无法做到一开始就保护所有的网站数据安全，它需要采用严格的标准模型不断学习，以迎合用户业务的安全边界。但其具备更友好、更安全的结构设计和防御效果，已正在成为未来网站防御的发展方向。

（腾讯安全云鼎实验室高级安全研究员刘少东）

乐观的防御意识：防护规则理想化引起误报漏报等困境

在网站防护的过程中，安全从业者一直致力于制定合理的规则以划定安全边界来防御恶意请求。刘少东在分享中表示，“我们希望这个边界和 Web 服务理想的安全边界越来越重合，这样的话攻击就会被抵御在边界之外，但实际上安全边界并没有那么理想。”当 WAF 的安全边界大于 Web 服务理想的安全边界时，即会出现漏报恶意请求；而当 WAF 安全边界仅能覆盖部分 Web 服务理想的安全边界时，漏报和误报的情况将会同时出现。

乐观主义的防御意识认为，在对攻击进行分析后制定的规则或语义能够应用于不同的业务场景，并实现有效防御。但往往事与愿违，在此意识下制定的防御策略和手法虽然能抵御常见攻击，但对不同应用场景下的实际运维适应能力有限。这类策略往往由 WAF 厂商主导，被简单地划分为宽松、标准、严格三个等级，用户在有限的模式中选择一种最适合自己的模式。在实际使用中用户常选择误报最少的模式，与此同时也产生了大量漏报，且用户对此无法感知。

此外，不同用户共享统一的规则和语义无法针对用户的业务特点实现有效防御。电商、论坛等在处理业务时会采取不同的载荷设计和框架，其业务的变化也给 WAF 造成困难和挑战。

值得一提的是，随着漏洞的迅速增加，规则的数量也在不断增长。但新增规则需要考虑其是否能够结合或适应已有规则，且数量繁多的规则导致维护成本高涨。

悲观的设计理念： AI WAF 自学习自进化不断训练引擎

随着恶意请求呈几何倍数增长，乐观主义影响下的防御策略已经无法抵御网站攻击。网站安全人员开始设计基于悲观主义的 AI WAF，即 WAF 无法做到一开始就保护所有的网站数据安全，它需要采用严格的标准模型不断学习，以迎合用户业务的安全边界。

在 AI WAF 的实践中，外部请求经由 WAF 节点，在数据旁路中通过数据采集和数据清洗后，在异常检测模型训练器和威胁检测模型训练器中训练引擎。同时，在线业务通过异常模型和威胁模型进行关联，并支持动态反馈机制，即请求经过训练器后动态更新至模型中再对新的请求进行检测。

其中，异常检测结合了专家知识以及无监督的HMM模型进行检测。该模块是非必备模块，允许一定弹性空间，偏向于低漏报高误报倾向设计。即使存在一定误报，后续的威胁检测模块会进行二次检测。其中HMM模型提及到了诸多工业实践的tricks，例如采取了更加适合的k-means进行学习训练，HMM的很多参数设计上采用了一些启发式的策略使得模型精准度更高。

威胁检测模块结合了智能解码、分词技巧、特征工程/词向量化以及分类器这些主要模块的实践技巧。深度评测了向量机、CNN和LSTM上的检测结果，3种分类器都取得了非常好的效果，在工业应用场景下选择向量机作为分类器，将延迟控制在0.2ms到1.3ms。

网站请求经过反复多次的异常检测和威胁检测后，主动和被动的学习机制进行误报消除，同时安全团队对漏报进行持续学习纠正，最终WAF的安全边界逐渐拟合Web服务理想的安全边界。

机器学习是大势所趋：腾讯网站管家对恶意样本的检出率提升至98.77%

在面对变形的新类型攻击挑战时，规则容易被绕过，语义检测也无法准确分析其语义，而 AI 智能引擎具备泛化能力，在处理这类问题上优势明显。

刘少东在演讲中提到，通过对29000条OWASP的Web攻击样本进行基准测试发现，AI引擎的检出率拥有绝对领先优势。规则+语义的检测方式可以检测出84.89%的恶意载荷样本，而使用了AI引擎的腾讯网站管家对恶意样本的检出率实现了质的飞跃，大幅提升至98.77%。

更值得一提的是，AI WAF虽然一开始采用的是标准模型，但在对不同用户的业务进行积极反馈后会形成自己独有的模型。举例来说，引擎一旦接收到攻击误报就会提交至模型中进行更新学习，之后便不会再判定其为攻击。这种方式相较于关闭规则和URL加白都更加友好，并不会引入新的安全风险。

在谈及WAF发展的问题上，刘少东表示，WAF机器学习在技术上已经是大势所趋，其高级的分析技术不仅可以涵盖常规的专家规则，还可以拟合更加复杂的专家经验知识。未来云计算的弹性能力、大数据的信息处理能力和安全威胁情报共享的多点防御将进一步促进和提升网络安全能力。

家居