如何利用图分析迅速甄别恶意域名

2015年11月26日 作者: 瀚思科技

导语:瀚思(HanSight)采用“图分析”结合强大情报系统(域名Whois、被动DNS、黑名单)实现极速感知可疑域名的方法。通过将每天各个渠道收集到的几十万域名及其相关信息导入图数据库,根据节点关系快速绘制连接边,形象直观的展现节点之间内在联系,将有问题的域名暴露在安全分析人员的眼前,使得以域名为基础的恶意行为无处躲藏,并以最快的速度查出恶意网站。

背景

“域名分析”是瀚思安全情报系统很重要的一环,因为对于检测钓鱼、僵尸网络来说,域名黑名单可以在第一时间截断传播。和其他安全信息处理一样,第一个挑战在于怎么快速处理海量数据。

目前瀚思(HanSight)每天从各个渠道可获得几十万的新增二级或三级域名数据,其中二级域名数量接近Verisign公布的全量。Verisign 2015第二季度报告统计截止到2015年第二季度末,全球二级域名注册数量达到2.96亿,每月域名增长量接近74万,也就是每天会有近2.5万个新二级域名诞生。

这些新注册域名的一部分拥有合法的注册人、合规的使用途径(如网站访问、插件统计、软件更新等);而另一些则被不法分子注册,用于木马通信、钓鱼欺诈等目的。

同时安全管理、技术的提高使得这些不法目的的注册域名生命周期越来越短,往往在互联网上存活时间只有几天甚至几个小时。这使得问题变得棘手起来:海量的新增域名、超短的存活时间,要求我们必须快速、有效从大量的新注册域名中挖掘出那些拥有恶意目的的域名。

我们采用“图分析”结合强大情报系统(域名Whois、被动DNS、黑名单)实现极速感知可疑域名的方法。通过将每天各个渠道收集到的几十万域名及其相关信息导入图数据库,根据节点关系快速绘制连接边,形象直观的展现节点之间内在联系,将有问题的域名暴露在数据安全分析人员的眼前,使得以域名为基础的恶意行为无处躲藏,从而最大限度的保护用户的网络数据安全。

如何使用图数据库及情报信息关联发现一批可疑域名呢?

使用图数据库进行恶意域名预测的好处是快速直观展现节点间的内在联系,通过发现相关连接点中任何一个问题节点,可快速确定整个关联节点集合的性质。这非常适合处理海量、强关联数据集合。

图、图算法、图数据库:

在数学和计算机科学中,术语“图”指的就是由一组“节点”和连接它们“边”组成的几何形状,见图1。我们通常用G = (V,E)来表示一个图, 这里G表示图,V表示节点,而E表示边。

图1.“图”

常见图算法有:Bellman-Ford算法(用于计算单个节点到其它所有节点的最短路径)、Ford–Fulkerson算法(用于在流网络中计算最大流)、Breadth-first算法(一种最优遍历整图节点的算法),PageRank等。

图数据库,即使用图结构(节点、边、属性)进行存储、、查询、展示的特殊数据库。节点就是将要进行关联数据,在本例中节点就是域名、域名的注册人、域名的注册组织、域名的注册邮箱、域名对应的的IP地址;边,即关系,就是这些关联数据是否是相关的;属性,就是相关节点在数据库中的类别。

图分析发现可疑新增域名:

将数据节点及其关联关系(具体说来就是域名相关信息)导入图数据库,我们就可以利用这些信息快速预测未知的可疑域名。

本例使用瀚思“2015年10月14日-2015年11月13日新增域名集合”及其对应WHOIS数据中的域名注册人、域名注册组织、域名注册邮箱,还有这些域名对应的IP地址信息。用例中不涉及黑名单的使用。当然我们也会介绍一些方法,对发现的特殊域名集合进行检验已确定其是否关联已知的可疑域名。

a. 获取的数据导入图数据库中,使用图布局算法(本例使用Force Atlas算法、Force Atlas2算法)处理节点和边。目的是使相关点在图上位置更为靠近,而无关点距离则更加疏远,增强可视化效果。

图2. 算法处理演变过程

使用多种图布局算法,保持相关节点相对距离较近且不相关节点尽可能地远离,同时相关节点集合应在其局部范围内保持分散。经一系列处理,形成图2.最后的布局(即v所示)。

b. 进一步处理关系图:

a) 使用不同的颜色标记不同类的节点:

颜色的使用依个人喜好,只要能标记不同类别节点即可(建议选取对比明显的颜色)。本例中个颜色说明:

蓝色:新增域名节点

绿色:域名注册人

粉色:域名注册组织

黄色:域名注册邮箱

红色:域名对应IP地址

b) 依数量使用不同大小的圆展示节点

c) 设置节点内容显示为“选择显示节点内容”

图3. 进一步处理后的关系图

c. 分析

上图可以明显看到域名注册人(绿色)、域名注册组织(粉色)、域名注册邮箱(黄色)、域名对应IP地址(红色)已经将新增域名清晰的切割形成了若干星云。这样我们可以对不同的“星座”进行分析了。

本例选取a)和b)两个具有代表性的“星座”进行分析:

(a)是具有四种颜色的集合;

(b)是该图中最大的集合。

另外,如果我们有恶意域名、恶意IP等黑名单也可加入进行关联,更快发现可疑的新增域名集合。

a) 该图的绿、粉、黄节点大小类似且连接的域名较为集中,这表明有一批新增域名使用了相同的注册人、注册组织和邮箱信息。该图关联且可视的红色节点只有一个且大小与上述三类节点大小基本一致,这表明这批域名使用了同一IP地址。

同一个人(或组织)使用相同的邮箱在30天内注册了一批域名,且使用同一个IP地址进行通信,有意思!各位的第一反应是什么?Domain fluxing!C&C通信或恶意软件下载连接的可能性很高,除了这个还有什么可能呢?钓鱼网站!

我们放大看下细节:

图4. a)放大后的细节信息

域名注册人:zijian_xie

域名注册组织:xiezijian

域名注册邮箱:xinwang0888@163.com

域名相关IP:45.127.93.213(中国香港,来源瀚思IP地理位置库) 先从IP入手,看看能查到什么信息:

当然如果直接借助瀚思的恶意IP情报库,可以快速发现这个IP及其危险,曾关联多个已知钓鱼域名。如果我们没有相关的情报呢?

先看看归属地:

如果没有IP地理位置数据库,我们直接百度搜索该IP,也可以直接显示地理位置:中国香港。好吧,还比较正常(只能说“还比较”)。

再试着看看它开放的端口:

表2. Nmap扫描结果

Nmap扫描显示它开放了端口22(SSH),端口80(HTTP)。SSH用来做站点管理,HTTP做网站访问。看上去也就是一个私人网站的基本配置,没什么特殊的。我们浏览器访问下试试:

图5. HTTP访问站点IP 45.127.93.213

除了说明这是个使用了IIS 7的网站服务器外,并没有看到恶意软件下载、钓鱼网站等等我们试图发现的信息。

只好试试其他的途径了,比如公共的情报库系统。

原来诸如Web应用防火墙等传统安全设备无法发现的HTTP等应用层攻击,现在可以主动检测出来,主动规避了可能带来的安全风险。

Virustotal查询:

使用Virustotal查询下这个IP:

图6. Virustotal查询IP结果

看来这个IP还真有问题,我们随便点击一个连接查看下详情。这个IP相关的网站竟被多家安全公司报告是恶意网站或钓鱼网站。看来这个IP真的是有问题!

再试试邮箱:

Google下xinwang0888@163.com:

图7. 可疑域名相关邮箱信息

发现该邮箱注册域名中有两个很像钓鱼网站的,点进去看一下。

图8. 可疑域名相关邮件关联的其它网站信息

可以明显看到:交通银行相关网站为钓鱼站点;而易大师官网与这个邮件注册域名也相去甚远。这说明该邮箱确实被使用注册了钓鱼网站相关域名。

仔细看图7.和图8.中易大师钓鱼网站所使用的域名10086ttah.com与图4.中所示的新增域名集合的命名方式也非常的类似。

恶意的IP、钓鱼域名相关的注册邮箱,使我们有理由怀疑该集合内的域名也将或已经被用于恶意目的(因展示需要,我们并未使用最新注册域名,所以这里说“已经”)。

b) 放大图后,我们可以发现域名注册人、组织、邮箱信息。

我们用相同的方法查找上述信息,发现其注册邮箱(2102033882@qq.com)相关联的两个域名被举报为钓鱼网站(见图10. 请忽略其它聊天内容-_-|):

图10. 网友举报该邮箱注册域名为钓鱼域名

大家也可以使用a)中所述方法从其它方面验证,这里就不做累述了。

另外,这里还是要强调下情报的重要性,平时多积累多收集域名、DNS及黑名单数据建立强大的情报库,这样在图分析时可以直接加入,减少验证的时间,对新增域名做出最快的预测。

结语

图关联分析方法直观、快速的展现多数据信息之间的内在联系,它不仅用于数据新特征的发现(如域名特征发现)也可直接对数据进行聚类展示。

本例将图关联分析方法应用在对新增恶意域名的快速预测中,结合强大的情报系统,预测精度高,反应速度快。