应急响应-K8s异常ssh登录排查

某内网k8s集群主机安全告警存在ssh爆破成功的记录，上机排查发现该主机存在长达几个月的异常ssh登录，每天固定凌晨0点-4点出现ssh登录记录，并且同一个ip的ssh登录失败和成功的记录交叉出现。

初步判定这是一起非入侵导致的应急事件，但是该如何定位k8s容器出现异常ssh登录的原因呢？

文章目录

定位异常记录最早出现时间

通过查询日志找到最早的异常ip的ssh登录失败的记录，定位到第一次出现时间为3月29日0点。对应的ip是一台k8s集群的node节点，上面运行全部的是容器服务。因此排查的方向从主机 –> 容器。

查找3月29号k8s主机上的文件变动。

find / -newermt "2023-03-28" ! -newermt "2023-03-30" -type f -exec ls -lh {} \;

可以看到确实是有文件变动，很有可能是在3月29号这天，新起的容器服务导致ssh登录异常。查找3月29号创建的容器。

 docker ps -a --no-trunc -q | xargs docker inspect --format '{{ .Name }}: Created {{ .Created }}' | grep "2023-03"

需要注意，docker的时间通常是utc时间转换cst时间还需要+8小时。

这里与猜测不符，所以并非是在3月29号附近的新创建的容器导致的异常。

k8s的容器数量众多，一台主机运行几百个容器，逐个排查效率太低。既然确定异常ssh的登录记录在每天凌晨会固定出现。所以直接开启auditd进行网络请求和命令的审计。命令如下：

auditctl -a always,exit -F arch=b64 -S connect,execve -F key=MYCONNECT

然后就是等第二天收审计的结果。

但正常情况下，audit必定能抓取到网络请求的进程，但是在audit审计的日志中未能发现在0点-4点之间异常的ssh网络请求信息。

因此，推测在0点前必定有容器异常退出或者容器服务挂掉了。

查看所有退出的容器，从异常退出的容器信息可推断只有k8s_ocloud-osppro-remote-executor_ocloud-osppro-remote-executor 容器符合时间要求。

从容器的命令可判断是一台远程执行命令的容器，重新启动该容器并进入查看容器的日志信息。

进入该容器查找服务器日志，发现下发命令的时间与ssh报错的时间和次数完全一致，确实是该容器的服务下发命令导致ssh登录异常。

Post Views: 1,164

赞赏

微信赞赏支付宝赞赏