Linux系统管理巡检核心清单,告别运维慌乱

网站建设 厦门萤点网络科技 2026-02-20 00:10 29 0
运维的日子,是不是总在担心服务器突然挂掉?半夜被报警电话吵醒的滋味,真的不好受。别慌,今天这份Linux系统管理巡检核心清单,能让你从手忙脚乱到从容不迫,从此告别“救火队员”的称号! 系统健康度:你的服务器“心跳”还正常吗? 打开终端,第一...

运维的日子,是不是总在担心服务器突然挂掉?半夜被报警电话吵醒的滋味,真的不好受。别慌,今天这份Linux系统管理巡检核心清单,能让你从手忙脚乱到从容不迫,从此告别“救火队员”的称号!

系统健康度:你的服务器“心跳”还正常吗?

打开终端,第一件事不是发呆。你得知道,系统到底累不累。

这个命令简单到像打招呼。但它告诉你的信息可不少:系统运行了多久,当前有多少用户登录,以及过去1、5、15分钟的平均负载。数字超过CPU核心数?那你的服务器可能正在“负重奔跑”。

linux系统用telnet测试端口映射_Linux系统管理巡检清单_服务器健康度检查

紧接着,top 或 htop(如果安装了)是你的全能仪表盘。在这里,你能看到CPU、内存的实时占用率,哪些进程最“贪婪”。盯着%CPU和%MEM那两栏,排名靠前的家伙,往往就是问题的根源。突然有个进程吃掉90%的CPU?是时候深入调查了。

内存够用吗? 别只看free -h显示的内存用了多少,重点看(可用内存)。Linux会聪明地利用缓存,所以即使used很高,只要还充足,就不用太紧张。但要是连都所剩无几,甚至用到了swap(交换分区),那系统可就真的在“喘粗气”了。

磁盘空间:别让“仓库”撑爆了肚子

想象一下,日志疯狂增长,磁盘一夜之间被塞满……应用崩溃,数据库宕机,那绝对是噩梦。定期检查磁盘空间是运维的必修课。

df -h 命令用人类可读的方式(G、M单位)展示所有磁盘分区的使用情况。重点关注Use%这一列,超过80%就该亮起黄灯,超过90%就是红色警报,必须立即处理。

服务器健康度检查_Linux系统管理巡检清单_linux系统用telnet测试端口映射

知道哪个目录最占地方吗?du -sh /* 可以快速查看根目录下各文件夹的大小。如果想找到具体的“大文件”,可以用 find / -type f -size +500M 来搜索大于500M的文件。往往是日志文件、临时文件或者备份文件在悄悄吞噬空间。

千万别忘了inode! 有时候df -h显示空间还有,但系统却报“没有空间”。这时用 df -i 检查一下,可能是小文件太多,把inode用光了。邮件服务器、图片缓存服务器尤其要注意这个问题。

网络与连接:服务的大门还畅通吗?

服务器活着,但服务可能“死”了。网络连通性是生命线。

Linux系统管理巡检清单_linux系统用telnet测试端口映射_服务器健康度检查

ping 和 (或 nc)是你的基础工具。ping 检查机器是否能到达, 检查具体端口服务是否在监听。连不上?可能是防火墙、服务本身挂了,或者网络路由出了问题。

或 ss 命令则更强大。ss -tlnp 可以列出所有监听状态的TCP端口以及对应的进程,一眼就能看出该开的服务开了没。而 ss -tan 能看到所有的TCP连接(, Time-Wait等),如果某个IP建立了成千上万个连接,可能意味着正在遭受攻击,或者程序有连接泄漏。

网络流量异常吗? 安装 iftop 或 工具,可以像top命令一样实时查看每个网卡的流量,甚至每个进程的网络带宽占用情况。突然出现的异常流量峰值,绝对是深入排查的信号。

安全与日志:藏在角落里的“警报器”

安全无小事。一些简单的检查,能帮你排除大隐患。

who 或 last 命令看看最近都有谁登录过系统。有没有不认识的IP或用户?sudo cat /var/log/auth.log | grep (对于/)可以查看失败的登录尝试,暴力破解的痕迹往往藏在这里。

Linux系统管理巡检清单_linux系统用telnet测试端口映射_服务器健康度检查

日志,是系统在对你说话。 关键服务的日志一定要定期看。tail -f /var/log/nginx/.log 实时追踪Web访问日志; -u sshd -f 实时查看SSH服务日志。错误(Error)、警告()关键字是重点关照对象。

别忘了检查计划任务: -l 查看当前用户的,cat /etc/ 查看系统的。有没有来历不明的定时任务?这可是黑客常留的后门。

性能与进程:揪出拖慢系统的“元凶”

系统变慢,总是有原因的。你需要成为“侦探”。

ps aux 是进程的静态快照。结合 grep 命令,可以找到特定进程的详细信息。但更动态的方法是使用 2 5(每2秒采样一次,共5次),它提供了进程、内存、交换分区、IO和CPU活动的整体情况。如果 r(运行队列)列持续很高,说明CPU繁忙;si/so(交换内存)列持续大于0,说明内存严重不足。

IO瓶颈是隐形杀手。 -x 2 命令可以查看磁盘的读写速率(rkB/s, wkB/s)、等待时间(await)和使用率(%util)。如果 %util 长时间接近100%,await 远大于 svctm,说明磁盘IO已经饱和,成了性能瓶颈。

还有一个高级工具 dstat,它整合了、、等多类信息,在一个屏幕上彩色展示CPU、磁盘、网络、内存等全维度指标,堪称运维的“瑞士军刀”。

把这些指令和检查项,变成你每天或每周的固定动作。从被动响应到主动发现,运维的底气就是这样一点点积累起来的。别再把时间浪费在无谓的焦虑上,拿起这些工具,真正去了解和掌控你的系统吧!