监控Linux服务器的工具、组件和程序网上有很多,但是一台服务器上会有很多进程同时运行,特别是做性能测试的时候,可能一台服务器上部署多个服务,如果只监控整个服务器的CPU和内存,当某个服务出现性能问题时,并不能有效准确的定位出(当然通过其他工具也可以实现),因此,很有必要只监控指定的进程。需求明确了,于是动手撸了一个性能监控脚本。
一、整体思路
1、为了方便的启动监控和停止监控,在想查看监控结果的时候随时查看监控结果,用flask开启了一个服务,通过发送get请求可以随时启停监控和查看监控结果。
2、针对控制是否监控cpu、内存、IO,开启多线程监控。
3、为了减少对其他组件的依赖,将监控结果写到日志中。
4、为了方便查看监控结果,直接将结果以html方式返回。
二、配置文件
config.py
IP = '127.0.0.1' PORT = '5555' LEVEL = 'INFO' # log level BACKUP_COUNT = 9 # log backup counter LOG_PATH = 'logs' # log path INTERVAL = 1 # interval, run command interval. SLEEPTIME = 3 # interval, when stopping monitor, polling to start monitor when satisfying condition. ERROR_TIMES = 5 # times, number of running command. When equal, automatically stopped monitor. IS_JVM_ALERT = True # Whether to alert when the frequency of Full GC is too high. IS_MONITOR_SYSTEM = True # Whether to monitor system's CPU and Memory. IS_MEM_ALERT = True # Whether to alert when memory is too low. Alert by sending email. MIN_MEM = 2 # Minxium memory, uint: G # 0: don't clear cache, 1: clear page caches, 2: clear dentries and inodes caches, 3: include 1 and 2; # echo 1 >/proc/sys/vm/drop_caches ECHO = 0 SMTP_SERVER = 'smtp.sina.com' # SMTP server SENDER_NAME = '张三' # sender name SENDER_EMAIL = 'zhangsan@qq.com' # sender's email PASSWORD = 'UjBWYVJFZE9RbFpIV1QwOVBUMDlQUT09' # email password, base64 encode. RECEIVER_NAME = 'baidu_all' # receiver name RECEIVER_EMAIL = ['zhangsan@qq.com', 'zhangsi@qq.com'] # receiver's email DISK = 'device1' # Which disk your application runs START_TIME = 'startTime.txt' # Store the time of start monitoring. FGC_TIMES = 'FullGC.txt' # Store the time of every FullGC time. # html HTML = '<html><body>{}</body><html>' ERROR = '<p style="color:red">{}</p>' HEADER = '<div id="header"><h2 align="center">Performance Monitor (pid={})</h2></div>' ANALYSIS = '<div id="container" style="width:730px; margin:0 auto">{}</div>'
IP和PORT:开启服务的服务器IP和端口,必须和所监控的服务在同一台服务器上;
BACKUP_COUNT:默认为9,即只保留最近9天监控结果;
INTERVAL:两次监控的时间间隔,默认为1s,主要用于cpu和内存监控,当同时监控多个端口或进程时,请将该值设小一点;
ERROR_TIMES:命令执行失败次数,当大于该次数时,则会自动停止监控;主要用于监控指定的进程,如果进程被杀掉,则必须自动停止监控,且必须手动触发再次开始监控;如果监控指定的端口,当端口的进程被杀掉后,也会停止监控,如果端口被重新启动,则自动开始监控;
IS_JVM_ALERT:仅针对java应用,如果频繁FullGC,则邮件提醒;一般性能测试,FullGC的频率不得小于3600秒;
IS_MONITOR_SYSTEM :是否监控系统总CPU使用率和剩余内存;
IS_MEM_ALERT:当系统剩余内存过低时,是否邮件提醒;
MIN_MEM:允许系统最小剩余内存,单位为G;
ECHO:当系统剩余内存过低时,是否释放缓存;0为不释放,1为释放页面缓存,2为释放dentries和inodes缓存,3为释放1和2;
DISK:磁盘号,如果监控IO,需要输入磁盘号,通过df -h 文件名查看当前文件挂在哪个磁盘下;
START_TIME:记录每次手动触发开始监控的时间;
FGC_TIMES:记录每次FullGC的时间,用于排查问题;
三、接口和服务
server.py
server = Flask(__name__) permon = PerMon() # 开启多线程 t = [threading.Thread(target=permon.write_cpu_mem, args=()), threading.Thread(target=permon.write_io, args=())] for i in range(len(t)): t[i].start() # 开始监控 # http://127.0.0.1:5555/runMonitor"external nofollow" href="http://127.0.0.1:5555/runMonitor">http://127.0.0.1:5555/runMonitor"external nofollow" href="http://127.0.0.1">http://127.0.0.1:
5555/plotMonitor"text-align: center">六、扩展函数
extern.py 有两个功能
1、端口转进程
try: result = os.popen(f'netstat -nlp|grep {port} |tr -s " "').readlines() res = [line.strip() for line in result if str(port) in line] p = res[0].split(' ') pp = p[3].split(':')[-1] if str(port) == pp: pid = p[-1].split('/')[0] except Exception as err: logger.logger.error(err)2、查找包含监控结果的日志
整体思路:
(1)根据输入的开始时间和结束时间,查找包含这段时间的所有日志文件;
(2)根据查找出来的日志文件,找出包含监控结果的所有日志;
(3)画图的时候遍历找出的所有日志。
补充
1、为了方便查看最近一次开始监控的时间,会将每一次开始监控的时间写到startTime.txt文件中;
2、为了方便排查java应用可能出现的问题,将每一次Full GC的时间写到FullGC.txt文件中。
项目地址:https://github.com/leeyoshinari/performance_monitor
总结
以上所述是小编给大家介绍的基于python的Linux系统指定进程性能监控,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对网站的支持!
如果你觉得本文对你有帮助,欢迎转载,烦请注明出处,谢谢!
稳了!魔兽国服回归的3条重磅消息!官宣时间再确认!
昨天有一位朋友在大神群里分享,自己亚服账号被封号之后居然弹出了国服的封号信息对话框。
这里面让他访问的是一个国服的战网网址,com.cn和后面的zh都非常明白地表明这就是国服战网。
而他在复制这个网址并且进行登录之后,确实是网易的网址,也就是我们熟悉的停服之后国服发布的暴雪游戏产品运营到期开放退款的说明。这是一件比较奇怪的事情,因为以前都没有出现这样的情况,现在突然提示跳转到国服战网的网址,是不是说明了简体中文客户端已经开始进行更新了呢?