包含"linux"的全部内容
Kubernets的NVIDIA设备插件安装方案实践-运维开发故事

Kubernets的NVIDIA设备插件安装方案实践

环境:centos7kubernetes版本:1.24前言:这两天在搞大模型服务,之前也没了解过GPU相关的服务,因此整理了一个关于如何能够使用gpu节点文档。1、现象本来服务已经部署上去,但是一直处理pendin...
开发一个接口监控的Prometheus Exporter-运维开发故事

开发一个接口监控的Prometheus Exporter

想必大家对于黑盒监控都不陌生,我们经常使用blackbox_exporter来进行黑盒监控,在K8s中进行黑盒监控可以参考这里。既然已经有成熟的工具,为何自己还要再来尝试开发一个?我说是为了学习,你信...
Ceph RBD和QEMU块设备qos测试(文末抽奖)-运维开发故事

Ceph RBD和QEMU块设备qos测试(文末抽奖)

关于ceph的qosCeph,作为一个高度可扩展的分布式存储系统,已经成为云计算和大数据时代的关键基石。随着企业和组织对数据存储的需求日益增长,Ceph 通过其强大的特性,如可靠性、伸缩性和性能,...
wanger的头像-运维开发故事wanger1年前
1150
GLIBC修复笔记(文末送书)-运维开发故事

GLIBC修复笔记(文末送书)

背景公司环境有台机器硬盘故障,需要安装megacli工具进系统查看raid信息,在ubuntu20.04安装megacli解决依赖过程中失误将高版本的libtinfo包装系统上了,导致系统报glibc对应的版本没有找到,系...
基于Python + Vue3.js 技术栈实现的域名和SSL证书监测平台-运维开发故事

基于Python + Vue3.js 技术栈实现的域名和SSL证书监测平台

用于解决,不同业务域名SSL证书,申请自不同的平台,到期后不能及时收到通知,导致线上访问异常,被老板责骂的问题Domain Admin是一个轻量级监控方案,占用系统资源较少。同时,Domain Admin也...
基于Python + Vue3.js 技术栈实现的域名和SSL证书监测平台-运维开发故事

基于Python + Vue3.js 技术栈实现的域名和SSL证书监测平台

用于解决,不同业务域名SSL证书,申请自不同的平台,到期后不能及时收到通知,导致线上访问异常,被老板责骂的问题Domain Admin是一个轻量级监控方案,占用系统资源较少。同时,Domain Admin也...
关于Dockerfile的最佳实践技巧-运维开发故事

关于Dockerfile的最佳实践技巧

Dockerfile的语法非常简单,然而如何加快镜像构建速度,如何减少Docker镜像的大小却不是那么直观,需要积累实践经验。这篇文章可以帮助你快速掌握编写Dockerfile的技巧。目标更快的构建速度更小...
这39套云原生技术文档简直是量身为Linux打造,反复啃了3遍-运维开发故事

这39套云原生技术文档简直是量身为Linux打造,反复啃了3遍

云原生这几年的发展可谓是如火如荼,早前大家还会讨论“云原生是不是趋势”,现在这样的声音几乎没有了。云原生已经不是未来趋势,而是我们正处于的环境,现在大家越来越关心“云原生的现实意义...
【夜莺监控】初识夜莺,还是强!-运维开发故事

【夜莺监控】初识夜莺,还是强!

!! 大家好,我是乔克,一个爱折腾的运维工程,一个睡觉都被自己丑醒的云原生爱好者。作者:乔克公众号:运维开发故事博客:www.jokerbai.com前言可观测性是大部分中小公司比较头疼的问题,主要...
【夜莺监控】告警管理,香!-运维开发故事

【夜莺监控】告警管理,香!

!! 大家好,我是乔克,一个爱折腾的运维工程,一个睡觉都被自己丑醒的云原生爱好者。作者:乔克公众号:运维开发故事博客:www.jokerbai.com监控是方法,告警是手段,解决是目的。但是,大家有...