包含"manage"的全部内容
Kubernets的NVIDIA设备插件安装方案实践-运维开发故事

Kubernets的NVIDIA设备插件安装方案实践

环境:centos7kubernetes版本:1.24前言:这两天在搞大模型服务,之前也没了解过GPU相关的服务,因此整理了一个关于如何能够使用gpu节点文档。1、现象本来服务已经部署上去,但是一直处理pendin...
Kubernetes中的事件收集以及监控告警-运维开发故事

Kubernetes中的事件收集以及监控告警

!! 大家好,我是乔克,一个爱折腾的运维工程,一个睡觉都被自己丑醒的云原生爱好者。作者:乔克公众号:运维开发故事博客:www.jokerbai.comKubernetes中的事件监控随着微服务以及云原生的发展...
k8s informer 是如何保证事件不丢失的?-运维开发故事

k8s informer 是如何保证事件不丢失的?

1.资源 Controller 主要作用我们知道 k8s 里重要概念之一就是 声明式 API,比如 kubectl apply 就是声明式 API的实现。效果就是资源对象的运行状态要与我们声明的一致。比如kubectl apply 一个 ...
浅谈yarn的任务管理与资源管理-运维开发故事

浅谈yarn的任务管理与资源管理

1. 概述1.1. Yarn基本概念YARN(Yet Another Resource Negotiator)是Hadoop 2.x的一个计算框架,旨在解决Hadoop 1.x中的资源管理和任务调度问题。它的主要目的是将MR1 JobTracker 的两个主要功...
nginx反向代理https域名时,请求报错502问题排查-运维开发故事

nginx反向代理https域名时,请求报错502问题排查

当前浏览器不支持播放音乐或语音,请在微信或其他浏览器中播放 开往早晨的午夜 音乐: 胡大强 - 翻唱专辑 ...
随便聊聊-运维开发故事

随便聊聊

!! 大家好,我是乔克,一个爱折腾的运维工程,一个睡觉都被自己丑醒的云原生爱好者。作者:乔克公众号:运维开发故事博客:www.jokerbai.com随着分布式架构逐渐成为主流,“可观测性”一词也日...
我差点重做整个K8S集群-运维开发故事

我差点重做整个K8S集群

!! 大家好,我是乔克,一个爱折腾的运维工程,一个睡觉都被自己丑醒的云原生爱好者。作者:乔克公众号:运维开发故事博客:www.jokerbai.com没有遇到故障的运维不是合格的运维,没有处理故障的...
使用SigNoz搭建可观测系统-运维开发故事

使用SigNoz搭建可观测系统

!! 大家好,我是乔克,一个爱折腾的运维工程,一个睡觉都被自己丑醒的云原生爱好者。作者:乔克公众号:运维开发故事博客:www.jokerbai.com前言SigNoz是一个开源的应用程序性能监控工具,可以...
【夜莺监控】告警管理,香!-运维开发故事

【夜莺监控】告警管理,香!

!! 大家好,我是乔克,一个爱折腾的运维工程,一个睡觉都被自己丑醒的云原生爱好者。作者:乔克公众号:运维开发故事博客:www.jokerbai.com监控是方法,告警是手段,解决是目的。但是,大家有...
【夜莺监控】管理Kubernetes组件指标-运维开发故事

【夜莺监控】管理Kubernetes组件指标

!! 大家好,我是乔克,一个爱折腾的运维工程,一个睡觉都被自己丑醒的云原生爱好者。作者:乔克公众号:运维开发故事博客:www.jokerbai.com开始之前Kubernetes 是一个简单且复杂的系统,简单之...