本文共 5393 字,大约阅读时间需要 17 分钟。
在上一篇文章中为大家讲解了如何在Kubernetes集群中部署Prometheus,已经可以通过Prometheus监控Kubernetes中Pod的状态、核心组件的状态等数据。那么如何将应用自身的数据进行集成呢?
Prometheus是通过pull模式进行数据采集的,如果需要接入Prometheus的数据采集,需要符合Prometheus的数据格式,一个标准的Prometheus格式的监控数据格式如下:
# TYPE rpc_durations_seconds summaryrpc_durations_seconds{service="exponential",quantile="0.5"} 7.55823964126038e-07rpc_durations_seconds{service="exponential",quantile="0.9"} 2.6110063096397233e-06rpc_durations_seconds{service="exponential",quantile="0.99"} 4.1856147763703275e-06rpc_durations_seconds_sum{service="exponential"} 0.00020646687333031658rpc_durations_seconds_count{service="exponential"} 199rpc_durations_seconds{service="normal",quantile="0.5"} -9.691909897213225e-07rpc_durations_seconds{service="normal",quantile="0.9"} 0.00025830474325216625rpc_durations_seconds{service="normal",quantile="0.99"} 0.0005562243742048893rpc_durations_seconds_sum{service="normal"} -6.545190575669169e-05rpc_durations_seconds_count{service="normal"} 134rpc_durations_seconds{service="uniform",quantile="0.5"} 9.377796898048464e-05rpc_durations_seconds{service="uniform",quantile="0.9"} 0.00018267981258729418rpc_durations_seconds{service="uniform",quantile="0.99"} 0.0001955526954715437rpc_durations_seconds_sum{service="uniform"} 0.009804051013554931rpc_durations_seconds_count{service="uniform"} 101
表面上这个数据的格式是非常简单的,但实际上,如果我们手动去尝试拼接这样的数据格式,可能会由于特殊字符、命名方式、字符串长度等等不同原因导致Prometheus无法识别。此处我们建议直接使用Prometheus的Client进行注册监控接口。Promehtues的Client目前支持大部分编程语言,支持列表可以参考如下。下面我们以Go语言为例,来看下Prometheus Client的用法:
var ( // Create a summary to track fictional interservice RPC latencies for three // distinct services with different latency distributions. These services are // differentiated via a "service" label. rpcDurations = prometheus.NewSummaryVec( prometheus.SummaryOpts{ Name: "rpc_durations_seconds", Help: "RPC latency distributions.", Objectives: map[float64]float64{0.5: 0.05, 0.9: 0.01, 0.99: 0.001}, }, []string{"service"}, ))func init() { // Register the summary and the histogram with Prometheus's default registry. prometheus.MustRegister(rpcDurations)}func main() { flag.Parse() start := time.Now() oscillationFactor := func() float64 { return 2 + math.Sin(math.Sin(2*math.Pi*float64(time.Since(start))/float64(*oscillationPeriod))) } // Periodically record some sample latencies for the three services. go func() { for { v := rand.Float64() * *uniformDomain rpcDurations.WithLabelValues("uniform").Observe(v) time.Sleep(time.Duration(100*oscillationFactor()) * time.Millisecond) } }() go func() { for { v := (rand.NormFloat64() * *normDomain) + *normMean rpcDurations.WithLabelValues("normal").Observe(v) time.Sleep(time.Duration(75*oscillationFactor()) * time.Millisecond) } }() go func() { for { v := rand.ExpFloat64() / 1e6 rpcDurations.WithLabelValues("exponential").Observe(v) time.Sleep(time.Duration(50*oscillationFactor()) * time.Millisecond) } }() // Expose the registered metrics via HTTP. http.Handle("/metrics", promhttp.Handler()) log.Fatal(http.ListenAndServe(*addr, nil))}
在本例子中,我们注册了一个名叫rpc_durations_seconds
的指标,首先需要prometheus.MustRegister
注册一个监控指标,在本例中rpc_durations_seconds
是prometheus.NewSummaryVec
类型的,其他类型可以参考。rpcDurations
是一个全局的单例,可以在期望更新监控数据的时候可以调用rpcDurations.WithLabelValues("uniform").Observe(v)
来增加监控数据即可。代码模板可以参考如下
1.我们将上文中打包好的应用镜像,并下发Deployment与Service到集群中。
apiVersion: apps/v1beta1kind: Deploymentmetadata: name: demo-app labels: app: demo-appspec: replicas: 2 selector: matchLabels: app: demo-app template: metadata: labels: app: demo-app spec: containers: - name: demo-app image: registry.cn-hangzhou.aliyuncs.com/ringtail/prometheus-demo:v1 command: - /random ports: - containerPort: 8080---apiVersion: v1kind: Servicemetadata: labels: app: demo-app name: demo-app namespace: defaultspec: ports: - name: http-metrics port: 8080 protocol: TCP targetPort: 8080 selector: app: demo-app type: ClusterIP
2.部署当前应用的serviceMonitor到集群
apiVersion: monitoring.coreos.com/v1kind: ServiceMonitormetadata: labels: app: demo-app name: demo-app namespace: monitoringspec: endpoints: - interval: 30s port: http-metrics jobLabel: app namespaceSelector: matchNames: - default selector: matchLabels: app: demo-app
此处需要特别做些解释,serviceMonitor是Prometheus Operator中抽象的概念,他的作用就是讲配置Prometheus采集Target的配置变化成为动态发现的方式,可以serviceMonitor通过Deployment对应的Service配置进行挂钩,通过label selector选择Service,并自动发现后端容器。其中需要注意的是namespace字段永远为monitoring,而namespaceSelector中则是选择的应用所在的namespace。
3.访问Prometheus,验证数据采集,打开Status下的Service Discovery,active的数目等于Pod数据即表示采集正常。
# 本地Proxy到Prometheuskubectl --namespace monitoring port-forward svc/prometheus-k8s 9090
打开Graph页面,选择我们刚才推送的数据指标名称,点击Execute
,即可查看到采集上来的数据。
4.配置Grafana页面,点击New Dashboard
,创建新的Dashboard,展现监控数据
# 本地Proxy到Grafanakubectl --namespace monitoring port-forward svc/grafana 3000
在本例子中,我们配置了计算rpc_durations_seconds
和值的语法,在Prometheus中还有非常多复杂的聚合方式,建议大家参考已有的一些Dashboard或者翻阅PromSQL的。
使用Prometheus接入应用监控的方式非常简单,整个操作的流程非常kubernetes,这也是目前非常多的开源软件和Kubernetes集成的一种方式与趋势,在开发者习惯了之后,会越来越感受到这种方式的便利。更多的operator可以参考这个
转载地址:http://ytwoa.baihongyu.com/