1.从分析 SkyAPM-dotnet 源码学习现代 APM 探针设计理念(一)
2.分布式链路追踪 SkyWalking 源码分析 —— DataCarrier 异步处理库
3.Skywalking8.9.1源码解析<一>-Skywalking简介及系统架构解析
4.dubbo知识点之管理工具dubbo-admin分享
5.Apache SkyWalking实战系列教程(三)- SkyWalking部署与配置
6.线上环境OOM频发,源码MyBatis有坑...
从分析 SkyAPM-dotnet 源码学习现代 APM 探针设计理念(一)
在后端软件行业的源码快速变迁中,从SOA到微服务、源码从业务一体化到中台战略、源码从虚拟化到云原生,源码技术更新速度日新月异。源码易语言轰炸源码这种变革背后的源码核心动力在于硬件发展的瓶颈,促使行业转向追求软件的源码规模化效益。现代后端软件工程师面临的源码挑战之一是如何对服务性能有全面的理解,而APM(Application Performance Monitoring)工具成为了解决这一问题的源码关键。
APM的源码基本构成包括指标性统计、分布式追踪和日志记录。源码指标性统计,源码如服务的源码吞吐量、成功率、源码流量等,是对单个指标或数据库的分析。分布式追踪则关注一次请求的全过程,从客户端发起到服务完成,甚至涉及业务流程,如商品订购流程,追踪请求的流转轨迹。日志记录则是程序运行过程中产生的信息收集,提供实时的事件记录。
随着技术的发展,性能监控工具的使用变得越来越普遍。早期,开发人员可能需要自己构建监控系统,但这既耗时又费力。SkyWalking等APM系统应运而生,旨在简化性能监控的实现,减少重复工作。
在SkyWalking中,dotnet探针的设计遵循核心规范。dotnet探针主要基于DiagnosticSource实现,这提供了一种消息的生产者消费者模型,使得事件可以在任意地方被接收。微软官方库中,营销后台系统源码如HttpContext、HttpClient、SqlClient等,都预留了性能打点,以捕获关键事件。第三方库如gRPC、CAP、SmartSql也提供了同样的功能。
开发人员可以通过适配SkyWalking,为自己的库添加性能打点,即向DiagnosticSource发送事件信息。这涉及到创建自定义采集器,监听特定事件,并将数据发送到数据中心。
探针的核心代码在于监听消息,其关键在于DiagnosticListener,它实现了消息的监听与数据的上报。监听的事件由特定的Processor负责处理,这些Processor实现了ITracingDiagnosticProcessor接口,具体负责数据的收集与转换。
两个有代表性的Processor示例展示了如何实现这一过程。一个针对AspNetCore请求管线,监听并收集请求相关的事件;另一个是针对System.Net下的通用httpclient,同样监听特定事件,以构建完整的请求上下文,并生成标准的tracing信息。
通过安装SkyWalking并加入探针,后端服务的性能数据将被收集并上传至OAP平台进行分析,最终提供直观的APM信息。这一过程不仅简化了性能监控的实施,还极大地提高了数据分析的效率与准确性。建议读者亲自尝试安装SkyWalking,体验探针在实际服务中的应用。
分布式链路追踪 SkyWalking 源码分析 —— DataCarrier 异步处理库
本文基于 SkyWalking 3.2.6 正式版,主要分享 SkyWalking Collector Remote 远程通信服务,用于 Collector 集群内部通信。Remote Module 应用于 SkyWalking 架构中,cms项目源码下载实现跨节点的流式处理。
本文从接口到实现顺序解析 SkyWalking Collector Remote 的项目结构和组件,包括 RemoteModule、RemoteSenderService、RemoteClientService、RemoteClient、CommonRemoteDataRegisterService、RemoteDataRegisterService、RemoteDataIDGetter、RemoteDataInstanceCreatorGetter、RemoteSerializeService、RemoteDeserializeService。RemoteModule 实现 Module 抽象类,定义服务如 RemoteSenderService、RemoteDataRegisterService,创建 RemoteClient 实现远程通信。CommonRemoteDataRegisterService 用于注册数据类型对应的远程数据创建器和获取数据协议编号。
接着,本文深入探讨基于 Google gRPC 的远程通信实现,包括 RemoteModuleGRPCProvider、GRPCRemoteSenderService、GRPCRemoteClientService、GRPCRemoteClient、RemoteCommonServiceHandler、GRPCRemoteSerializeService、GRPCRemoteDeserializeService。RemoteModuleGRPCProvider 提供基于 gRPC 的组件服务实现类,实现远程发送服务、客户端选择器和远程客户端服务。GRPCRemoteClient 实现基于 gRPC 的远程客户端,支持异步发送消息。
最后,本文提及 SkyWalking Collector Remote 也支持基于 Kafka 的远程通信实现,但目前暂未完成。为了进一步学习 SkyWalking 的分布式链路追踪和远程通信机制,读者可以关注公众号芋道源码,获取 Java 源码解析、视频导航首页源码原理讲解、面试题、学习指南,回复「书籍」领取 Java 从入门到架构的 本书籍,加入技术群讨论 Java、后端、架构相关技术。
Skywalking8.9.1源码解析<一>-Skywalking简介及系统架构解析
Skywalking 8.9.1源码解析系列旨在深入探讨该版本的Skywalking-OAP及其探针Skywalking-java8.9.0。本文基于官方文档、博客和个人理解,对Skywalking进行简介和系统架构解析。
Skywalking是一款强大的分布式追踪系统,提供详尽的UI界面,可通过OpenTrace官方文档了解其Trace概念。核心功能包括性能监控和分布式追踪,以帮助开发者理解和优化应用程序的性能。
Skywalking的代码模块构建在微内核架构上,这种架构允许通过插件形式扩展核心功能,如IDEA和Eclipse的插件模式。SkyWalking Agent和OAP都采用微内核架构,利用ModuleManager管理组件和ModuleProvider,实现模块间的高效通信和功能扩展。
在通信方面,Skywalking探针和服务器主要通过Grpc进行数据交换,考虑到性能和数据丢失风险,有人提议用Kafka替代,但官方仅支持Grpc和SSL。Skywalking UI与后端的交互采用GraphQL,尽管restful更为常见,但GraphQL提供了更灵活的数据获取方式。
存储方面,Skywalking支持模块化存储选择,官方推荐内存数据库Es,但在线上环境中可能需要特定数据库支持。本地开发环境通常使用Mysql,生产环境将根据需求进行选择。数据库表结构会在后续文章中详细讨论。vb程序源码代码
数据流方面,Skywalking的数据经过OAL处理后入库,OAL层的具体作用官方未明示,但可能是为了进一步处理和优化数据。本文从整体架构深入到细节,助力需求文档和开发文档的完善。
dubbo知识点之管理工具dubbo-admin分享
在dubbo的应用体系中,一直有一款图形化的rpc管理工具,通过这款管理工具,我们可以对我们的rpc服务进行各种管理操作,包括负载均衡、权重调整、服务监测等,今天我们就先来简单看下这一款管理工具。
dubbo的管理服务,现在也是一个独立的应用,我们可以将它独立部署。项目地址如下:
根据官方介绍,目前的管理控制台已经发布0.1版本,结构上采取了前后端分离的方式,前端使用 Vue和 Vuetify分别作为 Javascript框架和UI框架,后端采用 Spring Boot 框架。既可以按照标准的 Maven 方式进行打包,部署,也可以采用前后端分离的部署方式,方便开发,功能上,目前具备了服务查询,服务治理(包括 Dubbo 2.7中新增的治理规则)以及服务测试三部分内容。
下面,我们看下如何在本地安装部署dubbo的管理控制台。
首先,我们要下载dubbo-admin的源码包或者部署包,如果下载源码包的话,需要你自己打包,由于又是前后端分离的项目,所以这里我就偷个懒,直接下载部署包:
下载完成后,直接解压,然后进入bin\config文件夹,这里有dubbo-admin的配置文件。因为后端是spring boot项目,所以这里的application.properties文件就是我们spring boot的配置文件,默认情况下,整个配置文件只有一些简单配置项:
因为没有项目的端口配置,所以默认情况下,dubbo-admin的访问端口是,当然你也可以自行修改;
配置文件中,首先是注册中心、配置中心、元数据中心的配置,今天我们演示的注册中心是zk,所以这里就不修改了;
紧接着是管理平台的登录用户名和密码,默认都是root,你也可以根据自己的需要修改;
最后面是压缩的相关配置,这里应该是请求响应内容的压缩配置,主要是针对css/js以及页面等内容。
完成以上内容配置,我们就可以启动测序下了。首先,我们要先启动zk,然后启动我们的管理平台,直接访问我们dubbo-admin的服务地址即可,我配置的端口是,所以我访问的地址是http://localhost:,然后会自动跳转到登录页面:
输入我们配置的用户名和密码,即可登录成功:
这个页面和我们之前分享的k8s的官方管理控制台很像。左侧是菜单栏,右侧是操作区域。
控制台启动成功后,我们启动本地的dubbo项目,进行一些简单操作。
在服务查询菜单下,我们可以看到我们刚刚启动好的服务,我们可以对这些服务进行测试、查看详情以及其他操作。
这里我们就只演示下测试,因为路由、黑白名单、负载均衡、权重这些,我们目前还没深入了解过。
输入请求参数,点击执行,即可显示调用结果,这对我们平时觉得rpc不好测试的小伙伴简直就是福音,我们再也不用为rpc的测试而发愁了:
接口文档这块需要引入dubbo-api-docs-annotations和dubbo-api-docs-core的相关引用,同时要在我们的接口上添加相应的注解,今天由于时间的关系,我们暂时就不演示了,后面我们会专门分享。
写过单元测试的小伙伴应该对mock不陌生,这里应该也是一样的,主要是对服务的一些模拟调用,但是现在好像还不支持。
服务统计这里包括两块功能,一个是服务统计,可以展示服务的提供者、消费者、线程等信息
当然,除了dubbo-admin这样的官方管理平台之外,dubbo还可以集成skywalking这样的第三方运维监控平台。skywalking的用法我们直接已经分享过了,和dubbo集成应该也很容易,后面有机会的话,我们可以捎带分享下,关于skywalking的内容,可以点击下面的链接回顾:
dubbo-admin作为dubbo应用的控制管理平台,有着其强大的功能,特别是对rpc服务的监测、监控、以及相关配置的管理,更是一枝独秀。当然,我们今天分享的内容很简单,但是通过今天的内容,我也意识到对于dubbo应用的探索和学习,我觉得自己才刚刚起步,对于负载均衡、路由等相关知识,确实存在很多认知缺陷,但找到前进的方向有何尝不是一件值得庆幸的事呢?
Apache SkyWalking实战系列教程(三)- SkyWalking部署与配置
选择免费服务器平台,如华为云,安装CentOS系统,以便后续能够顺畅运行Docker和Apache SkyWalking相关组件。
利用宝塔面板,作为服务器管理界面,简化Linux管理流程。通过宝塔面板安装过程,确保系统配置正确,如开放端口。
安装Docker于宝塔面板中,便于后续部署Apache SkyWalking所需应用。
为部署Apache SkyWalking,首先确保使用特定版本的镜像,如elasticsearch:7.5.1和apache/skywalking-oap-server:6.6.0-es7,避免兼容性问题。下载agent源码包,准备后续的安装流程。
借助docker环境,安装并配置Elasticsearch,进行持久化存储设置,确保数据安全稳定。在服务器上启动Elasticsearch并验证其正常运行。
通过Docker安装Apache SkyWalking OAP,并指定Elasticsearch用于数据存储,完成部署。
接着安装SkyWalking UI,并设置端口为,避免与系统其他服务冲突。确保在华为云中开放相应端口。
应用接入部署中,Java应用接入以SpringBootDemo为例,通过Maven构建并打包应用,使用skywalkingagent实现监控功能,指定agent服务名和服务地址,启动应用时自动集成SkyWalking监控。
对于非Java应用接入,暂未详细说明,后续将补充相关流程。
访问SkyWalking UI,展示应用监控数据,包括拓扑图、API调用详情等,实现全链路监控功能。
总结,通过Docker环境部署Apache SkyWalking,实现应用监控与优化,简化服务器管理,并提供直观的可视化界面,便于监控应用性能与问题定位。
线上环境OOM频发,MyBatis有坑...
线上服务频繁遭遇 OutOfMemoryError(OOM)问题,对业务造成了严重影响,一天内服务重启多达五次,导致整个系统几乎瘫痪。通过Skywalking追踪,发现链路调用大部分呈现红色,亟待解决。作为排查者,我接手了这个任务。
首先,我分析了OOM的常见原因,主要包括堆内存和元空间不足。在我们的案例中,Mybatis的问题浮出水面。源码分析显示,Mybatis在拼接SQL时,通过集合存储SQL和参数,当SQL参数过多导致SQL过长时,集合会变得庞大,回收不及时就会引发内存溢出。
由于环境限制,无法直接通过jstack、jmap工具定位问题,这增加了排查的难度。但在网络搜索中,我找到了一篇与DruidDataSource和Mybatis相关的问题,这让我找到了问题的线索,即多线程并发操作可能导致内存占用过高,从而触发OOM。
进一步的源码分析揭示,DynamicContext类中的ContextMap(继承自HashMap)在存储SQL参数和占位符时,存在无法被GC回收的问题。当并发查询量增加时,这可能导致内存溢出。我通过线上复现情景,验证了这一理论,发现服务频繁进行Full GC,最终引发了OOM。
针对问题,我提出解决方案:优化SQL拼接,避免过长的SQL体积,强调代码和SQL编写的重要性。同时,为了应对未来可能的故障,我配置了docker中的OOM保留dump文件,以备不时之需。