【故障公告】数据库服务器今年第六次 cpu 100% 故障-编程思维

自9月第五次数据库服务器 CPU 100% 故障之后,今天下午又出现数据库服务器 CPU 100% 故障,是今年的第六次。 自从园子2013年搬上阿里云,几乎每年都会遇到数据库服务器 CPU 100% 问题,但今年创造了新记录,一年还未结束,却已遭遇六次,最困难的一年,连故障也过来凑热闹。 今天的故障发生于 14:28~14:50 期间,我们在 14:30 左右发现故障,立即采用故障处理三板斧

【故障公告】遭遇用心良苦的疯狂攻击:ddos + cc攻击-编程思维

2023年10月2日19:32,收到阿里云的通知短信: 【阿里云】尊敬的xxx:您的IP:xxx.xxx.xxx.xxxx 实例名称:blog-xxxxxx 受到攻击,攻击流量已超过DDoS基础防护的黑洞阈值,服务器的所有公网访问已被屏蔽,屏蔽时长20分钟,屏蔽时间内未再次被攻击将自动解除否则会延期解除。详情请登录流量安全控制台-事件中心查看。 最近几年几乎每年都会遇到短暂的 DDoS

【故障公告】今年第五次:数据库服务器 cpu 100%-编程思维

会员救园,故障添乱,今天凌晨 04:06~05:40 期间,园子的数据服务器再次出现 CPU 100% 故障,由此给您带来麻烦,请您谅解。 这是今年的第5次故障,第1次发生于2023年3月26日,第2次发生于2023年8月19日,第3次与第4次发生于2023年8月31日。 这次由于出现在凌晨,发现比较晚,发现故障后,通过重启数据库实例恢复正常。 园子的数据库服务器使用的是阿里云 RDS SQL

【故障公告】一而再,再而三,三翻四复:数据库服务器 cpu 100%-编程思维

会员救园,故障捣乱,每当困难时,故障们总是喜欢雪上加霜过来考验你。 今天下班前 17:43~17:47 期间,园子的 SQL Server 数据库服务器突然出现 CPU 100% 问题。 发现问题后,我们立即火速赶往阿里云RDS控制台,重启了实例,重启后很快恢复正常。 快到19点的时候,正当我们准备发布“一而再,再而三”的故障公告时,故障来了个快速反击,19:00 数据库服务器又突然出现 CPU

【故障公告】被放出的 bing 爬虫,又被爬宕机的园子-编程思维

这些巨头爬虫们现在怎么了?记忆中2022年之前的十几年,园子没有遇到过被巨头爬虫们爬宕机的情况,巨头们都懂得爱护,都懂得控制节奏,都懂得在爬网时控制并发连接数以免给目标网站造成过大压力。 从去年开始,巨头爬虫们开始变了。首先从中文巨头爬虫中的佼佼者——百度蜘蛛开始,变得只追求自己“飞流直下三千尺,疑似银河落九天”的畅快,而不顾是否给目标网站带来“狂风暴雨后的一片狼藉”。在2022年4月3日与5月

【故障公告】下班前的一场暴风雨,爬虫爬至园宕机-编程思维

下班前的一场暴风雨,让园子一片狼藉。顶着暴风雨,加了服务器,但无济于事。情急之中,断蛛求生立转机。 今天下班前的 17:00~17:30 左右,身份未明的爬虫暴风雨般地袭击园子,造成数据库连接过万,全站宕机,由此给您带来很大的麻烦,请您谅解。 最终我们通过给百度蜘蛛断网才恢复正常,造成暴风雨的爬虫不一定是百度蜘蛛,由于缺乏足够的数据,这次袭击园子的爬虫身份无法确认。 给百度蜘蛛断网,是为了减少

【故障公告】阿里云 rds 数据库突发 cpu 近 100% 引发全站故障-编程思维团队-编程思维

今天晚上9点我们收到阿里云的告警通知: 【阿里云监控】华东1(杭州)-云数据库RDS版<cnblogsdb> [instanceId=xxx] 于21:00 发生告警, 前往诊断 CPU使用率平均值(98.25>=80 ), 持续时间4分钟, rds_CpuUsage 收到通知后,我们立即登录阿里云 RDS 控制台进行主备库切换,等主备库完成切换后一看并没有切换过来,赶紧

【故障公告】阿里云 rds 实例 cpu 100% 故障引发全站无法正常访问-编程思维团队-编程思维

非常抱歉,今天凌晨 3:20~8:30 左右,我们使用的阿里云 RDS 实例 SQL Server 2016 标准版突然出现 CPU 100% 故障,造成全站无法正常访问,由此给您带来巨大的麻烦,请您谅解。 问题很奇怪,故障期间是数据库服务器负载极低的时间段。从阿里云 RDS 控制台 CloudDBA 看,故障期间下面的一个 SQL 语句大量执行,并且极其消耗 CPU 。 开始我们以为是这

【故障公告】sql语句执行超时引发网站首页访问故障-编程思维团队-编程思维

非常抱歉,今天早上 6:37~8:15 期间,由于获取网站首页博文列表的 SQL 语句出现突发的查询超时问题,造成访问网站首页时出现 500 错误,由此给您带来麻烦,请您谅解。 故障的情况是这样的。 故障期间日志中记录了大量下面的错误。 2020-02-03 06:37:24.635 [Error] An unhandled exception has occurred while execu

【故障公告】再次遭遇sql语句执行超时引发网站首页访问故障-编程思维团队-编程思维

非常抱歉,昨天 18:40~19:10 再次遭遇上次遇到的 SQL 语句执行超时引发的网站首页访问故障,由此您带来麻烦,请您谅解。 上次故障详见之前的故障公告,上次排查下来以为是 SQL Server 参数嗅探问题引起的,但在引起参数嗅探的漏洞被修复后再次出现故障说明上次的判断是错误的。 今天出现故障时的表现与上次一样,唯一不同的地方是这次比上次更糟糕,即使主备切换也无法恢复。 后来我们从 S

k8s 开船记-故障公告:自建 k8s 集群在阿里云上大翻船-编程思维团队-编程思维

非常非常抱歉,新年上班第一天, 在今天阿里云上气候突变情况下,由于我们开船技术差,在今天 10:15~12:00 左右的访问高峰,我们竟然把船给开翻了,造成近2个小时整个博客站点无法访问,由此给您带来很大很大的麻烦,恳请您的谅解。 翻船经过如下。 翻船前的船只情况 博客站点正在使用的 k8s 集群一共用了 9 台 worker 节点服务器,在访问低峰时用 5 台,另外 4 台处于关机状态,在进入

【故障公告】新版博客后台部署时的配置问题引发故障-编程思维团队-编程思维

最近,我们对新版博客后台(Angular 8.2.7 + .NET Core 3.0)进行了灰度发布,如果您访问博客后台时跳转到 https://i-beta.cnblogs.com/ ,说明使用的就是新版博客后台。 今天我们在一次基于 gitlab-ci 的自动化发布过程中,由于操作问题在发布前没有对 appsettings.Production.json 的修改进行保存,造成容器在启动时使

迟到的故障公告:错误的缓存数据引发新版博客后台发布后的故障-编程思维团队-编程思维

10月18日晚上 22:00 ,我们对处于灰度发布阶段的新版博客后台(Angular 8.2.7 + .NET Core 3.0)进行了一次发布操作,在发布后由于清除缓存 web api 的一个 bug 造成在发布后通过新版博客后台修改的博文无法访问(404错误);在发现问题后,我们回退至发布之前的版本,但是由于 appsettings.Production.json 配置文件的不一致造成回退后

【故障公告】数据库服务器 cpu 近 100% 引发的故障(源于 .net core 3.0 的一个 bug)-编程思维团队-编程思维

非常抱歉,这次故障给您带来麻烦了,请您谅解。 今天早上 10:54 左右,我们所使用的数据库服务(阿里云 RDS 实例 SQL Server 2016 标准版)CPU 突然飙升至 90% 以上,应用日志中出现大量数据库查询超时的错误。 Microsoft.Data.SqlClient.SqlException (0x80131904): Execution Timeout Expired.

【故障公告】docker swarm 集群问题造成新版博客后台故障-编程思维团队-编程思维

非常抱歉,今天下午 16:55~17:05 左右,由于 docker swarm 集群的突发不稳定问题造成新版博客后台(目前处于灰度发布阶段)无法正常使用,由此给您带来麻烦,请您谅解。 出故障期时,新版博客后台的2个容器都无法正常启动。 AME NODE DESIRED STATE CURRENT STATE i_web

【故障公告】数据库服务器 cpu 近 100% 引发的故障-编程思维团队-编程思维

非常抱歉,今天上午 10:48 ~ 11:33 期间,我们所使用的数据库服务(阿里云 RDS 实例 SQL Server 2016 标准版)又出现了 CPU 近 100% 问题,由此给您带来麻烦,请您谅解。 这次刚开始出现 CPU 近 100% 问题时,没有造成大的影响,后来有段时间 CPU 降了下来,由于是访问高峰,我们没有敢立即进行主备切换,但 11:20 之后出现的 CPU 近 100%

多事之秋-最近在阿里云上遇到的问题:负载均衡失灵、服务器 cpu 100%、被 ddos 攻击-编程思维团队-编程思维

昨天 22:00~22:30 左右与 23:30~00:30 左右,有1台服役多年的阿里云负载均衡突然失灵,造成通过这台负载均衡访问博客站点的用户遭遇 502, 503, 504 ,由此给您带来麻烦,请您谅解。 问题非常奇怪,从表现看,似乎负载均衡与后端服务器之间的内网通信出现了问题。有时健康检查成功,但转发请求到后端服务器会失败;后端服务器明明正常,有时健康检查却失败;最糟糕的时候,所有后端服

【故障公告】docker swarm 集群问题引发的故障-编程思维团队-编程思维

我们的生产环境部署了 2 个 docker swarm 集群,集群 swarm-a 用于专门跑博客站点,集群 swarm-b 用于跑其他站点,manager 节点用了阿里云包月服务器,worker 节点用了阿里云抢占式实例。 今天 11:03 收到阿里云的短信通知“您的抢占式实例:实例ID(实例名称)因库存变化,即将进入释放状态”,一共被释放了3台,其中1台是集群 swarm-a 的节点服务器,

云上的芯脏病:奇怪的阿里云 rds 数据库突发 cpu 近 100% 问题-编程思维团队-编程思维

最近遇到了奇怪的阿里云 RDS 数据库突发 CPU 近 100% 问题,遇到了3次。 第一次是10月12日(周六)凌晨 3:24 负载极低的时候开始出现,早上发现后进行了主备切换,恢复了正常。 第二次也是出现在10月12日,就在主备切换后不久,发现后又进行了主备切换,切换回之前出问题的服务器,恢复了正常。 第三次是昨天(10月18日)23:15 开始出现,今天早上(也是周六)发现后,再次通过