0%

记一次离谱的电脑问题排查

前情提要

最近因为课程需要要用到CUDA并行计算,而我在用的是一张AMD的6500XT,考虑到最近魔幻的显卡价格并不打算购入新显卡,于是打算和朋友的T600显卡换着用一下。借着国庆节假期见面的机会,两人交换了显卡,然后兴高采烈的准备换上新显卡,问题出现了……

image-20221007234000366

问题出现

安装好显卡后,开机,安装显卡驱动,刚安装完准备来一把畅快淋漓的守望先锋,结果电脑突然黑屏……显示器怎么也都显示没有信号,无奈之下只好强制重启。

这个时候,我还单纯的以为出现BUG了。

驱动打架?

重启电脑之后,问题并没有消失。在开机进入系统后没几秒钟,同样的问题再次出现。

我回忆了一下,貌似我在安装NVIDIA驱动的时候忘记了卸载AMD的驱动。或许是两个显卡驱动冲突了?虽然感觉安装AMD显卡驱动一般不会影响NVIDIA驱动的正常运行,但没有其他思路,那就先尝试解决下。

进入高级选项,通过安全模式启动,安全模式下卸载AMD驱动。重启,问题依旧存在。

硬盘坏了?

这个时候启动后进入BIOS是一切正常的,但一旦进入系统就会直接黑屏,我开始怀疑是不是硬盘出了问题。

但后面经过排查,即便黑屏了之后,但NUMLOCK的灯还是可以正常亮灭的。试了试winxuu快捷键,系统可以正常关机,OK,系统应该还在正常运行。那么,应该不是硬盘的原因。因为如果是硬盘原因导致黑屏,应该是系统中断了才对。

嗐,不就是重装系统吗?

思考到这的时候,我感觉应该不像硬件原因。因为机器是能正常点亮的,有时候甚至能进入到系统几秒钟。

或许是系统出问题了,又或者是AMD驱动没卸载干净,有残留?总之,看起来确实像软件不兼容的问题。那么…重装系统吧。

先是重制电脑,不行那就制作启动盘,下载镜像,格盘重装新系统……

系统安装好后,果然能正常进入系统了,重启了几次确定没有问题了之后,开始装驱动……

结果一安装NVIDIA驱动,电脑又寄了。

image-20221007233914077

老黄你给我死!

这个时候我的怒火都被这个驱动勾起来了。看了看驱动的版本,是前几天刚刚发布的,我强烈怀疑是这个驱动存在严重BUG。这时,我感觉问题距离解决只有一步之遥了。

于是卸载掉新的驱动下载了上个版本的驱动,安装好后还是有问题,再卸掉再下载上上个版本….

就这么折腾了两次,问题还是没有解决,我绝望了,因为上上个版本的驱动我之前用过,是没问题的….

我这也不是矿卡啊?!

可能是因为频繁强制关机的缘故,很多时候已经连进入BIOS的时候都点不亮了。需要关机,休息一段时间在启动才醒。

我害怕了,我开始怀疑显卡真的出现问题了。

我不相信,也不愿相信。为什么?

她只是一张TDP只有45W的卡哎,虽然和1650同一核心,但频率低的令人发指。而且这也不可能是矿卡啊?我是在正经渠道买的全新盒装的卡啊。退一万步讲,谁会拿着只有4G内存性能羸弱还铁贵的专业卡挖矿呢?

可是,她怎么这么脆弱?

曙光初现

在排查期间翻阅了大量的帖子,来希望获取一些有用的线索。可是,大多数都是无效信息,因为这次的问题太不常规了。

突然,有一个内容吸引到了我的注意:

image-20221007105213535

他电脑的症状和我的非常像,但我仔细看了看。他出现的问题和我不一样。他是因为PCIe延长线不支持4.0,而显卡默认开启4.0导致的。而我….从主板到延长线到显卡…就每一个支持4.0的…..

但这个帖子最大的意义不在于此,我突然意识到,也许,问题就出现在延长线上。

先从PCIe协议开始

既然上面贴主是因为显卡协议的原因,那我就先从协议开始排查。

BIOS里先设置成PCIe2.0试一试,但是没有用。然而BIOS里设置不了通道数。而6500XT工作在PCIe3.0x4,而t600工作在x16——这一点区别很可能是造成无法正常使用的原因。

软的不行那就来硬的

既然设置里调不了,那就干脆拆开!

因为我是一个ITX机箱,拆装主机的话非常麻烦,所以不到万不得已,我是不想拆它的。

显示把显卡和延长线拆下来,把金手指全部擦拭一遍,重新插拔,以免接触不良。但是没有起到效果

整机拆掉,显卡直插主板不用延长线,终于,终于,终于,电脑恢复正常了。

还没完呢….

问题发现了,还是要解决。

考虑到6500XT和T600的区别,主要出现在两点:

  • 6500XT工作在PCIe x4,而T600工作在x16
  • 6500XT独立供电,而T600在主板取电(TDP45W)

为弄清原因,我去问了问卖家。卖家明确这个延长线是支持PCIe3.0x16的,而且我确实有看到评论区使用x16通道的显卡。对于延长线可通过的最大功率,卖家没有给出明确答复,但有说无独立供电的显卡是可以使用的。

我感觉问题可能出在供电不足,也许是这跟线的最大电流有限制,也可能这根线本来就有问题。

后续

好在东西买了没几个月还在保,卖家同意检修已经给寄回去了。如果检测到问题,就换新,没有就原件寄回。

至于能否检查到问题,我还要打一个问号。因为很可能,只有用PCIe3x16非独立供电的显卡时才会出问题,而这种卡少之又少,因此检测人员可能很难复现。

不过,我还是期待卖家可以寄回一条新的正常的线来试一试。

你问我,没有转接线,那电脑怎么用?新概念开放式机箱了解一下~

img

结语

这种出现在显卡延长线上的问题真的很难排查,因为很少出问题,所以一般想不起它。当把所有可能的问题都想一遍了之后,才会去考虑到。

b站一老哥因为显卡延长线的问题,折腾了50个小时,终于发现了问题,我比他强点,折腾了接近5个多小时HAHAHAHAH

image-20221008001608047

最后的最后,我要吐槽垃圾Windows11!

为什么第一次启动强制联网激活!?

为什么强制联网激活!?

为什么强制联网!?

用了网上说的结束网络连接流进程的办法还是不起作用,短暂跳过联网界面后又返回到原联网的界面。

而我联网是需要浏览器登陆的OK?!你强制我联网,还不允许调出浏览器登陆!微软设计师就这?

最后还花了我流量来搞你Windows更新。

image-20221008002250729