LLM 微调避坑指南:从训练动态到显存账本的深度解剖
在单卡(如 Tesla P100 16GB)上对大语言模型进行微调时,往往会遇到 Loss 不降、无限复读或显存溢出(OOM)等诡异问题。这篇博客将从底层逻辑出发,拆解 LLM 微调中的核心概念与显存消耗真相。
在单卡(如 Tesla P100 16GB)上对大语言模型进行微调时,往往会遇到 Loss 不降、无限复读或显存溢出(OOM)等诡异问题。这篇博客将从底层逻辑出发,拆解 LLM 微调中的核心概念与显存消耗真相。
近期房地产市场有一个极其违背直觉的现象:很多城市的二手房价格已经跌去了 20% 甚至 30%,但打工人们发现,自己每个月交的房租依然坚挺,甚至在部分核心地段还有微涨。
在深度学习的日常搬砖中,写出 criterion = nn.CrossEntropyLoss() 简直就像喝水一样自然。无论是做图像分类、验证码识别,还是训练大语言模型,交叉熵似乎永远是分类任务的标配。
在探讨近现代东亚历史与地缘政治时,有一个词汇始终重如千钧,那就是“慰安妇”。
大年初四去了浦东滨江,远远看到了一座高耸的纪念碑,突然感到奇怪,在这里怎么会有一座突兀的建筑,进一步思考下,我产生了一些想法。(之前在浦西近距离看到的时候没有想法)
打开手机,我们的信息流里总是充斥着各种离奇新闻:今天推送一条”某地老人上厕所意外去世”,明天又弹出”老人买105岁可领的保险,最终成功退款”的荒诞故事。在算法的推波助澜下,这类新闻轻易占据热搜,引发评论区的狂欢。
在 Proxmox VE (PVE) 中,主机 OOM Killer 可能杀死 QEMU 进程(虚拟机),保护方法包括 hookscript 设置 oom_score_adj、禁用内存气球和优化主机内存。 reddit
作为现代开发者,把 Windows 系统老旧的蓝底 PowerShell 5.1 升级为跨平台、高性能的 PowerShell Core (pwsh 7.x) 是提升效率的第一步。
在进行视频录制或直播时,很多新手都会遇到一个棘手的问题:桌面音频(如游戏声、音乐)声音太大,直接盖过了麦克风的人声。这不仅会让观众感到刺耳,还会导致后期音频无法处理。
最近在折腾 Home Assistant (HASS) 的公网穿透。我使用了 Cloudflare Tunnel,但发现了一个诡异的现象:本地访问秒开,CF 访问却转圈。在排查过程中,我从应用层的 HTTP 一路杀到了传输层的 TCP,甚至重新认识了 MySQL 这种老牌协议。