如果不编码，你的硬盘只能存下 1 分钟的电影：揭秘视频编码的本质

你有没有想过，当我们每天在 Bilibili 刷高清视频，或者在 Netflix 上看 4K 电影时，数据到底是如何传输的？

我们习以为常的“点击即播”，背后其实是一场数学与感知的魔法。如果视频没有经过“编码”处理，我们现有的互联网带宽和硬盘技术将在瞬间崩溃。

今天我们就来聊聊视频编码的核心目的：压缩，以及它是如何把庞然大物装进手机里的。

1. 算一笔账：未压缩的视频有多恐怖？

很多刚接触视频处理的朋友（特别是做后期剪辑的）可能会疑惑：“为什么我导出的视频要选 H.264？为什么不能直接存？”

我们可以用小学数学算一笔账。假设我们要保存一部规格为 1080P、60帧/秒、8bit色彩 的“裸奔”视频（Raw Video）：

一帧画面的大小：
一秒钟的数据量：
一分钟的大小：

结论是惊人的： 如果不进行编码压缩，一部 2小时的电影 将占用 2.7 TB 的空间。

别说在线看了，你那块 2TB 的机械硬盘甚至连一部电影都装不下。而经过 H.264 或 H.265 编码后，这部电影可以被压缩到 2GB - 5GB，体积缩小了 500 到 1000 倍，且画质肉眼几乎看不出区别。

这就是编码存在的唯一理由：为了生存。

2. 它是怎么做到的？消灭“三种冗余”

视频编码（Codec）的工作本质，就是寻找并删除视频中的“废话”。在技术上，我们称之为“去冗余”。

A. 空间冗余 (Spatial Redundancy) —— “这一片都是蓝的”

想象一下电影里的一片蓝天。在原始数据中，计算机会傻傻地记录几百万个像素：“第1个点是蓝色，第2个点是蓝色……第100万个点还是蓝色”。

编码器的做法：它会说“从坐标(0,0)到(500,500)这块区域，全是蓝色 #0000FF”。瞬间，几百万字节的数据变成了一句话。这和 JPEG 图片压缩的原理类似，我们称之为帧内压缩 (Intra-frame)。

B. 时间冗余 (Temporal Redundancy) —— “背景根本没动”

这是视频压缩最核心的魔法，也是为什么 GIF 图片特别大的原因。

在一段 10 秒的新闻联播画面中，主持人在说话，但背后的演播室背景是完全静止的。在原始视频里，每一帧都在重复记录那个背景。

编码器的做法：

第1帧 (I帧)：完整记录一张照片。
第2帧 (P帧/B帧)：只记录“变化的部分”（比如主持人的嘴动了一下）。对于没变的背景，直接引用第1帧的数据。

这就是帧间压缩 (Inter-frame)。这也是为什么 GIF 动图体积巨大的原因——GIF 就像个笨蛋，它把每一帧都当作全新的图片来存，完全不懂利用“时间冗余”。

C. 视觉冗余 (Visual Redundancy) —— “反正你也瞎”

人眼的进化是不完美的。我们对亮度（黑白）非常敏感，但对色度（颜色）的变化不那么敏感。

编码器的做法：在编码时（如 YUV420 采样），直接把颜色的分辨率砍掉一半甚至更多。虽然数据丢了，但你的大脑会自动脑补出完美的画面。这是一种“欺骗”人眼的艺术。

3. 编码的代价：不可能三角

既然压缩这么好，为什么不压得更小一点？比如把 2TB 压成 1MB？这就涉及到了视频编码的“不可能三角”：

码率 (Bitrate/Size)：文件要足够小。
画质 (Quality)：画面要足够清晰。
复杂度 (Complexity)：编码和解码要足够快。

H.264 (AVC)：之所以是经典，是因为它在这三者间取得了完美的平衡。
H.265 (HEVC)：为了更小的体积（同画质下比 H.264 小 50%），它让计算复杂度翻倍了。这就是为什么老电脑放 H.265 会卡。
AV1：未来的王者。为了追求极致的压缩（免费且高效），它把“计算复杂度”拉满了。如果没有专门的硬件（如 RTX 40系显卡或 N100 核显解码），CPU 根本跑不动。

4. 总结

视频编码的主要目的确实是压缩，但它不仅仅是把文件变小。

它是一种 用“算力”换“空间” 的交易。我们制造更强的芯片（CPU/GPU），让它们在毫秒间进行亿万次计算，以此来节省宝贵的网络带宽和存储空间。

下次当你看到一个 200MB 的高清电影文件时，请记得：那不仅仅是数据，那是数学家和工程师们在这个熵增的宇宙中，为你挤出来的秩序。

Share on

X Facebook LinkedIn Bluesky

如果不编码，你的硬盘只能存下 1 分钟的电影：揭秘视频编码的本质

Weiqing Liu

1. 算一笔账：未压缩的视频有多恐怖？

2. 它是怎么做到的？消灭“三种冗余”

A. 空间冗余 (Spatial Redundancy) —— “这一片都是蓝的”

B. 时间冗余 (Temporal Redundancy) —— “背景根本没动”

C. 视觉冗余 (Visual Redundancy) —— “反正你也瞎”

3. 编码的代价：不可能三角

4. 总结

Share on

Leave a comment

You may also enjoy

LLM 微调避坑指南：从训练动态到显存账本的深度解剖

房价暴跌，房租凭什么死撑？一场剥离金融幻觉的底层估值修复

告别“调包侠”：一文彻底搞懂交叉熵与KL散度的数学羁绊

沉默的伤痕：为什么我们不能遗忘“慰安妇”的历史？