中国AI突破，卡帕西、马斯克力挺，语言VS像素引爆AI新范式

最近，人工智能领域发生了一件大事，这事儿不像以往那样比谁的模型参数多、谁的跑分高，而是从一个更根本的角度，给我们所有人都提了个醒。

这件大事的核心，是一家名为深度求索（DeepSeek）的中国公司推出的一个名为DeepSeek-OCR的技术。

表面上看，它是一个文字识别工具，但实际上，它点燃了一场关于人工智能未来发展方向的激烈争论：AI的终极食粮，究竟应该是我们人类使用的“语言文字”，还是构成我们视觉世界的“像素”？

这场讨论甚至吸引了像特斯拉AI负责人安德烈·卡帕西（Andrej Karpathy）和埃隆·马斯克这样的行业巨头下场表态，他们几乎异口同声地认为，未来的一切最终都将归结为像素。

这究竟是怎么一回事？

难道我们一直以来教AI读书认字的方式，从一开始就存在局限吗？

要理解这场争论，我们得先看看现在主流的人工智能大模型是怎么“学习”和“思考”的。

当我们给一个AI模型一篇长长的文章，比如一份几百页的法律合同或者公司年报时，模型并不能直接“阅读”。

它需要一个叫做“分词器”的中间工具。

这个工具会把整篇文章打碎，切成一个个独立的词语或者字符，这些碎片化的单位就是我们常说的“Token”。

然后，模型再把这一长串数以万计甚至百万计的Token作为输入，进行复杂的计算和理解。

这个过程一直以来都是AI处理语言的基石，但也带来了两个难以回避的巨大问题。

第一个问题是成本高得惊人。

如今的大模型，其核心是一种叫做“注意力机制”的算法。

这个算法的计算量与输入Token数量的平方成正比。

这是什么概念呢？

简单打个比方，如果处理1万个Token需要一定的计算资源，那么当输入增加到10万个Token时，计算量不是简单地增加10倍，而是会暴涨100倍。

这种指数级的增长，意味着处理长文档会消耗海量的计算能力、显存和电力，直接转化成普通企业和开发者难以承受的高昂费用。

这也是为什么目前很多AI应用在处理长文本时会显得力不从心，又慢又贵。

第二个问题是严重的信息损失。

一份精心制作的文档，比如PDF格式的报告，它的排版、字体大小、表格结构、图文对应关系本身就蕴含着丰富的信息。

一个加粗的标题告诉我们这是重点，一个清晰的表格让我们能快速对比数据。

然而，当“分词器”介入时，它会粗暴地将这些结构化的视觉信息夷为平地，把所有内容都拉平成一维的、毫无生气的文字流。

表格的网格线消失了，段落的层级关系模糊了，图片和说明文字的紧密联系也被切断了。

AI得到的，就像是一堆被拆散的乐高积木，虽然零件都在，但原本精巧的城堡造型已经荡然无存，它需要花费巨大的力气去猜测和重建这些本该一目了然的结构信息。

正当整个行业都在为这两个难题绞尽脑汁时，中国的DeepSeek团队提供了一个颠覆性的新思路。

他们提出，为什么一定要让AI一个字一个字地“读”呢？

为什么不能让它像我们人类一样，直接用眼睛“看”一整页呢？

这就是DeepSeek-OCR的核心理念。

它的工作方式非常巧妙：首先，它不再去解析文字，而是直接将一整页的文档，无论内容多复杂，都渲染成一张高清图片。

接着，它利用一个强大的视觉编码器，将这张信息量巨大的图片进行高效压缩，转化成数量极少的“视觉Token”。

这个转变带来的效果是革命性的。

根据DeepSeek公布的数据，一份在传统方法下可能需要超过10万个文本Token才能表示的复杂文档，通过这种视觉化的方式处理，可能只需要几百个视觉Token就足够了。

这意味着计算复杂度的瓶颈被瞬间打破，处理成本和延迟都可能实现数量级的下降。

有技术社区的从业者甚至粗略估算，基于这种技术，一块高性能的A100显卡，一天之内处理的文档页数有望达到惊人的20万页。

更重要的是，信息损失的问题也迎刃而解。

因为AI现在直接“看”图片，文档的排版、表格、甚至是手写的批注，这些视觉元素都被原封不动地保留了下来，AI可以像人一样直观地理解内容的结构和重点。

为了进一步提升效率，DeepSeek还引入了“多分辨率”机制。

它会先用一个低分辨率的“广角镜”快速扫描整个页面，掌握整体布局；然后，再用高分辨率的“放大镜”聚焦到表格、图表、脚注等关键细节区域。

这种“从粗到细”的处理方式，既保证了全局信息的完整性，又兼顾了局部细节的精确性，非常符合人类的认知习惯。

如果说上述创新还停留在工程优化的层面，那么DeepSeek团队提出的一个极具想象力的概念——“视觉遗忘”，则让这项技术带上了一丝哲学的思辨色彩。

他们认为，人类之所以拥有强大的长期记忆能力，恰恰是因为我们懂得遗忘。

我们不会把生活中的每一个细节都永久地、以同等清晰度保存在大脑中。

随着时间的流逝，久远的记忆会变得模糊，只留下关键的轮廓和情感，而新近发生的事情则细节分明。

DeepSeek尝试在AI身上模拟这种机制。

在它们的系统里，刚刚输入的信息会以最高分辨率被存储，细节完整；而随着时间的推移，这些信息的存储分辨率会逐渐降低，慢慢变得“模糊”，只保留最核心的语义信息。

这样一来，AI的上下文记忆就不再是一条无限延伸、所有信息都平等的长链，而变成了一个立体的、有远近深浅的记忆空间。

这种“主动遗忘”的机制，不仅极大地节省了存储和计算资源，也可能是在信息爆炸时代，让AI拥有可持续的、可扩展的长期记忆能力的唯一可行路径。

DeepSeek-OCR的发布，迅速在国际顶级技术圈引发了震动。

前OpenAI创始成员、被誉为“AI天才”的卡帕西在社交媒体上发表长文，直言不讳地表达了他对传统分词器的厌恶，并大胆断言：“也许所有大型语言模型的输入都应该是图像。”他认为，文本是人类创造的、带有历史包袱和各种不规范问题的符号系统，而像素是构成视觉世界的基本单位，是一种更纯粹、更通用的信息载体。

马斯克则将这一观点推向了物理学的极致，他评论道：“最终一切的输入输出都是光子。”他的意思是，无论是图像、视频还是我们眼睛看到的世界，其本质都是光子流，语言文字只是光在人类认知系统中的一种低维度投影。

当AI发展到足够高的阶段，它理应绕过人类语言这个“中间商”，直接去感知和理解由光构成的物理世界。

事实上，“让语言回归像素”的想法并非横空出世。

早在几年前，学术界就已经有相关研究，证明了用像素来建模语言，在处理多语言混合、生僻字以及对抗网络攻击等方面具有更强的稳健性。

但这些研究大多停留在理论探索阶段。

DeepSeek的贡献在于，它首次将这些前沿的学术思想，整合成了一套完整、高效、可实际应用的工程解决方案，并将其产品化，向世界展示了其巨大的应用潜力。

这充分证明了，在这一轮AI范式转移的浪潮中，中国团队不仅能够提出创新的思想，更有能力将其付诸实践，走在世界前列。

当然，我们也要客观地看到，视觉化输入并非万能药。

它也面临着自身的挑战，比如有损压缩可能带来的精度问题，如何建立一套可靠的评测体系来衡量“视觉理解”的准确性，以及如何处理不同渲染风格、扫描质量带来的数据差异等。

在很多纯粹依赖符号逻辑推理的任务上，传统的文本Token依然具有不可替代的优势。

因此，未来的发展方向很可能不是简单的“谁替代谁”，而是一种“视觉”与“文本”双通道并行、融合的模式，让AI根据不同的任务类型，智能地选择最合适的“感知”方式。

中国AI突破，卡帕西、马斯克力挺，语言VS像素引爆AI新范式

电话咨询

产品展示

意昂体育