中国AI突破,卡帕西、马斯克力挺,语言VS像素引爆AI新范式
最近,人工智能领域发生了一件大事,这事儿不像以往那样比谁的模型参数多、谁的跑分高,而是从一个更根本的角度,给我们所有人都提了个醒。
这件大事的核心,是一家名为深度求索(DeepSeek)的中国公司推出的一个名为DeepSeek-OCR的技术。
表面上看,它是一个文字识别工具,但实际上,它点燃了一场关于人工智能未来发展方向的激烈争论:AI的终极食粮,究竟应该是我们人类使用的“语言文字”,还是构成我们视觉世界的“像素”?
这场讨论甚至吸引了像特斯拉AI负责人安德烈·卡帕西(Andrej Karpathy)和埃隆·马斯克这样的行业巨头下场表态,他们几乎异口同声地认为,未来的一切最终都将归结为像素。
这究竟是怎么一回事?
难道我们一直以来教AI读书认字的方式,从一开始就存在局限吗?
要理解这场争论,我们得先看看现在主流的人工智能大模型是怎么“学习”和“思考”的。
当我们给一个AI模型一篇长长的文章,比如一份几百页的法律合同或者公司年报时,模型并不能直接“阅读”。
它需要一个叫做“分词器”的中间工具。
这个工具会把整篇文章打碎,切成一个个独立的词语或者字符,这些碎片化的单位就是我们常说的“Token”。
然后,模型再把这一长串数以万计甚至百万计的Token作为输入,进行复杂的计算和理解。
这个过程一直以来都是AI处理语言的基石,但也带来了两个难以回避的巨大问题。
第一个问题是成本高得惊人。
如今的大模型,其核心是一种叫做“注意力机制”的算法。
这个算法的计算量与输入Token数量的平方成正比。
这是什么概念呢?
简单打个比方,如果处理1万个Token需要一定的计算资源,那么当输入增加到10万个Token时,计算量不是简单地增加10倍,而是会暴涨100倍。
这种指数级的增长,意味着处理长文档会消耗海量的计算能力、显存和电力,直接转化成普通企业和开发者难以承受的高昂费用。
这也是为什么目前很多AI应用在处理长文本时会显得力不从心,又慢又贵。
第二个问题是严重的信息损失。
一份精心制作的文档,比如PDF格式的报告,它的排版、字体大小、表格结构、图文对应关系本身就蕴含着丰富的信息。
一个加粗的标题告诉我们这是重点,一个清晰的表格让我们能快速对比数据。
然而,当“分词器”介入时,它会粗暴地将这些结构化的视觉信息夷为平地,把所有内容都拉平成一维的、毫无生气的文字流。
表格的网格线消失了,段落的层级关系模糊了,图片和说明文字的紧密联系也被切断了。
AI得到的,就像是一堆被拆散的乐高积木,虽然零件都在,但原本精巧的城堡造型已经荡然无存,它需要花费巨大的力气去猜测和重建这些本该一目了然的结构信息。
正当整个行业都在为这两个难题绞尽脑汁时,中国的DeepSeek团队提供了一个颠覆性的新思路。
他们提出,为什么一定要让AI一个字一个字地“读”呢?
为什么不能让它像我们人类一样,直接用眼睛“看”一整页呢?
这就是DeepSeek-OCR的核心理念。
它的工作方式非常巧妙:首先,它不再去解析文字,而是直接将一整页的文档,无论内容多复杂,都渲染成一张高清图片。
接着,它利用一个强大的视觉编码器,将这张信息量巨大的图片进行高效压缩,转化成数量极少的“视觉Token”。
这个转变带来的效果是革命性的。
根据DeepSeek公布的数据,一份在传统方法下可能需要超过10万个文本Token才能表示的复杂文档,通过这种视觉化的方式处理,可能只需要几百个视觉Token就足够了。
这意味着计算复杂度的瓶颈被瞬间打破,处理成本和延迟都可能实现数量级的下降。
有技术社区的从业者甚至粗略估算,基于这种技术,一块高性能的A100显卡,一天之内处理的文档页数有望达到惊人的20万页。
更重要的是,信息损失的问题也迎刃而解。
因为AI现在直接“看”图片,文档的排版、表格、甚至是手写的批注,这些视觉元素都被原封不动地保留了下来,AI可以像人一样直观地理解内容的结构和重点。
为了进一步提升效率,DeepSeek还引入了“多分辨率”机制。
它会先用一个低分辨率的“广角镜”快速扫描整个页面,掌握整体布局;然后,再用高分辨率的“放大镜”聚焦到表格、图表、脚注等关键细节区域。
这种“从粗到细”的处理方式,既保证了全局信息的完整性,又兼顾了局部细节的精确性,非常符合人类的认知习惯。
如果说上述创新还停留在工程优化的层面,那么DeepSeek团队提出的一个极具想象力的概念——“视觉遗忘”,则让这项技术带上了一丝哲学的思辨色彩。
他们认为,人类之所以拥有强大的长期记忆能力,恰恰是因为我们懂得遗忘。
我们不会把生活中的每一个细节都永久地、以同等清晰度保存在大脑中。
随着时间的流逝,久远的记忆会变得模糊,只留下关键的轮廓和情感,而新近发生的事情则细节分明。
DeepSeek尝试在AI身上模拟这种机制。
在它们的系统里,刚刚输入的信息会以最高分辨率被存储,细节完整;而随着时间的推移,这些信息的存储分辨率会逐渐降低,慢慢变得“模糊”,只保留最核心的语义信息。
这样一来,AI的上下文记忆就不再是一条无限延伸、所有信息都平等的长链,而变成了一个立体的、有远近深浅的记忆空间。
这种“主动遗忘”的机制,不仅极大地节省了存储和计算资源,也可能是在信息爆炸时代,让AI拥有可持续的、可扩展的长期记忆能力的唯一可行路径。
DeepSeek-OCR的发布,迅速在国际顶级技术圈引发了震动。
前OpenAI创始成员、被誉为“AI天才”的卡帕西在社交媒体上发表长文,直言不讳地表达了他对传统分词器的厌恶,并大胆断言:“也许所有大型语言模型的输入都应该是图像。”他认为,文本是人类创造的、带有历史包袱和各种不规范问题的符号系统,而像素是构成视觉世界的基本单位,是一种更纯粹、更通用的信息载体。
马斯克则将这一观点推向了物理学的极致,他评论道:“最终一切的输入输出都是光子。”他的意思是,无论是图像、视频还是我们眼睛看到的世界,其本质都是光子流,语言文字只是光在人类认知系统中的一种低维度投影。
当AI发展到足够高的阶段,它理应绕过人类语言这个“中间商”,直接去感知和理解由光构成的物理世界。
事实上,“让语言回归像素”的想法并非横空出世。
早在几年前,学术界就已经有相关研究,证明了用像素来建模语言,在处理多语言混合、生僻字以及对抗网络攻击等方面具有更强的稳健性。
但这些研究大多停留在理论探索阶段。
DeepSeek的贡献在于,它首次将这些前沿的学术思想,整合成了一套完整、高效、可实际应用的工程解决方案,并将其产品化,向世界展示了其巨大的应用潜力。
这充分证明了,在这一轮AI范式转移的浪潮中,中国团队不仅能够提出创新的思想,更有能力将其付诸实践,走在世界前列。
当然,我们也要客观地看到,视觉化输入并非万能药。
它也面临着自身的挑战,比如有损压缩可能带来的精度问题,如何建立一套可靠的评测体系来衡量“视觉理解”的准确性,以及如何处理不同渲染风格、扫描质量带来的数据差异等。
在很多纯粹依赖符号逻辑推理的任务上,传统的文本Token依然具有不可替代的优势。
因此,未来的发展方向很可能不是简单的“谁替代谁”,而是一种“视觉”与“文本”双通道并行、融合的模式,让AI根据不同的任务类型,智能地选择最合适的“感知”方式。
