ChatGPT图像识别能力解锁和深度分析

因为ChatGPT网页上没有上传图片按钮，所以一般人都不知道它能识别图片。但是其实它是可以识别图片的，你需要输入图片网址，确保图片不需要登录或者其他限制条件就能被美国服务器读取到。

目前看它读取Wiki、CNN图片都没有问题。

那么它能识别出什么内容？

普通新闻图片

ChatGPT没有识别出具体的装备型号，但是描述了一个非常贴近的场景氛围。对构图的视角有较强的理解力。

马克龙这张，没有识别出人脸，也没有识别出画面的文字。但是可以基本描述出画面内容，虽然有一些错误。重点是它对场景的猜测，和接近人的感觉，比如它说马克龙像是很有礼貌的人。

上面两张是识别精度一般的，这里还有画面特征比较强，识别精度较高的。

这幅越战美军搜查敌人的照片。被ChatGPT详细的描述了细节，这幅图的场景，人物和细节的信息量，会比上面的两张更大（ChatGPT看起来没有对特定的物体和人脸做针对性的优化），所以描述非常生动，虽然有少许错误。而且对人的工作态度这样抽象的信息也有理解。

值得注意的是这里提到警察。这图片来自Wiki越战词条。如果ChatGPT是通过读取连接的文字信息来获取图片信息的，那么就不会认为那些执行任务的人是警察。因此可以认为它的结论完全来自于图片信息。

这是一幅名画，这个时候ChatGPT是能完整的识别人物和事件的。同时仍然有很多抽象的描述，比如动感等。

这幅画，一开始ChatGPT没有看懂。给它输入更多信息之后，它能理解这幅画，且描述了画面的感情。所以ChatGPT对图片的理解是能够交互的，而不是一次性的输出。

伦敦地标识别成功。

红场识别准确

捏造了一个所谓地标，查了没有这样的地标。

ChatGPT是承认自己可以识别视频的，但是在油管、CNN等网站的内容识别中，输出有错误。这是业务没有开放造成的，它甚至知道我的问题是看快进的进度。

如果不多问一句，都不知道它是不是真的看了视频。

继续保持对ChatCPT的关注。