AI 图片识别

「AI 图片识别」让你上传图片后一键生成多语言 alt——不用运营手填，几秒搞定，且每种语言独立。

后台入口：媒体库 → 选中图片后顶部 AI 识别 按钮

待补充截图 选中图片后顶部出现「AI 识别」按钮，点击后显示进度 + 识别结果（中英文 alt）

AI 识别按钮与结果预览

什么是 alt 文本

alt = HTML <img alt="..."> 属性——

作用：

SEO：搜索引擎理解图片内容
可访问性：屏幕阅读器给视障用户朗读
图片加载失败时：浏览器显示 alt 文字代替图片

好的 alt vs 差的 alt：

✅ 好	❌ 差
「一台红色的工业激光切割机正在切割钢板」	「图片」
「客户头像：张总，邦你科技 CEO」	「IMG_2026.jpg」
「公司团队合照（10 人）」	「团队」

单图识别

进媒体库
点选要识别的图片
顶部出现 AI 识别 按钮 → 点
系统调用 AI 视觉模型分析图片：
- 识别物体、场景、文字
- 每种站点启用的语言生成一份 alt
- 通常 3-5 秒返回

结果展示：

AI 识别结果：

中文：「一台红色的工业激光切割机正在精确切割厚钢板，火花飞溅」
English: "A red industrial laser cutter precisely cutting through thick steel plate with sparks flying"
日本語：「赤色の工業用レーザー切断機が分厚い鋼板を精密に切断し、火花が飛び散っている」

审核 + 接受：
- 直接采用 → 写入图片的 alt 字段
- 或 修改后采用
- 或 重新识别（用不同语气提示）

批量识别

媒体库支持多选 + 批量 AI 识别：

进媒体库
多选图片（Cmd / Ctrl + 点击 / 框选）
顶部出现 批量 AI 识别

弹窗确认：

即将批量识别 25 张图片
- 启用的语言：中 / 英 / 日（3 种）
- 预估调用：75 次（每图 3 次）
- 预估成本：$0.75（GPT-4 Vision）

[取消] [开始]

开始 → 进度条显示当前 / 总数
完成后：所有图片自动写入多语言 alt

AI 视觉模型选择

跟翻译模型一样，可以单独为视觉任务选模型：

模型	视觉能力	速度	成本
GPT-4 Vision	最强	慢	高
GPT-4o	强	快	中
Claude 3.5 Sonnet	强	快	中
GLM-4V（智谱）	良好	快	低
Qwen-VL（通义）	良好	快	低

详见邮件通知与 AI 模型。

识别质量陷阱

1. 含品牌 / 文字的图片

AI 可能：

误读 logo 文字（OCR 不一定准）
不认识你的品牌

解决：

在 AI 提示里加品牌名（如”图中的 BangNiCMS 是品牌名，不要翻译”）
重要图片的 alt 人工修订

2. 抽象 / 设计图

AI 描述抽象图常常空泛：

实际图：精心设计的 hero 配图
AI 输出：「一张抽象的图」（无信息量）

解决：抽象图的 alt 人工填。

3. 多义场景

举例：图中是”一个人在跑步” vs “一个运动员在比赛” vs “马拉松冠军到达终点”——同一张图三种不同 alt 角度。

解决：

AI 给”中性描述”
业务场景需要的带情感 / 营销色彩的 alt 还是人工写

4. 隐私 / 人物

AI 可能识别出具体人物的特征（性别、年龄、肤色）→ 隐私敏感场景需要避免。

解决：

涉及客户照片 / 团队照片，人工填中性 alt
别让 AI 给”看起来像 35 岁亚洲女性”这种细节描述

alt 长度建议

长度	用途
5-10 字	装饰性图片（logo、icon）
15-30 字	内容图片（产品图、配图）
30-80 字	复杂图片（图表、信息图）
80+ 字	罕见，通常该用 `<figcaption>`

AI 默认生成 15-30 字——大多数场景合适。如果你需要更长或更短，在提示里说明。

何时该用 AI 识别

适合：

✅ 大量图片已上传但没填 alt（历史遗留）
✅ 多语言站点（手填多语言 alt 太累）
✅ 内容站（图片多、SEO 重要）
✅ 产品站（产品图集多）

不适合：

❌ 装饰性图片（直接 alt=""）
❌ 极少量图片（人工更快）
❌ 隐私 / 人物图（中性人工 alt 更合适）
❌ 抽象设计图（AI 描述无信息）

与媒体库 alt 字段的关系

详见媒体库 - AI 自动生成多语言图片说明。

特点：

AI 识别写入媒体库图片的 alt 字段
alt 字段多语言独立——每种语言一份 alt
主题前台 <img> 渲染时根据当前语言取对应 alt

成本对比

手填 vs AI（200 张图片，5 种语言）：

方式	时间	成本
运营手填（每张多语言 alt 平均 2 分钟）	33 小时	200 元 / 小时 × 33 = ¥6600
AI 批量识别 + 抽检	1 小时（含审核）	$20-30 = ¥150-200

AI 节省 95% 成本——还是同等质量。

常见问题

AI 识别出错了怎么办？

直接编辑该图片的 alt 字段——人工修改。AI 识别只是”提供初稿”。

我能给 AI 视觉指定提示吗（如”详细描述产品功能”）？

当前 BangNiCMS UI 不支持自定义提示词——开发者可以扩展。如有需求让开发者实现。

视觉模型识别普通图片要多大？

主流视觉模型都支持最大 20 MB / 4096×4096 像素。BangNiCMS 上传的图通常远低于这个上限。

识别 GIF / 视频帧能行吗？

当前：

GIF：模型识别第一帧
视频：不直接识别——但视频自动生成的缩略图（参见上传与媒体设置）可以走识别

如果业务需要”识别整段视频内容”，需要更复杂的视频理解模型，BangNiCMS 当前未内置。

我能让识别只生成默认语言再翻译吗？

技术上可以——先识别中文，再用 AI 翻译生成其他语言。但直接让视觉模型多语言识别更准——因为视觉模型理解图像后用目标语言描述更自然，而”中文 → AI 翻译” 会损失视觉信息。

接下来

AI SEO 写作 — SEO 自动生成
媒体库 — 图片管理详细