AI 图片识别
「AI 图片识别」让你上传图片后一键生成多语言 alt——不用运营手填,几秒搞定,且每种语言独立。
后台入口:媒体库 → 选中图片后顶部 AI 识别 按钮
什么是 alt 文本
Section titled “什么是 alt 文本”alt = HTML <img alt="..."> 属性——
作用:
- SEO:搜索引擎理解图片内容
- 可访问性:屏幕阅读器给视障用户朗读
- 图片加载失败时:浏览器显示 alt 文字代替图片
好的 alt vs 差的 alt:
| ✅ 好 | ❌ 差 |
|---|---|
| 「一台红色的工业激光切割机正在切割钢板」 | 「图片」 |
| 「客户头像:张总,邦你科技 CEO」 | 「IMG_2026.jpg」 |
| 「公司团队合照(10 人)」 | 「团队」 |
-
进媒体库
-
点选要识别的图片
-
顶部出现 AI 识别 按钮 → 点
-
系统调用 AI 视觉模型分析图片:
- 识别物体、场景、文字
- 每种站点启用的语言生成一份 alt
- 通常 3-5 秒返回
-
结果展示:
AI 识别结果:中文:「一台红色的工业激光切割机正在精确切割厚钢板,火花飞溅」English: "A red industrial laser cutter precisely cutting through thick steel plate with sparks flying"日本語:「赤色の工業用レーザー切断機が分厚い鋼板を精密に切断し、火花が飛び散っている」 -
审核 + 接受:
- 直接 采用 → 写入图片的 alt 字段
- 或 修改后采用
- 或 重新识别(用不同语气提示)
媒体库支持多选 + 批量 AI 识别:
-
进媒体库
-
多选图片(Cmd / Ctrl + 点击 / 框选)
-
顶部出现 批量 AI 识别
-
弹窗确认:
即将批量识别 25 张图片- 启用的语言:中 / 英 / 日(3 种)- 预估调用:75 次(每图 3 次)- 预估成本:$0.75(GPT-4 Vision)[取消] [开始] -
开始 → 进度条显示当前 / 总数
-
完成后:所有图片自动写入多语言 alt
AI 视觉模型选择
Section titled “AI 视觉模型选择”跟翻译模型一样,可以单独为视觉任务选模型:
| 模型 | 视觉能力 | 速度 | 成本 |
|---|---|---|---|
| GPT-4 Vision | 最强 | 慢 | 高 |
| GPT-4o | 强 | 快 | 中 |
| Claude 3.5 Sonnet | 强 | 快 | 中 |
| GLM-4V(智谱) | 良好 | 快 | 低 |
| Qwen-VL(通义) | 良好 | 快 | 低 |
详见 邮件通知与 AI 模型。
识别质量陷阱
Section titled “识别质量陷阱”1. 含品牌 / 文字的图片
Section titled “1. 含品牌 / 文字的图片”AI 可能:
- 误读 logo 文字(OCR 不一定准)
- 不认识你的品牌
解决:
- 在 AI 提示里加品牌名(如”图中的 BangNiCMS 是品牌名,不要翻译”)
- 重要图片的 alt 人工修订
2. 抽象 / 设计图
Section titled “2. 抽象 / 设计图”AI 描述抽象图常常空泛:
- 实际图:精心设计的 hero 配图
- AI 输出:「一张抽象的图」(无信息量)
解决:抽象图的 alt 人工填。
3. 多义场景
Section titled “3. 多义场景”举例:图中是”一个人在跑步” vs “一个运动员在比赛” vs “马拉松冠军到达终点”——同一张图三种不同 alt 角度。
解决:
- AI 给”中性描述”
- 业务场景需要的带情感 / 营销色彩的 alt 还是人工写
4. 隐私 / 人物
Section titled “4. 隐私 / 人物”AI 可能识别出具体人物的特征(性别、年龄、肤色)→ 隐私敏感场景需要避免。
解决:
- 涉及客户照片 / 团队照片,人工填中性 alt
- 别让 AI 给”看起来像 35 岁亚洲女性”这种细节描述
alt 长度建议
Section titled “alt 长度建议”| 长度 | 用途 |
|---|---|
| 5-10 字 | 装饰性图片(logo、icon) |
| 15-30 字 | 内容图片(产品图、配图) |
| 30-80 字 | 复杂图片(图表、信息图) |
| 80+ 字 | 罕见,通常该用 <figcaption> |
AI 默认生成 15-30 字——大多数场景合适。如果你需要更长或更短,在提示里说明。
何时该用 AI 识别
Section titled “何时该用 AI 识别”适合:
- ✅ 大量图片已上传但没填 alt(历史遗留)
- ✅ 多语言站点(手填多语言 alt 太累)
- ✅ 内容站(图片多、SEO 重要)
- ✅ 产品站(产品图集多)
不适合:
- ❌ 装饰性图片(直接 alt="")
- ❌ 极少量图片(人工更快)
- ❌ 隐私 / 人物图(中性人工 alt 更合适)
- ❌ 抽象设计图(AI 描述无信息)
与媒体库 alt 字段的关系
Section titled “与媒体库 alt 字段的关系”特点:
- AI 识别写入媒体库图片的 alt 字段
- alt 字段多语言独立——每种语言一份 alt
- 主题前台
<img>渲染时根据当前语言取对应 alt
手填 vs AI(200 张图片,5 种语言):
| 方式 | 时间 | 成本 |
|---|---|---|
| 运营手填(每张多语言 alt 平均 2 分钟) | 33 小时 | 200 元 / 小时 × 33 = ¥6600 |
| AI 批量识别 + 抽检 | 1 小时(含审核) | $20-30 = ¥150-200 |
AI 节省 95% 成本——还是同等质量。
AI 识别出错了怎么办?
Section titled “AI 识别出错了怎么办?”直接编辑该图片的 alt 字段——人工修改。AI 识别只是”提供初稿”。
我能给 AI 视觉指定提示吗(如”详细描述产品功能”)?
Section titled “我能给 AI 视觉指定提示吗(如”详细描述产品功能”)?”当前 BangNiCMS UI 不支持自定义提示词——开发者可以扩展。如有需求让开发者实现。
视觉模型识别普通图片要多大?
Section titled “视觉模型识别普通图片要多大?”主流视觉模型都支持最大 20 MB / 4096×4096 像素。BangNiCMS 上传的图通常远低于这个上限。
识别 GIF / 视频帧能行吗?
Section titled “识别 GIF / 视频帧能行吗?”当前:
- GIF:模型识别第一帧
- 视频:不直接识别——但视频自动生成的缩略图(参见 上传与媒体设置)可以走识别
如果业务需要”识别整段视频内容”,需要更复杂的视频理解模型,BangNiCMS 当前未内置。
我能让识别只生成默认语言再翻译吗?
Section titled “我能让识别只生成默认语言再翻译吗?”技术上可以——先识别中文,再用 AI 翻译生成其他语言。但直接让视觉模型多语言识别更准——因为视觉模型理解图像后用目标语言描述更自然,而”中文 → AI 翻译” 会损失视觉信息。