跳转到内容

AI 图片识别

「AI 图片识别」让你上传图片后一键生成多语言 alt——不用运营手填,几秒搞定,且每种语言独立。

后台入口:媒体库 → 选中图片后顶部 AI 识别 按钮

待补充截图 选中图片后顶部出现「AI 识别」按钮,点击后显示进度 + 识别结果(中英文 alt)
AI 识别按钮与结果预览

alt = HTML <img alt="..."> 属性——

作用

  • SEO:搜索引擎理解图片内容
  • 可访问性:屏幕阅读器给视障用户朗读
  • 图片加载失败时:浏览器显示 alt 文字代替图片

好的 alt vs 差的 alt

✅ 好❌ 差
「一台红色的工业激光切割机正在切割钢板」「图片」
「客户头像:张总,邦你科技 CEO」「IMG_2026.jpg」
「公司团队合照(10 人)」「团队」
  1. 进媒体库

  2. 点选要识别的图片

  3. 顶部出现 AI 识别 按钮 → 点

  4. 系统调用 AI 视觉模型分析图片:

    • 识别物体、场景、文字
    • 每种站点启用的语言生成一份 alt
    • 通常 3-5 秒返回
  5. 结果展示

    AI 识别结果:
    中文:「一台红色的工业激光切割机正在精确切割厚钢板,火花飞溅」
    English: "A red industrial laser cutter precisely cutting through thick steel plate with sparks flying"
    日本語:「赤色の工業用レーザー切断機が分厚い鋼板を精密に切断し、火花が飛び散っている」
  6. 审核 + 接受

    • 直接 采用 → 写入图片的 alt 字段
    • 修改后采用
    • 重新识别(用不同语气提示)

媒体库支持多选 + 批量 AI 识别

  1. 进媒体库

  2. 多选图片(Cmd / Ctrl + 点击 / 框选)

  3. 顶部出现 批量 AI 识别

  4. 弹窗确认:

    即将批量识别 25 张图片
    - 启用的语言:中 / 英 / 日(3 种)
    - 预估调用:75 次(每图 3 次)
    - 预估成本:$0.75(GPT-4 Vision)
    [取消] [开始]
  5. 开始 → 进度条显示当前 / 总数

  6. 完成后:所有图片自动写入多语言 alt

跟翻译模型一样,可以单独为视觉任务选模型:

模型视觉能力速度成本
GPT-4 Vision最强
GPT-4o
Claude 3.5 Sonnet
GLM-4V(智谱)良好
Qwen-VL(通义)良好

详见 邮件通知与 AI 模型

AI 可能:

  • 误读 logo 文字(OCR 不一定准)
  • 不认识你的品牌

解决

  • 在 AI 提示里加品牌名(如”图中的 BangNiCMS 是品牌名,不要翻译”)
  • 重要图片的 alt 人工修订

AI 描述抽象图常常空泛:

  • 实际图:精心设计的 hero 配图
  • AI 输出:「一张抽象的图」(无信息量)

解决:抽象图的 alt 人工填

举例:图中是”一个人在跑步” vs “一个运动员在比赛” vs “马拉松冠军到达终点”——同一张图三种不同 alt 角度。

解决

  • AI 给”中性描述”
  • 业务场景需要的带情感 / 营销色彩的 alt 还是人工写

AI 可能识别出具体人物的特征(性别、年龄、肤色)→ 隐私敏感场景需要避免。

解决

  • 涉及客户照片 / 团队照片,人工填中性 alt
  • 别让 AI 给”看起来像 35 岁亚洲女性”这种细节描述
长度用途
5-10 字装饰性图片(logo、icon)
15-30 字内容图片(产品图、配图)
30-80 字复杂图片(图表、信息图)
80+ 字罕见,通常该用 <figcaption>

AI 默认生成 15-30 字——大多数场景合适。如果你需要更长更短,在提示里说明。

适合

  • ✅ 大量图片已上传但没填 alt(历史遗留)
  • ✅ 多语言站点(手填多语言 alt 太累)
  • ✅ 内容站(图片多、SEO 重要)
  • ✅ 产品站(产品图集多)

不适合

  • ❌ 装饰性图片(直接 alt="")
  • ❌ 极少量图片(人工更快)
  • ❌ 隐私 / 人物图(中性人工 alt 更合适)
  • ❌ 抽象设计图(AI 描述无信息)

详见 媒体库 - AI 自动生成多语言图片说明

特点

  • AI 识别写入媒体库图片的 alt 字段
  • alt 字段多语言独立——每种语言一份 alt
  • 主题前台 <img> 渲染时根据当前语言取对应 alt

手填 vs AI(200 张图片,5 种语言):

方式时间成本
运营手填(每张多语言 alt 平均 2 分钟)33 小时200 元 / 小时 × 33 = ¥6600
AI 批量识别 + 抽检1 小时(含审核)$20-30 = ¥150-200

AI 节省 95% 成本——还是同等质量。

直接编辑该图片的 alt 字段——人工修改。AI 识别只是”提供初稿”。

我能给 AI 视觉指定提示吗(如”详细描述产品功能”)?

Section titled “我能给 AI 视觉指定提示吗(如”详细描述产品功能”)?”

当前 BangNiCMS UI 不支持自定义提示词——开发者可以扩展。如有需求让开发者实现。

视觉模型识别普通图片要多大?

Section titled “视觉模型识别普通图片要多大?”

主流视觉模型都支持最大 20 MB / 4096×4096 像素。BangNiCMS 上传的图通常远低于这个上限。

当前

  • GIF:模型识别第一帧
  • 视频:不直接识别——但视频自动生成的缩略图(参见 上传与媒体设置)可以走识别

如果业务需要”识别整段视频内容”,需要更复杂的视频理解模型,BangNiCMS 当前未内置。

我能让识别只生成默认语言再翻译吗?

Section titled “我能让识别只生成默认语言再翻译吗?”

技术上可以——先识别中文,再用 AI 翻译生成其他语言。但直接让视觉模型多语言识别更准——因为视觉模型理解图像后用目标语言描述更自然,而”中文 → AI 翻译” 会损失视觉信息。