AI 媒体技能

CLI-JAW 内置了 13 个技能,用于生成、编辑和处理图像、视频、音频及设计素材。这些技能封装了外部 AI 服务——DALL-E、Sora、fal.ai、Hugging Face 等——通过自然语言命令即可生成媒体内容,无需离开终端。

技能目录

技能类别描述
imagegen图像生成通过 DALL-E 3 / gpt-image-1 生成图像。支持提示词、尺寸、质量和风格参数。
nano-banana-pro图像生成通过 fal.ai 上的 Nano Banana Pro 管线快速生成图像。优先考虑速度而非质量。
fal-image-edit图像编辑使用 fal.ai 模型编辑现有图像——局部重绘、外扩、风格迁移和背景移除。
sora视频生成使用 OpenAI Sora 生成和编辑视频片段。支持文本转视频和图像转视频工作流。
speech音频生成通过 OpenAI TTS 进行文本转语音合成。支持多种声音、语速和输出格式。
transcribe音频处理通过 Whisper 进行音频和视频转录。生成 SRT/VTT/JSON 格式的带时间戳字幕。
hugging-face-cli机器学习管线从命令行运行 Hugging Face 模型推理。支持文本、图像和音频任务。
hugging-face-evaluation机器学习管线使用标准基准测试和指标评估 Hugging Face 模型。
hugging-face-model-trainer机器学习管线在自定义数据集上微调 Hugging Face 模型,支持 LoRA/QLoRA。
algorithmic-art生成艺术使用代码驱动的图案、分形和数学可视化创建算法艺术和生成艺术。
canvas-design设计设计基于画布的图形——布局、横幅、社交媒体帖子和合成视觉效果。
atlas设计生成和操作纹理图集与精灵图,用于游戏和 UI 素材。
theme-factory设计从种子颜色或图像为应用和网站生成配色主题、调色板和设计令牌。

图像生成

imagegen 技能是创建图像的主要入口。它会根据模型配置将请求委派给 DALL-E 3 或 gpt-image-1。

自然语言示例
"이미지 생성해줘 -- 석양이 지는 서울 남산타워"
"Generate a watercolor painting of a mountain lake at dawn"
"로고 만들어줘 -- 미니멀한 고양이 실루엣, 파란색 배경"
# 基本生成
/imagegen a cyberpunk cityscape at night, neon lights reflecting on wet streets

# 带参数
/imagegen --size 1792x1024 --quality hd a photo-realistic coral reef

# 使用 nano-banana-pro 进行快速草稿
/nano-banana-pro quick sketch of a robot barista

imagegen 参数

参数默认值描述
--size1024x1024输出尺寸:1024x10241792x10241024x1792
--qualitystandardstandardhd
--stylevividvividnatural
--modeldall-e-3dall-e-3gpt-image-1
--output./output生成文件的输出目录

图像编辑

fal-image-edit 技能处理生成后的编辑操作:局部重绘区域、扩展画布、风格迁移和背景移除。

自然语言示例
"이 이미지에서 배경 지워줘"
"사진의 하늘을 노을로 바꿔줘"
"Extend this image to the right with more forest"
# 移除背景
/fal-image-edit --task remove-bg input.png

# 局部重绘区域(根据提示词自动检测蒙版)
/fal-image-edit --task inpaint --prompt "replace the car with a bicycle" photo.jpg

# 风格迁移
/fal-image-edit --task style-transfer --style "oil painting" photo.jpg

视频生成

sora 技能使用 OpenAI Sora 根据文本或图像提示生成短视频片段。

自然语言示例
"영상 만들어줘 -- 바닷가에서 뛰어노는 강아지"
"Create a 5-second video of clouds forming over a mountain"
"이 사진을 영상으로 변환해줘"
# 文本转视频
/sora a timelapse of flowers blooming in a meadow --duration 5s

# 图像转视频(将静态图像动画化)
/sora --input cover.png --prompt "gentle camera zoom out" --duration 3s

sora 参数

参数默认值描述
--duration5s片段时长:3s5s10s
--resolution720p480p720p1080p
--input-图像转视频的源图像
--output./output输出目录

音频:语音合成与转录

两个互补的技能处理音频管线:speech 将文本转换为语音音频,transcribe 将音频/视频转换为带时间戳的文本。

自然语言示例
"이 텍스트 읽어줘 -- 오늘의 뉴스 요약입니다"
"이 영상 자막 만들어줘"
"Convert this meeting recording to subtitles"
"음성 파일로 변환해줘 -- alloy 목소리로"
# 文本转语音
/speech "Welcome to CLI-JAW. Your daily briefing is ready." --voice alloy

# 自定义语速和格式的语音合成
/speech --voice nova --speed 1.2 --format mp3 "오늘의 할 일을 알려드리겠습니다."

# 转录音频
/transcribe meeting-recording.m4a --format srt

# 带语言提示的视频转录
/transcribe presentation.mp4 --language ko --format vtt

speech 参数

参数默认值描述
--voicealloyalloyechofableonyxnovashimmer
--speed1.0播放速度:0.25 到 4.0
--formatmp3mp3opusaacflacwav

transcribe 参数

参数默认值描述
--formatsrtsrtvttjsontext
--languageautoISO 639-1 语言提示(例如 koenja
--modelwhisper-1Whisper 模型变体

Hugging Face 管线

三个技能封装了 Hugging Face 生态系统,可直接从命令行进行推理、评估和训练。

自然语言示例
"이 이미지 분류해줘 -- Hugging Face 모델로"
"모델 파인튜닝 해줘 -- LoRA로 학습"
"Evaluate this model on the GLUE benchmark"
# 使用指定模型运行推理
/hugging-face-cli --model stabilityai/stable-diffusion-xl-base-1.0 \
  --task text-to-image "a serene japanese garden"

# 评估模型
/hugging-face-evaluation --model bert-base-uncased \
  --benchmark glue --split validation

# 使用 LoRA 微调
/hugging-face-model-trainer --base meta-llama/Llama-3-8B \
  --dataset ./training-data.jsonl \
  --method lora --epochs 3 --lr 2e-4

支持的任务类型

技能任务
hugging-face-clitext-generation、text-to-image、image-classification、summarization、translation、fill-mask、question-answering
hugging-face-evaluationGLUE、SuperGLUE、SQuAD、自定义指标评估
hugging-face-model-trainerLoRA、QLoRA、全量微调、DPO、RLHF

生成艺术与设计

四个技能涵盖设计工作流——从算法图案到完整的设计令牌系统。

algorithmic-art

生成代码驱动的视觉艺术:分形、Voronoi 图、L-系统、流场和数学曲面。

# 生成分形
/algorithmic-art --type mandelbrot --palette ocean --size 2048x2048

# 流场可视化
/algorithmic-art --type flowfield --seed 42 --particles 5000

canvas-design

将文本、形状和图像合成到画布上。适用于社交媒体图形、横幅和缩略图。

自然语言示例
"배너 만들어줘 -- 1200x630, 제목은 '신제품 출시'"
"Create an Instagram story template with gradient background"
# 创建社交媒体横幅
/canvas-design --size 1200x630 \
  --background "linear-gradient(135deg, #667eea, #764ba2)" \
  --text "Product Launch" --font-size 64

atlas

将多张图像打包为优化的精灵图和纹理图集,并附带 JSON 元数据。

# 将图标打包为精灵图
/atlas --input ./icons/ --output spritesheet.png --padding 2

# 生成并附带元数据
/atlas --input ./frames/ --output atlas.png --meta atlas.json

theme-factory

从种子颜色、图像或概念生成完整的配色系统。输出 CSS 自定义属性、Tailwind 配置和设计令牌。

自然语言示例
"테마 만들어줘 -- 따뜻한 가을 느낌, 다크모드 포함"
"Generate a color palette from this brand logo"
# 从种子颜色生成
/theme-factory --seed "#4F46E5" --mode both --format css

# 从图像生成
/theme-factory --from-image hero.jpg --format tailwind

# 从概念生成
/theme-factory --concept "warm autumn forest" --format tokens

输出处理

所有媒体技能遵循一致的输出模式:

# 将生成结果链式传入编辑
/imagegen "a forest cabin" | xargs -I {} /fal-image-edit --task style-transfer --style "watercolor" {}

# 生成后立即打开
/imagegen "sunset over the ocean" && open ./output/latest.png

配置

API 密钥和默认值通过 ~/.cli-jaw/config.yaml 或环境变量进行配置:

# config.yaml
skills:
  imagegen:
    default_model: gpt-image-1
    default_quality: hd
    output_dir: ~/Pictures/cli-jaw
  sora:
    default_duration: 5s
    default_resolution: 1080p
  speech:
    default_voice: nova
  transcribe:
    default_format: srt
    default_language: ko
# 环境变量
export OPENAI_API_KEY="sk-..."       # imagegen, sora, speech, transcribe
export FAL_KEY="fal-..."             # nano-banana-pro, fal-image-edit
export HF_TOKEN="hf_..."            # hugging-face-* skills