AI 媒体技能
CLI-JAW 内置了 13 个技能,用于生成、编辑和处理图像、视频、音频及设计素材。这些技能封装了外部 AI 服务——DALL-E、Sora、fal.ai、Hugging Face 等——通过自然语言命令即可生成媒体内容,无需离开终端。
技能目录
| 技能 | 类别 | 描述 |
|---|---|---|
imagegen | 图像生成 | 通过 DALL-E 3 / gpt-image-1 生成图像。支持提示词、尺寸、质量和风格参数。 |
nano-banana-pro | 图像生成 | 通过 fal.ai 上的 Nano Banana Pro 管线快速生成图像。优先考虑速度而非质量。 |
fal-image-edit | 图像编辑 | 使用 fal.ai 模型编辑现有图像——局部重绘、外扩、风格迁移和背景移除。 |
sora | 视频生成 | 使用 OpenAI Sora 生成和编辑视频片段。支持文本转视频和图像转视频工作流。 |
speech | 音频生成 | 通过 OpenAI TTS 进行文本转语音合成。支持多种声音、语速和输出格式。 |
transcribe | 音频处理 | 通过 Whisper 进行音频和视频转录。生成 SRT/VTT/JSON 格式的带时间戳字幕。 |
hugging-face-cli | 机器学习管线 | 从命令行运行 Hugging Face 模型推理。支持文本、图像和音频任务。 |
hugging-face-evaluation | 机器学习管线 | 使用标准基准测试和指标评估 Hugging Face 模型。 |
hugging-face-model-trainer | 机器学习管线 | 在自定义数据集上微调 Hugging Face 模型,支持 LoRA/QLoRA。 |
algorithmic-art | 生成艺术 | 使用代码驱动的图案、分形和数学可视化创建算法艺术和生成艺术。 |
canvas-design | 设计 | 设计基于画布的图形——布局、横幅、社交媒体帖子和合成视觉效果。 |
atlas | 设计 | 生成和操作纹理图集与精灵图,用于游戏和 UI 素材。 |
theme-factory | 设计 | 从种子颜色或图像为应用和网站生成配色主题、调色板和设计令牌。 |
图像生成
imagegen 技能是创建图像的主要入口。它会根据模型配置将请求委派给 DALL-E 3 或 gpt-image-1。
自然语言示例
"이미지 생성해줘 -- 석양이 지는 서울 남산타워""Generate a watercolor painting of a mountain lake at dawn""로고 만들어줘 -- 미니멀한 고양이 실루엣, 파란색 배경"
# 基本生成
/imagegen a cyberpunk cityscape at night, neon lights reflecting on wet streets
# 带参数
/imagegen --size 1792x1024 --quality hd a photo-realistic coral reef
# 使用 nano-banana-pro 进行快速草稿
/nano-banana-pro quick sketch of a robot barista
imagegen 参数
| 参数 | 默认值 | 描述 |
|---|---|---|
--size | 1024x1024 | 输出尺寸:1024x1024、1792x1024、1024x1792 |
--quality | standard | standard 或 hd |
--style | vivid | vivid 或 natural |
--model | dall-e-3 | dall-e-3 或 gpt-image-1 |
--output | ./output | 生成文件的输出目录 |
图像编辑
fal-image-edit 技能处理生成后的编辑操作:局部重绘区域、扩展画布、风格迁移和背景移除。
自然语言示例
"이 이미지에서 배경 지워줘""사진의 하늘을 노을로 바꿔줘""Extend this image to the right with more forest"
# 移除背景
/fal-image-edit --task remove-bg input.png
# 局部重绘区域(根据提示词自动检测蒙版)
/fal-image-edit --task inpaint --prompt "replace the car with a bicycle" photo.jpg
# 风格迁移
/fal-image-edit --task style-transfer --style "oil painting" photo.jpg
视频生成
sora 技能使用 OpenAI Sora 根据文本或图像提示生成短视频片段。
自然语言示例
"영상 만들어줘 -- 바닷가에서 뛰어노는 강아지""Create a 5-second video of clouds forming over a mountain""이 사진을 영상으로 변환해줘"
# 文本转视频
/sora a timelapse of flowers blooming in a meadow --duration 5s
# 图像转视频(将静态图像动画化)
/sora --input cover.png --prompt "gentle camera zoom out" --duration 3s
sora 参数
| 参数 | 默认值 | 描述 |
|---|---|---|
--duration | 5s | 片段时长:3s、5s、10s |
--resolution | 720p | 480p、720p、1080p |
--input | - | 图像转视频的源图像 |
--output | ./output | 输出目录 |
音频:语音合成与转录
两个互补的技能处理音频管线:speech 将文本转换为语音音频,transcribe 将音频/视频转换为带时间戳的文本。
自然语言示例
"이 텍스트 읽어줘 -- 오늘의 뉴스 요약입니다""이 영상 자막 만들어줘""Convert this meeting recording to subtitles""음성 파일로 변환해줘 -- alloy 목소리로"
# 文本转语音
/speech "Welcome to CLI-JAW. Your daily briefing is ready." --voice alloy
# 自定义语速和格式的语音合成
/speech --voice nova --speed 1.2 --format mp3 "오늘의 할 일을 알려드리겠습니다."
# 转录音频
/transcribe meeting-recording.m4a --format srt
# 带语言提示的视频转录
/transcribe presentation.mp4 --language ko --format vtt
speech 参数
| 参数 | 默认值 | 描述 |
|---|---|---|
--voice | alloy | alloy、echo、fable、onyx、nova、shimmer |
--speed | 1.0 | 播放速度:0.25 到 4.0 |
--format | mp3 | mp3、opus、aac、flac、wav |
transcribe 参数
| 参数 | 默认值 | 描述 |
|---|---|---|
--format | srt | srt、vtt、json、text |
--language | auto | ISO 639-1 语言提示(例如 ko、en、ja) |
--model | whisper-1 | Whisper 模型变体 |
Hugging Face 管线
三个技能封装了 Hugging Face 生态系统,可直接从命令行进行推理、评估和训练。
自然语言示例
"이 이미지 분류해줘 -- Hugging Face 모델로""모델 파인튜닝 해줘 -- LoRA로 학습""Evaluate this model on the GLUE benchmark"
# 使用指定模型运行推理
/hugging-face-cli --model stabilityai/stable-diffusion-xl-base-1.0 \
--task text-to-image "a serene japanese garden"
# 评估模型
/hugging-face-evaluation --model bert-base-uncased \
--benchmark glue --split validation
# 使用 LoRA 微调
/hugging-face-model-trainer --base meta-llama/Llama-3-8B \
--dataset ./training-data.jsonl \
--method lora --epochs 3 --lr 2e-4
支持的任务类型
| 技能 | 任务 |
|---|---|
hugging-face-cli | text-generation、text-to-image、image-classification、summarization、translation、fill-mask、question-answering |
hugging-face-evaluation | GLUE、SuperGLUE、SQuAD、自定义指标评估 |
hugging-face-model-trainer | LoRA、QLoRA、全量微调、DPO、RLHF |
生成艺术与设计
四个技能涵盖设计工作流——从算法图案到完整的设计令牌系统。
algorithmic-art
生成代码驱动的视觉艺术:分形、Voronoi 图、L-系统、流场和数学曲面。
# 生成分形
/algorithmic-art --type mandelbrot --palette ocean --size 2048x2048
# 流场可视化
/algorithmic-art --type flowfield --seed 42 --particles 5000
canvas-design
将文本、形状和图像合成到画布上。适用于社交媒体图形、横幅和缩略图。
自然语言示例
"배너 만들어줘 -- 1200x630, 제목은 '신제품 출시'""Create an Instagram story template with gradient background"
# 创建社交媒体横幅
/canvas-design --size 1200x630 \
--background "linear-gradient(135deg, #667eea, #764ba2)" \
--text "Product Launch" --font-size 64
atlas
将多张图像打包为优化的精灵图和纹理图集,并附带 JSON 元数据。
# 将图标打包为精灵图
/atlas --input ./icons/ --output spritesheet.png --padding 2
# 生成并附带元数据
/atlas --input ./frames/ --output atlas.png --meta atlas.json
theme-factory
从种子颜色、图像或概念生成完整的配色系统。输出 CSS 自定义属性、Tailwind 配置和设计令牌。
自然语言示例
"테마 만들어줘 -- 따뜻한 가을 느낌, 다크모드 포함""Generate a color palette from this brand logo"
# 从种子颜色生成
/theme-factory --seed "#4F46E5" --mode both --format css
# 从图像生成
/theme-factory --from-image hero.jpg --format tailwind
# 从概念生成
/theme-factory --concept "warm autumn forest" --format tokens
输出处理
所有媒体技能遵循一致的输出模式:
- 文件输出——生成的文件保存到
--output目录(默认:./output) - 内联预览——在 Electron 桌面应用或 Web UI 中运行时,图像会内联显示
- 剪贴板——传入
--copy可将输出文件路径复制到系统剪贴板 - 管道友好——所有技能将输出文件路径打印到 stdout,便于链式调用
# 将生成结果链式传入编辑
/imagegen "a forest cabin" | xargs -I {} /fal-image-edit --task style-transfer --style "watercolor" {}
# 生成后立即打开
/imagegen "sunset over the ocean" && open ./output/latest.png
配置
API 密钥和默认值通过 ~/.cli-jaw/config.yaml 或环境变量进行配置:
# config.yaml
skills:
imagegen:
default_model: gpt-image-1
default_quality: hd
output_dir: ~/Pictures/cli-jaw
sora:
default_duration: 5s
default_resolution: 1080p
speech:
default_voice: nova
transcribe:
default_format: srt
default_language: ko
# 环境变量
export OPENAI_API_KEY="sk-..." # imagegen, sora, speech, transcribe
export FAL_KEY="fal-..." # nano-banana-pro, fal-image-edit
export HF_TOKEN="hf_..." # hugging-face-* skills