创建视频

从脚本到屏幕：生成第一个视频的完整指南。

1. 6 步工作流程

StoryTool 专为提高速度而设计。只需 6 个步骤即可创建准备发布的视频：

粘贴您的文字

输入您的脚本（最多支持约 60k 个字符）。

选择风格和声音

从 26 种视觉风格和 20 多种语言中进行选择。

选择药剂及比例

选择 Story Agent（小说）或 Edu Agent（信息）以及宽高比（16:9 或 9:16）。

添加品牌

上传您的片头、片尾并选择背景音乐。

元数据（可选）

点击“Gen Title”让AI建议SEO标题和描述。

产生

单击按钮开始渲染。

⚠️重要操作注意事项：

不可阻挡的过程: 一旦 Agent 收到命令，该过程就无法暂停或取消。学分立即扣除。请仔细检查您的设置。
处理时间: 代理需要时间来“想象”和渲染。
基准：大约 1000 个输入字符（大约 1 分钟视频）需要 ~10 分钟 来处理。

2. 高质量结果的最佳实践

A. 输入标准化（至关重要）

垃圾进来，垃圾出去。人工智能需要干净的数据才能表现良好。

逻辑与拼写: 检查拼写错误和逻辑流程。拼写错误的名称会导致角色视觉效果不一致。
标点: 使用正确的逗号和句号。长而连贯的句子会降低音频质量。
技术术语: 避免使用晦涩的缩写。

Pro Tip: 在将文本粘贴到此处之前，请使用 LLM（例如 GPT/Gemini）“标准化 TTS 文本”。

首先测试音频：使用创建音频页面生成示例画外音。如果音频不好，视频也会很糟糕。

B. 艺术指导和背景

匹配氛围： 对于信息内容，请使用 Edu Agent 并提供新鲜、中快的声音。对于故事，请使用 Story Agent。
定义上下文： 人工智能根据文本进行猜测。
- 模糊输入：“我沿着街道走。” → AI 随机猜测一条通用街道。
- 清晰的输入：“巴黎，1850 年代。我沿着鹅卵石街道行走。” → 人工智能生成 19 世纪的法国建筑。
- 注意：如果您的故事是法语，除非另有说明，AI 默认为法语设置。

3. 过程和输出

执行

您必须在生成之前验证两次。
单击“生成”后，您可以关闭浏览器/页面。服务器处理渲染。
等待时间: 根据输入长度，结果可能需要 8 分钟到 4-8 小时不等。

您收到什么（项目资产）

在项目页面的顶部，您会发现：

图片压缩

高分辨率源幻灯片

音频压缩

孤立的音轨

视频文件

高清 1080p，60 帧/秒

最终渲染（带/不带字幕）

SRT文件

多语言配音的软字幕

元数据文件：包括标题、描述、主题标签。

提示：使用“Gen Audio”页面中的 SRT 文件为 YouTube 创建多语言配音。

数据保留政策： 我们会将您的媒体存储1个月。请及时下载您的资源。

免责声明与安全

用户责任: 您有责任遵守版权和社区准则。
禁止内容: 包含严重暴力、血腥、NSFW 或不适当的儿童相关内容的请求将被阻止或失败。 不予退款 对于违反政策的行为。
审查: 您同意在发布之前审查所有人工智能生成的内容。

4. 了解人工智能的局限性（2026 年状况）

诚实是我们的政策。即使是 SOTA 模型（GPT、Gemini、Claude）也有局限性。

视觉一致性

错误率：低，但有可能。您可能会发现角色头发、服装细节或背景对象在帧之间变化时存在细微的不一致。
历史准确性：人工智能与微观细节作斗争（例如，特定的军衔徽章、特定历史时期的精确工具）。
空间逻辑：3D 间距和相对距离有时可能不完美。

Solution: 我们接受当前的这些 AI 限制（截至 2026 年 3 月）。为了完美，请使用提供的资源包使用外部工具（Nano Banana/Qwen Edit）手动编辑/替换图像，并在 CapCut 中重新组装。

系统过载

在极少数情况下，高流量可能会导致错误。将异常故障报告给 [email protected] 用于信用退款评估。

5. 支持

需要帮助吗？联系我们： [email protected] （通常在 24 小时内响应）。

创造美好神话并通过您的创造力货币化！：D

下一步指南

创建音频和配音

先进的

掌握工具