请输入详细的音频描述,包括音色、节奏、风格等要素。
步数越多,细节越丰富,但生成时间越长,建议值:20-40
值越高,越严格遵循提示词,建议值:5.0-10.0
音频时长,建议值:10-30秒
生成的音频数量,最多5个,建议值:1