
据京东黑板报,6月3日,京东推出JoyAI-Echo长音视频生成框架,径直惩处行业恒久存在的“长视频生成三浩劫题”——脚色易崩、声息乱变、生成渐渐。该框架杀青了“对话式剪辑”功能,无需为改一个镜头重跑整条视频。
JoyAI-Echo的发布,标识着京东在长视频生成畛域参预各人第一梯队。
2026世界杯比赛买输赢中国官网该框架包含四项中枢时刻转变。一是跨模态音视频顾忌库,框架内置特意顾忌库,能在多镜头生成过程中握续保存并调用脚色外不雅特征和话语东谈主音色信息。实测效果涌现,长达5分钟的视频里,脚色身份、视觉形象和声息音色都能保握高度一致。
二是顾忌运行后测验,团队转变性提倡顾忌运行后测验过程,博亚体育中国官网入口诱骗SFT、跨模态RLHF和DistributionMatchingDistillation(DMD)时刻,仅DMD一项时刻就带来约7.5倍的速率晋升,让长视频生成从“等半天”形成“秒出片”。
三是DirectorAgent智能导演助理,用户用当然语言说需求,抢庄牛牛app2026世界杯中国官方下载系统会自动拆分红脚本、脚色、场景和镜头。何处不忻悦,径直用对话姿色告诉它修改,只从头生成有问题的局部镜头,整条视频无须重来。
四是轻量化及时超分,配套特意及时超分模块,因循736×1280到1152×1920、以及736×1280到1472×2560两档辨别率晋升,通过单步超分就能生成高辨别率视频和精好意思化音频。
为客不雅评估性能,商榷团队基于100个故事、3000个镜头构建了特意的长音视频生成评测集。效果涌现,JoyAI-Echo在跨镜头一致性、视频质料、文本一致性和语音实验准确率等统统中枢推敲上都获得跳跃发达,其华文音实验准确率高达0.8646。在用户偏好调研中,81.7%的用户合计其音频质料偏好,80.6%合计教导词受命偏好,63.6%合计视觉好意思学偏好,59.4%合计IP一致性偏好。
JoyAI-Echo的代码与权重已一皆开源抢庄牛牛APP,当今技俩页和GitHub代码仓库已认真上线。

备案号: