安顺学院数字人速课平台需求公示内容-乙方宝官网

点击登录查看数字人速课平台需求公示内容

资格要求：

（1）提供法人或者其他组织的营业执照等证明文件；（复印件加盖投标单位公章）

（2）提供财务状况报告（经合法审计机构出具的2023或2024年度财务审计报告，或银行出具的有效的资信证明）；（复印件加盖投标单位公章）

（3）提供依法缴纳税收（2025年任意1个月的纳税证明）和社会保障资金（2025年任意1个月的社保缴纳证明）的相关材料；（复印件加盖投标单位公章）

（4）提供具备履行合同所必需的设备和专业技术能力的证明材料；（自行承诺）

（5）提供参加本次采购活动前3年内在经营活动中没有重大违法记录的书面声明；（自行声明、原件）

（6）供应商须承诺：在“信用中国”网站（www.creditchina.gov.cn）、中国政府采购网（www.ccgp.gov.cn）等渠道中查询未被列入失信被执行人名单、重大税收违法失信主体名单、政府采购严重违法失信行为记录名单中，否则自愿取消投标资格，并承担由此造成的一切法律责任及后果；

（7）本项目不接受联合体投标；不得转包、分包；

（8）符合法律法规及磋商文件规定的其他要求。

采购需求：

第一部分商务要求

一、服务期限和服务地点：

1、服务期限：1年

2、服务地点：采购人指定地点。

二、验收标准：

按照国家规定的行业标准、竞争性磋商文件和响应文件内容进行验收。

三、付款方式：

采购人与成交供应商在合同签订后100%支付

四、投标报价：

完成本次服务所发生的一切费用，即总价包干。

五、其他要求：

供应商须承诺，采购方使用该服务内容或服务内容的任何一部分时，免受第三方提出的侵犯其专利权、商标权、著作权或其它知识产权的起诉；否则，一切责任由供应商承担。

第二部分采购内容及要求

一、平台部署

本项目服务包括数字人训练模块、视频生产模块。支持可同步、快速更新、迭代、升级的能力，可提供完备的采样训练操作手册，平台使用操作手册等配套技术说明文档。

二、数字人训练模块：

（一）数字人形象克隆

利用最先进的AI技术，生成高度逼真的虚拟教师形象，包括外貌、声音和表情等。支持通过5-10分钟训练视频进行数字分身形象的复刻训练，训练生成的数字分身需具备播报能力、训练后的形象可同步至视频生产平台进行使用，具体功能包括：

1.外貌生成：通过面部动画技术，生成逼真的人脸形象，支持公用人像库自选。

2.声音合成：支持通过20S训练音频数据对用户音色进行复刻训练，支持数字人音调、语速、音量再调节，训练后的声音可同步至视频生产平台进行使用，支持多语种能力，至少支持中文模型、英文模型、中英双语模型。

3.表情模拟：通过行为模拟和面部表情识别技术，实现自然流畅的表情变化，提升互动体验。

4.替换背景：支持训练视频实景训练，也支持抠像训练，包括纯色背景抠、绿幕抠、实景抠，便于后期视频时满足背景替换的需求。

▲5.视频上传与检查：用户需上传MP4格式的视频文件，时长不超过10分钟。系统会自动检查视频质量，不符合规范的会提示重新上传，支持对需要训练的视频文件进行格式、时长、人物在画面中位置等因素是否符合使用要求进行检查。

6.环境音检测：支持对需要训练的音频文件进行格式、时长、内容重复、噪音等因素是否符合要求进行检查，对上传的音频进行环境音检测，确保音频质量符合要求。

▲7.自动化训练：支持上传训练视频后到训练完成同步至视频生产平台，傻瓜式全流程化自动化完成。

8.训练进度管理：可数字化、图形化展示模型训练进度，便于用户快速了解训练进展。

9.形象效果测试：支持在数字人训练模块中进行形象训练后进行视频生成测试、预览，及时查看训练的效果是否满足需要。

10.上传的训练视频技术要求：

（1）视频格式：支持MP4格式，文件大小不超过2G，时长不超过10分钟。

（2）语音合成：支持多语种、多音色的TTS语音合成。语速和语调智能匹配，确保语音自然流畅。

（3）面部动画：采用先进的面部动画技术，支持多种风格的外貌生成。表情变化自然流畅，无卡顿现象。

（4）行为模拟：高度还原人类行为，动作自然流畅。采用先进的训练算法，确保输出的数字人形象和声音高度还原原始数据，质量优异。

算力支持：系统具备强大的算力支持，能够高效处理2D真人形象的生成与渲染。
（二）数字人声音克隆

数字人声音克隆功能利用先进的生成式人工智能技术，通过少量样本语音，快速生成与真人声音高度相似的数字人语音。该功能支持多种音色和语调选择，用户可以根据需求进行音色调整，实现高度逼真的声音克隆。主要功能包括：

▲1.声音克隆和音色定制：仅需20S语音（具体数量取决于质量要求），通过AI引擎训练生成与真人声音高度相似的数字人语音。

2.多语种、多音色语音合成：支持多种语言和音色的语音生成，能够根据不同需求智能匹配语速和语调。训练后的声音可同步至视频生产平台进行使用。

3.高逼真、高质量声音合成：利用先进的AI技术生成高度逼真的语音，确保声音质量满足教学视频的要求。

▲4.环境音检测和语音评测：对上传的音频进行环境音检测和语音评测，确保音频质量符合训练要求。

5.声音效果测试：支持在训练平台中进行声音训练后进行音频生成测试、试听，及时查看训练的效果是否满足需要。

6.技术要求：语音合成模型：基于联合模型、深度神经网络的语音合成模型。

7.支持的语言：中文、英文等多语言。

8.发音风格：支持自然语音、男声、女声等多种发音风格。

9.语速和音调控制：支持语速和音调的灵活调节，能够智能匹配不同需求。

10.音频格式：支持AAC、WAV、MP3等多种音频格式。

11.音频采样率：支持8kHz、16kHz、44.1kHz等多种音频采样率。

12.合成质量：生成语音的自然度和流畅度高，接近真人表现。

▲13.训练时长：仅需等待3分钟即可快速完成声音克隆，实时在线试听。

三、视频生产模块：

1.教师端界面：设计友好，操作简便，教师可以轻松管理和预览生成的教学资源。用户友好的界面设计提高了教师使用系统的便利性和效率。

2.数字人分身自定义

利用先进的AI技术，生成高度逼真的数字人视频，支持多语言配音和情感表达。用户在进行视频内容生产过程中，选择好数字分身后可灵活调整数字分身形象大小和位置，制作过程中允许替换数字分身及数字分身的音色及对应语速、音调及音量信息。

3.预制的公共数字人形象：

提供多种预制的AI形象，支持多个公共形象库中的形象资源迁移到现场环境，供编辑使用。有丰富的音色库，支持多语种能力，可将音色资源迁移到现场环境供使用，语种不少于中文、英文。

▲4.PPT自动解析

支持通过导入PPT文件的方式，进行视频分镜的构建，可快速基于导入的文件快速进行视频制作，解析特效并保留PPT所有动效；支持PPT导入后，备注文字自动转化为数字人朗读文稿；支持每页PPT可更换不同数字人形象和声音，并可更换不同驱动片段姿态；可将设置效果应用至全局；支持对PPT每个场景快速预览；支持对数字人的声音和形象属性进行选择和编辑；可将设置效果应用至全局；播报视频生产时，支持对PPT动效、数字人、文字等元素，位置、大小等属性的编辑；也可进行可视、隐藏等操作，可将设置效果一键应用至全局。

▲5.播报内容输入和标注

支持PPT备注自动转为数字人播报语音内容，也可对内容进行手动调整；

支持手动输入文本内容，对于文本输入内容支持根据文本内容进行数字读法、替换发音、停顿的标注；

支持语音输入，可实时录音也可上传离线音频文件。

▲6.内容编辑模式

支持文本编辑模式及时间轴编辑模式：支持对文本内容进行试听，单场景视频效果预览的操作；

支持轨道式专业视频编辑模式，对PPT中动效不同元素形成不同轨道，便于用户可对视频中的元素在不同轨道上进行更精准、便捷的编辑操作。

7.视频文件管理

▲支持对制作完成的视频文件，进行本地导出操作，或者上传到学校智慧课程平台个人云盘，导出格式为mp4，可同步导处PPT文件；

支持对制作完成的视频文件，支持进行文件管理，可进行移动、下载、和删除的操作；

支持导出视频自定义码率及清晰度选择1080P、2K、4K。

内容检测与安全

（一）智能审核管理要求

1.支持对文本、图片、视频的检测结果数据进行查询，并支持人工修改机审状态；

2.支持查看视频中的敏感截图，并支持人工修改机审状态

3.支持对文档的检测结果数据进行查询，并支持人工修改机审状态；

4.文档审核支持根据敏感内容定位到具体段落进行查看审核；

5.支持敏感文本、图片、文档在线检测功能；

6.支持自定义敏感关键词、组合词、忽略词；

7.支持自定义用户黑白名单；

8.支持自定义图片名单；

9.支持查看业务数据的检测数据量；

▲10.支持通过用户风险统计、垃圾发布量、垃圾发布率的维度统计用户风险；

内容安全检测要求

文本检测

（1）支持基于快速规则算法过滤特定敏感文本；

（2）支持基于文本模型，通过对文本进行聚类和语义分析进行敏感识别；

（3）支持检测涉政、谩骂、灌水等七种类型的敏感文本；

（4）支持对变种敏感文本检测；

（5）支持对用户自定义的敏感内容进行检测；

图片检测

（1）支持根据图片分类模型对敏感图片进行识别；

▲（2）支持根据图片目标检测对图片中小目标敏感内容识别；

（3）支持根据用户自定义的敏感图片进行敏感识别比对；

▲（4）支持根据人像 AI 模型对涉政、违禁人物进行人脸识别；

（5）支持检测涉政、色情、违禁等六种类型的敏感图片检测；

视频检测

▲（1）支持对离线视频进行敏感内容检测；

▲（2）视频的分类识别基于图片检测识别进行，可实现图片检测的全类检测；

文档检测

（1）支持对 word、txt、ppt 等多种格式文档内容进行解析；

（2）文档检测模型基于文本检测与图片检测，可实现文本检测与图片检测的全类检测；

注：技术指标中，带“▲”的为重要指标，成交供应商需在成交公告发布后2个工作日内到校进行演示，如出现虚假响应，成交供应商应承担由此而引起的一切法律责任和费用。

评分细则及各项评标因素：

评审项目	评分标准	分值
价格分 (20分)	报价得分＝（评审基准价/最后报价）×20 注：评审基准价指满足磋商文件要求且投标价格最低的投标报价，最后报价指满足磋商文件要求的各投标单位的最后报价。	20分
技术分 (46分)	技术响应： 1、根据供应商对采购文件中的采购需求响应情况进行打分，供应商响应文件中的技术参数全部满足磋商文件技术要求的，得30分。 2、负偏离:带“▲”条款负偏离一项扣3分。非“▲”条款每负偏离一项扣1分，扣完为止。	0-30分
	数字人样片视频演示：磋商小组从以下4项进行评价，满足1项得1分，满分4分。不符合要求或不演示不得分。 1.数字人成片可展示多动作姿态的数字人授课内容，结合PPT讲稿进行内容讲演，还原度同现场录制效果。 2.教师授课的中英文数据发音清晰，在情感语调上基于教师本人声音特征，断句节奏自然，表述准确 3.字幕内容准确规范，严格匹配口述内容，PPT页面内容识别准确，动效切页等效果节奏自然 4.成片质量：音频应清晰无杂音，音量适中。画面切换自然，无明显的剪辑痕迹，无明显的色差、过曝或欠曝现象。	0-4分
	视频生成平台功能演示：完全符合演示的要求，每条演示成功得3分，满分12分。 1.每页ppt可更换不同数字人形象和声音，并可更换不同驱动片段姿态； 2.支持一键导入ppt，文件格式兼容支持主流 PPT 文件格式（如.pptx、.ppt 等），能够解析 PPT 内容、特效并保留ppt所有动效 3.支持导出相应视频内容到本地以及存储到点击登录查看智慧教学平台教师个人云盘，教师后续教学可调取云盘的视频用于个人教学或资料分享等。 4.平台支持内容安全检测：支持敏感文本、图片、文档在线检测功能；支持自定义敏感关键词、敏感忽略词、用户黑白名单、图片名单。支持通过用户风险统计、垃圾发布量、垃圾发布率的维度统计用户风险。	0-12分
商务分 (34分)	企业实力： 1.供应商具有有效的质量管理体系认证证书得2分； 2.所投产品具有AI元数据智编管理平台同类型的计算机软件著作权证书得3分。 3.所投产品具有文字人工智能识别与提取系统同类型的计算机软件著作权证书得3分。注：提供证书复印件加盖投标单位公章	0-8分
	业绩： 1、提供2020年至今(以合同签订日期为准)类似项目业绩，供应商或授权厂商与项目内容相当且已完成的项目合同扫描件加盖投标单位公章(业绩必须以所投产品企业与最终用户直接签订的合同为准)，每提供1个业绩得2分，满分8分，不提供不得分。	0-8分
	服务方案：供应商提供服务方案，服务方案包括但不限于：服务内容、服务目标、平台建设时间安排、进度保障方案等。磋商小组根据服务方案进行综合评分：0-10分；	0-10分
	平台承诺：供应商承诺本项目中所涉及的平台与学校智慧教学平台互联互通(提供承诺函)得3分，不提供不得分。	0-3分
	售后服务方案：磋商小组根据供应商所提供的售后服务方案，在人员、响应时间、现场服务支持能力等方面能满足采购文件要求的基础上综合评分：0-5分	0-5分