2025年电子工程系学术讲座（三）

题目：基于大模型的多媒体质量评价与取证

内容简介：近年来，随着大型多模态预训练模型的迅猛发展，计算机视觉（CV）任务的研究范式正在经历深刻变革。这类模型具备强大的生成能力和跨模态理解能力，但同时也引发了对其感知可靠性、细粒度理解能力以及可用性的质疑。在真实世界应用场景中，尤其是质量评价与内容取证等任务，对模型的稳定性与解释能力提出了更高要求。本次报告将围绕“图像质量评价”与“多媒体内容取证”两个方向，介绍本团队在大模型背景下的最新研究进展与思考。在图像质量评价方面，我们首先评估了通用视觉大模型在感知质量判断方面与人类主观评价的一致性，随后探索了如何融合主观感知机制与视觉基础模型，构建兼具泛化能力与感知一致性的质量预测模型。在多媒体取证方面，我们系统性分析了通用视觉大模型在检测与推理 AI 生成图像方面的能力，并进一步提出面向AI合成内容的专家模型。通过构建百万级规模的视觉指令数据集，我们赋予大模型识别 AI 生成图像与分析伪造痕迹的能力，并在可解释性与可扩展性两个方面展开深入研究。面向未来，我们期待推动多模态大模型在真实世界视觉任务中的泛化、可解释与可控性协同提升，进一步缩短基础模型研究与实际应用之间的距离。

报告人：王诗淇

报告人简介：王诗淇，香港城市大学副教授。从事视频编码与处理、人工智能、计算机视觉等方面的研究。在国内外期刊和会议上发表/接收论文300余篇，其中包括IEEE 汇刊论文150余篇。目前担任人工智能、视频处理领域旗舰期刊IEEE-TIP, TMM, TCyber和TCSVT 编委，并获得IEEE ICME, VCIP, MultiMedia等多个国际会议和期刊的最佳论文奖。

时间：2025年4月21日（周一）上午10：00-12：00

地点：石牌校区南海楼338会议室

热烈欢迎广大师生参加!

信息科学技术学院

2025年4月15日