互联网音视频监管业务运行过程中,主要面临的挑战:
• 互联网上音视频内容呈爆炸式增长,无法快速、高效、全面地获取;
• 音视频网站范围难以界定、节目信息无法准确判断和抽取;
• 互联网内容变化快,违规内容可能会随时出现,监管及时性无法保证;
• 海量的音视频节目资源,单纯靠人工浏览的方式进行搜索、分拣和节目管理,工作量大效率低,且无法对相应内容进行实时准确的检索;
• 相对于传统的数字电视以及IPTV电视业务而言,互联网音视频业务的开放性、融合性和复杂性程度更高;
互联网视音频节目综合监管平台主要完成监测台站对监测范围内音视频节目及网站的搜索采集功能,并通过搜索采集模块与中心平台的控制调度接口实现与中心平台的数据交换功能。搜索采集模块可以分布式部署在不同的省份或城市监测点,独立部署,并行运行,通过网络与中心平台交互。搜索采集模块通过分布式WEB爬虫技术、流媒体等先进技术实现互联网视听节目广泛搜索、重点视听节目网站监管、有害违规节目自动判别、应急任务管理、专项任务集中监管、网络热点突发事件跟踪监管、违规节目下载取证、监管效果核查、节目归类、网站分析和管理及与中心平台的数据上报功能,并提供完整的监管业务工作流程,以达到对互联网音视频节目从采集、取证、审核、上报、封堵及核查的全流程监管。
监管平台部署情况如下图所示:
视听节目广泛搜索
广泛抓取互联网上所有音视频节目的元数据信息;
搜索深度不小于3层,平均搜索周期36小时;
重点视听节目网站监管
定期抓取并监管617家持证网站(包括50家重点网站)的违规情况;
搜索深度不小于5层,平均搜索周期24小时;
违规节目自动判别
完整的关键字库及规则库,实现违规节目的判别;
根据匹配关键字及规则对违规节目自动判别分类;
监管效果核查
定期读取违规节目信息,对违规节目所属网站进行定向搜索并核查;
为每个视听节目网站建立档案进行网站分析,核查网站对违规节目的下线效率;
业务上报流程
提供违规节目录屏取证;
具备完整的有害报告上报及工作流转的审批流程;
完善的报表功能
• 分布式WEB爬虫技术
• 渐进式流媒体播放技术
• 网页元数据提取
• 工作流技术
• 基于中文分词的全文检索技术
• 内容审核
• 台标识别
• 样本匹配技术
• 信息聚合技术
• 敏感图像识别技术
• 舆情分析
互联网音视频节目监管系统采用技术手段采集互联网上几乎全面的音视频网站及节目,并进行违规判别,极大的辅助了人工监管,确保互联网音视频监管平台的稳定服务。主要体现在以下几个方面:
• 采用标准化技术,确保与互联网音视频业务系统及其他监管系统的互连与开放;
• 自动违规判别,为业务人员审核提供基础;
• 提供完整的网站监看及节目审核流程,简化业务人员工作量;
• 对微博、论坛等热点信息进行快速抓取及聚合,利于舆情分析;
• 不断完善的互联网网站库、视听节目总库、违规节目总库;
• 用户角色丰富,可灵活配置;