什么是信息内容审计,第1张

信息内容审计是指对进出内部网络的信息进行实时内容审计,以防止或跟踪可能的泄漏。

信息内容审计是指对进出内部网络的信息进行实时内容审计,以防止或跟踪可能的泄漏。

什么是信息内容审计,什么是信息内容审计,第2张

简介

如何加强网络信息安全管理,确保网络信息内容的合法性、健康性和安全性,已成为网络通信领域亟待解决的问题。在这种情况下,网络信息内容审计应运而生,为解决网络信息安全问题提供了有效的对策。目前,网络信息安全审计作为一种有效的管理手段和取证手段,已经被许多国家所接受,并得到大多数国家的认可,成为保障网络安全不可或缺的一部分。人们越来越重视其相关的理论和技术研究。基于网络信息的内容审计技术可以对网络上传输的内容进行审计,发现问题,及时切断连接,并保留日志。它不仅可以防止网络上传播的不良信息的扩散和内部网中机密信息或商业信息的泄露,还可以为不良信息的传播和机密信息的泄露提供线索和证据。

网络信息内容审计与信息检索有一些相似之处。两者都是以文本为主要处理对象,都是按照一定的规则进行分析,得到有益的结果。但是两者在系统模型、数据源、分析规则、应用需求等方面有很大的区别。网络信息内容审计涵盖计算机网络、自然语言处理、数据挖掘、人工智能、复杂网络等多个学科。它涉及的研究内容很多,目前还没有相关方面的全面文献。

审计模型

在内容审计研究的初期,系统模型是主要研究内容,现有的结构模型主要包括单主机集中式结构和监控与审计分离的分布式结构。

单主机集中式结构使用单个主机完成数据包提取、内容审核、报警等功能。该结构实现简单,主要用于低带宽网络环境、小规模网络以及算法研究和测试。

分布式体系结构分配监控和审计模块,同时使用均衡算法分割流量。本文研究了一个网站内容安全监管系统的框架,该系统采用抽取、搜索、过滤和审计四个步骤对内容进行检查。本文提出了一种分布式网络内容监控和审计系统,该系统以主机为数据接收器,根据负载均衡策略进行数据包处理和内容审计。介绍了一种基于内容安全的局域网监控系统。此外,许多文献也描述了类似的系统模型。

总体来说,现有的分布式体系结构具有良好的可实现性和可扩展性,但主要面临本地网络的内容审计,对于大规模网络环境下的应用来说是不够的。而且这些结构的审计细节都比较粗略,很不实用。

一般来说,现有的系统模型主要针对局域网的内容审计,难以满足大规模网络环境下复杂多变的审计需求。同时,由于网络流量的增长率远远高于处理器处理能力的增长率,因此需要使用负载均衡算法来处理大流量内容的审计。然而,现有的流媒体技术不足,无法实现真正的负载均衡,因此有必要进一步改进数据负载均衡算法。审计系统很少关注系统本身的安全性能,审计系统内部模块的通信安全性和系统本身的抗攻击能力存在缺陷,容易受到有经验的网络用户的攻击。

文献描述了一种适用于大规模网络环境的分布式、可扩展和高性能的实时内容审计系统模型。该系统模型大大提高了审计性能和安全性。

关键技术

审计系统获取数据包后,对其内容进行深入分析,涉及模式匹配算法、文本语义分析、热点话题发现和不良图像内容识别等关键技术。

模式匹配算法

审计系统使用多模式精确匹配和多模式相似匹配算法搜索数据包中是否存在敏感模式串,统计模式串出现的频率,为后续的文本内容分析提供支持。

与其他应用环境相比,内容审计中的多模式匹配具有以下特点:一是中英文混合环境,由于编码的原因,数据包中与协议相关的部分通常是英文字符,而与内容相关的部分主要是中文字符,两者会交替出现。就中文而言,由于汉字分为简体字和繁体字,文本中会包含两个或两个以上的编码字符。第二,不良信息内容的发布者会人为地给信息添加干扰字符。另外,汉语和英语也有明显的区别,比如汉语是大字符集语言,字母数量庞大,单词和字符长度较短;英语字母表很小,字符很长。这些差异使得中英文混合环境下,模式匹配算法对内容审计的要求不同。

研究文献中提出的经典DFSA算法在应用于英文字符环境时非常有效。但直接应用于汉字匹配时,在构造完整的汉字Hash表时,存在存储空之间的扩展问题。通过分解汉字内部代码构造组合状态自动机,解决了汉字构造完整Hash表时空扩展的问题,但会导致中英文混合环境下的字节错位。

使用“标记”的方法来防止匹配中的不匹配。该方法解决了中英文混合环境下的字节不匹配问题,但需要对待匹配的文本字符串进行预扫描,匹配效率较低。而且算法没有考虑ACSII、GB和BIG53码的混合。通过对汉字内码的高字节和低字节进行哈希运算,将汉字映射到一个大小为65536的集合中进行匹配。该算法避免了中英文混合环境下的字节错位,也适用于三种代码混合的情况。然而,每个汉字的映射操作影响了算法的匹配效率。给出并证明了多模式匹配算法在汉英混合环境中的性能定理,提出了一种适用于汉英混合环境的多模式匹配算法。该算法在汉英混合环境下能够正确高效地匹配,并且空之间不存在膨胀问题。

涉及中文的多模式相似性匹配会比较复杂。现有的多模式相似性匹配算法允许在模式串中的任何地方插入字符,但不允许在一个汉字的两个字节之间插入字符,在包含m个汉字的串中有m个禁止插入位。因此,现有的多模式相似性匹配技术在中英文混合环境下会导致错误的匹配结果。提出了一种适用于汉英混合环境的多模式相似字符串匹配算法。该算法将所有模式串转换成多个有限自动机,并利用模式串建立状态驱动程序,状态驱动程序再用待匹配字符串的字符驱动状态驱动程序,然后由状态驱动程序驱动每个有限自动机。

文本内容分析技术

文本内容分析用于内容审计,以深入识别可疑文本,发现当前信息流中的热点信息。目前,大多数文本内容分析技术都是以词为基本元素,构建文本表示模型,分析文本相似度,通过分类确定其属性。

中文单词之间没有明确的分隔符号,需要分段。目前最常用的中文分词方法是基于统计的机械分词方法和基于规则的知识分词方法。机械分词方法首先查询词典进行匹配,然后利用词法规则纠正分词歧义。文献中提出了一种机械分词方法的形式化描述模型,可以简单描述机械分词方法所采用的具体算法策略。知识分词方法不仅使用词典匹配,还使用词汇、句法甚至语义知识,利用的知识范围更广。同时,还可以利用人工智能技术进行推理,将分词和歧义纠正结合到同一个过程中。

现有分词算法应用于网络信息内容审计时,存在分词速度慢、缺乏权威专业的分词语料库支持、鲁棒性差等问题。因此,有必要进一步研究适合内容审计的分词方法。

在中文分词的基础上,利用VSM(向量空间模型)对文本进行形式化建模,并计算文本的相似度。为了计算文本之间的相似性,通常进行特征选择。常用的特征选择算法包括χ2统计、文档频率、期望交叉熵和文本证据权重。在对文本相似性进行建模后,我们可以进一步使用以类为中心的分类、贝叶斯、KNN和神经网络分类算法来实现文本内容的区分。

对于普通的完整文本,文本分类系统的效果主要取决于中文分词的准确性、特征选择、分类算法和训练文本。然而,在内容审计系统中,分类对象是数据包中的片段文本。对于这样的特殊要求,现有的文本分类算法存在不足。

为解决这一问题,考虑到数据包分割对文本分类的影响,在KNN算法的基础上,提出了一种基于上下文的模糊最近邻文本分割分类算法。与KNN算法相比,该算法具有更高的查准率、查全率和查准率,并且分类时间更短。

近年来,随着网络舆情分析的逐渐兴起,网络话题识别和跟踪成为研究热点。目前,相关研究主要集中在挖掘Web文本(新闻、博客等)中的话题信息。),而一些研究者应用文本内容分析技术对网络流量内容数据进行主题信息分析。基于网络流量内容中主题的流量相关特性,文献采用聚类算法对网络热点主题信息进行分析;针对短信流量内容中突发的热点话题,提出了一种基于特征关联的短信热点话题发现算法。虽然这些研究还处于起步阶段,但它们为网络内容审计技术拓展了一个新的研究方向。

图像内容识别不良

不良图像作为色情信息的重要载体,一直是内容审计的重点对象之一。色情图像的识别属于基于内容的图像过滤,但它是唯一的。很难用一个简单的模型来表现色情图像的所有特征,但色情图像也有一个独特而明显的特征,那就是裸露的皮肤。一般来说,不良图像内容识别主要包括肤色区域检测和敏感特征提取。

肤色检测通常采用color 空变换和肤色区域建模两个步骤建立肤色统计模型,从而实现肤色区域检测。肤色在color 空中的分布比较集中,但是受光线和种族的影响比较大,所以通常需要选择合适的颜色空进行肤色检测。文献讨论了颜色的选择空,论证了所选空的最优性。但是由于肤色检测的复杂性,只能根据不同的性能指标选择相对最优的颜色空。

肤色范围建模通过描绘人体的肤色范围并设置相应的阈值来区分图像中的肤色区域;文献使用单峰高斯模型对肤色进行建模和区分;在文献中,为离散颜色空中的单位面积设置概率值,并且通过正则化查找表或贝叶斯分类算法来检测肤色区域。

在肤色检测过程中,需要进行纹理分析,去除与肤色相似的区域。在文献中,基于离散余弦变换和Gabor小波变换的两种方法被用来提取皮肤纹理特征。文献利用灰度共生矩阵提取纹理特征。根据色情图像肤色区域的纹理特征,建立了检测皮肤纹理的厚度模型。

获取肤色蒙版图像后,进一步提取色情图像的检测特征,构建识别特征向量,将色情图像识别转化为分类问题,然后选择合适的分类器进行识别。文献综合考虑了人体部位的结构、部位之间的关系、颜色和纹理,提出了人体敏感部位的识别方法,文献将SVM分类算法应用于色情图像内容识别。文献中在提取人体肤色的基础上增加了人脸检测模块,结合图像轮廓、面积等图像特征进行识别。在文献中,通过建立人体躯干模型来确定人体躯干在图像中的大致位置,进而提取色情图像的分类特征。

评估和治疗

经过上述内容分析后,审计系统根据审计结果,对某段时间和某个网络范围内的内容安全情况进行评估和预测,必要时与网络安全防火墙进行安全联动,实施在线拦截等安全保护措施,并向网管提交可定制的内容安全审计报告。

内容安全状况的评估和预测

通过对某一时期审计结果的综合分析,对当前网络信息内容的安全状况进行评估,预测内容未来的安全趋势,从而有效控制不良信息内容的广泛传播。一方面,根据形势的严重程度采取对策,遏制形势的发展;另一方面,可以评价所采取措施的有效性,为后续措施的选择提供依据。

近年来,在网络安全研究领域,安全态势评估正成为研究热点,受到国内外研究者的广泛关注。文献提出了一种基于免疫的网络安全风险检测模型,以实现网络系统面临攻击时的实时风险评估;文献提出了由风险网络和风险传播算法组成的风险传播模型。上述研究大多集中于网络系统的物理安全,而对网络信息内容的安全态势评估研究较少。与网络系统安全评估不同,内容安全态势评估的数据源是内容安全告警记录、可疑文本的类别信息和信息传播过程的规律,更注重对网络用户思想层面规律的研究。

在评估内容安全历史状况的基础上,还需要预测内容安全状况的变化趋势。特别是Web社交网络、IM社交网络等新的社交网络模型,是网络信息快速传播的拓扑基础。

本质上,网络内容的安全状况是用户在这样的社交网络上关注和传播热点信息的问题。为了解决这个问题,研究者一方面基于传染病模型和流言模型研究关注和传播热点不良信息的用户规模趋势预测模型;另一方面,根据用户关注社交网络热点和不良信息的行为趋势,研究相应的预测模型。本文研究了社会网络边缘的异质性和网络结构对SIR模型传染病传播的综合影响。提出了一种基于二维小世界网络的疫情预警系统集成模型。描述了小世界网络中的流言传播模型,提出了无标度网络中的流言传播模型。文献研究用户年龄、性别、居住地与用户行为接近的关系,文献研究网络用户的行为特征,提出动态概率模型预测用户是否关注和传播热点信息。上述研究为网络内容安全态势的趋势预测提供了重要的理论依据,在此基础上,可以构建内容安全趋势预测的数学模型。

在线处理和阻塞

当发现违反安全策略的信息内容时,审计系统会根据策略实施相应的在线处理措施,部分措施在审计系统内部完成,如关键监控、证据留存、关键词敏感度提升等;其中一些与防火墙和其他链接相协调,包括阻止危险的流量和限制网络通信。该机制类似于入侵检测和防火墙之间的联动机制。

内容审计系统很难实现在线阻断技术。首先,很难准确确定传播不良信息的数据包,也很难确定哪些情况可以认为是恶意数据包。其次,使用在线阻塞来过滤网络流量会降低网络数据传输的效率,可能会严重影响正常流量的传输。一般只有在网络安全形势严重的情况下,才会采用在线阻断策略。

网络安全联动响应机制可以充分发挥不同安全技术的特点,从而达到更好的网络安全防范效果。研究的重点是信息收集和分发机制以及信息格式的标准化。目前主要有IETF入侵检测信息交换格式IDMEF和事件对象描述交换格式;DAPRA的通用入侵检测框架协议组和开发接口;DMTF通用信息模型。目前,国外一些研究机构已经开始了这方面的研究,但还不够深入,没有形成成熟的技术。

审计研究的热点和难点

流媒体视频内容审计

网络视频具有内容丰富、意义强烈的特点,已经成为互联网上传播不良信息的主要方式之一。如何及时准确地识别这类视频流量,并采取有效的监管措施,已经成为一个非常迫切的问题。内容审计系统需要实时检测和拦截不良视频流媒体数据,目前还没有好的实时审计检测方法。现有的检测方法大多需要提取完整视频文件的帧图像,然后使用不良图像内容识别的方法进行检测。这些方法在实时性和准确性方面都不能满足内容审计的要求。

动态信息流的特征分析

现有的内容审计研究在分析流量中的不良信息时,主要关注网络中不良信息的出现。通过流量内容中敏感词的模式匹配,统计并显示某一节点的不良信息传播情况。这个过程是相对被动的,只有当不良信息传播并造成不良影响时,内容审计系统才能做出一定的回应。

信息在网络流量中似乎以混沌的方式不规则的传播到网络中的各个节点,但是发现其传播是有规律的,尤其是一些热点信息的传播。在具体研究中,可以从交通信息的核心内容和传播环节入手,研究热点信息的兴起、传播和扩散过程,研究信息传播过程中的特征,从而挖掘出交通中隐藏的信息流。信息流的研究可以分为两个方面:一是研究流行信息的内容特征;二是研究信息流的传递方式。第二项研究是在第一项研究的基础上进行的。在研究中,通过对信息流传播模式的分析和建模,可以预测未来网络中信息流的发生和传播,推断现实社会中的舆情趋势和可能的群体行为。

关键词列表的动态更新

在现有的内容审计系统模型中,几乎都是手动设置关键词表,然后将数据包的内容与关键词进行匹配,找到可疑的数据包。由于难以建立全面、客观、及时更新的关键词列表,传统的处理流程有很大的局限性。特别是在知识爆炸的时代,网络上每天都会产生很多新的热门词汇,比如“超女”、“神舟”,与这些热门词汇相关的网络内容大多具有很强的舆论价值。因此,有必要通过一些技术手段动态跟踪新词汇网络的产生和发展。

新兴词汇的特点是在短时间和小范围内重复出现。因此,通过对数据包内容的分段和词频信息的统计,可以提取出短时间内频繁出现的词汇,并提交给分析师进行处理。通过人工分析,找出可能出现的关键词,用于内容审核系统中关键词列表的扩展和更新。

活动内容传播检测

随着P2P技术的广泛应用,越来越多的P2P用户使用相应的软件来共享文本、图片、视频等数据。这些文件数据中可能有很多不良信息。如何跟踪P2P协议数据中不良信息的传播已经成为一个非常有意义的问题。现有网络内容审计系统的常见模式是被动检测和处理网络中传播的不良信息,缺乏一种全局有效的跟踪策略和有效的控制手段来利用P2P网络传播不良信息。

要实现对不良内容传播的主动检测,可以先把自己伪装成不良信息的获取者和传播者,然后分析不良信息种子的相关属性,进而找到这些不良种子的网站发布源,进入这些种子的下载任务,获取网络用户规模和IP地址分布情况,从而实现对不良信息传播过程的跟踪和监控。

信息内容的动态迁移研究

在信息传播过程中,不同的时间会出现不同的焦点。针对信息焦点内容的动态迁移过程,研究焦点内容的识别方法及其演化模型是网络内容审计技术的前沿研究方向之一。鉴于此,根据热点信息传播中焦点内容的周期性特征和新焦点内容由前一两个焦点内容决定的规律,将焦点内容视为不同的不良信息状态,研究了不良信息状态之间的迁移规律,并利用隐马尔可夫模型对信息焦点内容的迁移过程进行建模。

DABAN RP主题是一个优秀的主题,极致后台体验,无插件,集成会员系统
白度搜_经验知识百科全书 » 什么是信息内容审计

0条评论

发表评论

提供最优质的资源集合

立即查看 了解详情