著录项信息
专利名称 | 色情文件判断系统及方法 |
申请号 | CN01123132.7 | 申请日期 | 2001-07-16 |
法律状态 | 权利终止 | 申报国家 | 中国 |
公开/公告日 | 2003-02-12 | 公开/公告号 | CN1396533 |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | 暂无 | IPC分类号 | 暂无查看分类表>
|
申请人 | 友立资讯股份有限公司 | 申请人地址 | 台湾省台北市
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 科立尔数位科技股份有限公司,英特维数位科技股份有限公司 | 当前权利人 | 科立尔数位科技股份有限公司,英特维数位科技股份有限公司 |
发明人 | 吴冠廷 |
代理机构 | 北京市柳沈律师事务所 | 代理人 | 杨梧;马莹 |
摘要
一种色情文件判断系统及方法,用以过滤通过网络传送的标记文件,利用文字部分与图片部分的双重检查,除了利用原有的色情图片识别引擎来识别图片外,还利用文字比较引擎对描述图片的文字进行分析,以获得图片的相关信息,提高色情图片识别的正确率。色情文件判断系统包括文件分配器、色情图片识别引擎、文字比较引擎。文件分配器将所接收的标记文件分离为文字部分及图片部分,分别交由文字比较引擎及色情图片识别引擎进行检查,最后根据色情识别指数判断标记文件是否为色情文件。
1.一种色情文件的判断方法,用以过滤通过网络传送的标记文件,其 中该标记文件包括文字部分和图片部分,该方法包括:
(a1)输入标记文件;
(a2)分离文字部分和图片部分,将文字部分和图片部分分别传送到文 字比较引擎和色情图片识别引擎;
(a3)文字比较引擎提取文字部分的待检查文字,并计算该文字部分的 文字色情指数;
(a4)色情图片识别引擎提取图片部分的待检查图片,并计算图片部 分的图片色情指数;
(a5)加总文字色情指数和图片色情指数为色情识别指数;以及
(a6)根据该色情辨识指数,判断该标记文件是否为色情文件。
2.如权利要求1所述的色情文件的判断方法,其中在步骤(a6),当该 标记文件被判断为色情文件,则拦截该标记文件。
3.如权利要求1所述的色情文件的判断方法,其中在步骤(a2)中,是 由文件分配器将标记文件的文字部分和图片部分进行分离。
4.如权利要求1所述的色情文件的判断方法,其中文字比较引擎的检 查方法还包括:
搜索比较该待检查文字和数据库色情文字。
5.如权利要求4所述的色情文件的判断方法,其中文字比较引擎是搜 索色情文字数据库,该色情文字数据库包括多个数据库色情文字,且这些 数据库色情文字分别具有对应的色情加权值。
6.如权利要求5所述的色情文件的判断方法,其中文字比较引擎会根 据该文字部分所对应的所有色情加权值,计算出该文字色情指数。
7.如权利要求1所述的色情文件的判断方法,其中该色情图片识别引 擎的检查方法还包括:
针对待检查图片的特征数据识别待检查图片。
8.如权利要求1所述的色情文件的判断方法,其中当该标记文件被判 断为色情文件时,该色情图片识别引擎通知拦截单元进行对该标记文件的 拦截。
9.如权利要求1所述的色情文件的判断方法,其中该色情文件为附加 色情图片的电子邮件。
10.一种色情文件的判断系统,用以过滤通过网络传送的标记文件, 其中该标记文件包括文字部分及图片部分,该系统包括:
一个文件分配器,用以分离文字部分及图片部分;
一个文字比较引擎,连接色情文字数据库,用以检查文字部分,计算 该文字部分的文字色情指数;及
一个色情图片识别引擎,用以检查该图片部分,计算该图片部分的图 片色情指数,并加总所接收的该文字色情指数和该图片色情指数为色情识 别指数。
11.如权利要求10所述的色情文件的判断系统,其中该系统还连接一 个拦截单元。
12.如权利要求11所述的色情文件的判断系统,其中当该系统判断出 该标记文件为色情文件时,该色情图片识别引擎传送一个控制信号,通知 该拦截单元以进行色情文件拦截。
13.如权利要求10所述的色情文件的判断系统,其中该文件分配器将 文字部分传送到文字比较引擎。
14.如权利要求10所述的色情文件的判断系统,其中该文件分配器将 该图片部分传送到该色情图片识别引擎,
15.如权利要求10所述的色情文件的判断系统,其中该色情文字数据 库包括多个数据库色情文字,且该些数据库色情文字分别具有对应的色情 加权值。
16.如权利要求15所述的色情文件的判断系统,其中该文字比较引擎 的检查方式是以搜索比较该文字部分和该些数据库色情文字。
17.如权利要求15所述的色情文件的判断系统,其中该文字比较引擎 会根据该文字部分所对应的所有色情加权值,计算出该文字色情指数。
18.如权利要求10所述的色情文件的判断系统,其中该文字比较引擎 将该文字色情指数传送到该色情图片识别引擎。
19.如权利要求10所述的色情文件的判断系统,其中该色情图片识别 引擎是针对待检查图片的特征数据计算该图片部分的图片色情指数。
20.如权利要求10所述的色情文件的判断系统,其中该色情图片识别 引擎是根据该色情识别指数,判断该标记文件是否为色情文件。
21.如权利要求10所述的色情文件的判断系统,其中该色情文件为附 加色情图片的电子邮件。
技术领域\n本发明涉及一种色情信息过滤系统及方法,特别涉及一种色情文件的 判断系统及方法。\n背景技术\n随着网络通信与信息科技的日新月异,信息的传递与分享也越发快速 与便利。使用者只要经由互联网(Internet)就可以连结到全球网站所组成 的全球信息网(World Wide Web)上,使用全球信息网所提供的数据或信息。 网络的兴起带来快速便利的通信环境及信息的流通,同时也创造了一个丰 富且隐密的虚拟空间(cyberspace),使得网络使用者不需披露自己的真实 身分即可畅游其间。然而近年来网络犯罪逐渐增多,引起各界关注,其中 特别以网络色情的泛滥,戕害青少年身心非常严重。\n为了善用网络资源,使未成年人而不致受网络有害信息的负面影响, 目前市售可防阻色情信息的过滤软件,具有大量的站台信息库,可安装在 可连接上网的计算机,例如:网络色情锁闸X-STOP或SurfWatch网站过滤 软件,如果使用者上网时所连接的网络是属于过滤软件的黑名单时,将会 出现无法连结的情形,而能防堵上万个色情网站、文件传输中心(File Transfer Protocol;FTP)和新闻论坛群组(News Group)。然而在变化快速 的网络世界中,每分每秒内都可能新增或重新修改网页内容、贴上违法信 息,如果过滤软件未能定期更新站台信息,一旦色情网站更换网址或有新 增的色情网站产生时,便无法有效杜绝色情信息的入侵。\n由于在实体生活中的所有文件数据、声音、影像等信息一旦被换成位 元型态,即可通过信息网络穿梭于全球,而在弹指之间为全球人士所共享。 许多色情网站提供大量的色情信息,网络使用者可轻易地接触到包括色情 文字、图片以及动画等的色情信息,同时还有人利用电子邮件(E-mail)发 送匿名信,或伪造他人名义在网络上散播色情文字、图片、影像、声音等 不法或不当的信息,发送电子邮件骚扰他人,导致其它使用者的不安与不 便。而在公司企业里,不少企业主对于员工从网络下载或传递色情图片, 或其往来邮件中的色情图片颇有微词,因为大部分的网络频宽被这些图片 占去,无端耗费公司资源。\n然而如果仅通过色情图片识别引擎对可疑的图片数据进行过滤检查, 由于影像辨识技术的限制,其识别效果仍无法达到令人满意的程度,色情 图片识别引擎仅能概略分辨出图片是否为色情图片,检查出图片含有色情 成分的百分比,其识别处理能力约相当于一个十岁的幼童,有时会出现模 棱两可的情况。\n发明内容\n有鉴于此,本发明的总的目的是提供一种色情文件的判断系统及方法, 利用文字部分与图片部分的双重检查,提高色情图片识别的正确率。\n根据本发明的一个目的,提出一种色情文件的判断方法,用以过滤通 过网络传送的标记文件,其中标记文件包括文字部分及图片部分,其判断 方法包括:首先,输入标记文件,接着,分离文字部分及图片部分,然后 分别检查文字部分及图片部分,计算标记文件的色情识别指数,最后判断 出标记文件是否为色情文件。\n根据本发明的另一目的,提出一种色情文件的判断系统,用以过滤通 过网络传送的标记文件,其中标记文件包括文字部分及图片部分,判断系 统包括文件分配器、文字比较引擎及色情图片识别引擎。文件分配器是用 以分离文字部分及图片部分;文字比较引擎连接色情文字数据库,用以检 查文字部分,计算文字部分的文字色情指数;而色情图片识别引擎是用以 检查图片部分,计算图片部分的图片色情指数,并加总所接收的文字色情 指数及图片色情指数为色情识别指数。此外,此色情文件判断系统还连接 拦截单元,当系统判断出色情文件时,拦截单元即进行色情文件的拦截。\n为了实现上述各发明目的,按照本发明提出以下技术方案:一种色情 文件的判断方法,用以过滤通过网络传送的标记文件,其中该标记文件包 括文字部分和图片部分,该方法包括:(a1)输入标记文件;(a2)分离文 字部分和图片部分,将文字部分和图片部分分别传送到文字比较引擎和色 情图片识别引擎;(a3)文字比较引擎提取文字部分的待检查文字,并计算 该文字部分的文字色情指数;(a4)色情图片识别引擎提取图片部分的待检 查图片,并计算图片部分的图片色情指数;(a5)加总文字色情指数和图片 色情指数为色情识别指数;以及(a6)根据该色情辨识指数,判断该标记文 件是否为色情文件。\n为使本发明的上述目的、特征、和优点能更明显易懂,下面结合附图 对对本发明的优选实施例进行详细描述。\n附图说明\n图1表示色情电子邮件的示意图;\n图2表示按照本发明的一个优选实施例的色情文件判断系统的框图;\n图3表示按照本发明的一个优选实施例的色情文件判断方法的流程图;\n图4表示按照本发明的一个优选实施例的文字比较引擎检查方法的流 程图;\n图5表示按照本发明一个优选实施例的色情辨识引擎检查方法的流程 图。\n附图标号说明\n102:寄件者\n104:日期\n106:收件者\n108:主旨\n110:附加文件\n112:内文\n114:附加图片\n200:色情文件判断系统\n202:文件分配器\n204:色情图片识别引擎\n206:文字比较引擎\n208:色情文字数据库\n210:拦截单元\n具体实施方式\n所谓标记文件,是指包括文字部分及图片部分的文件,例如网页或是 电子邮件,而且通常文字部分与图片部分的内容具有某种程度的相关性。 以电子邮件为例,图1是色情电子邮件示意图,一个封电子邮件基本上是 由寄件者102、日期104、收件者106、主旨108和内文112所组成,此外, 当电子邮件附加上文件时,附加文件110会附加在信件内容的尾端,当作 信件的一部分来传送;其中寄件者102及收件者106分别是寄信人的电子 邮件地址abc @ xxx.com及收信人的电子邮件地址def @ yyy.com,日期 104记录电子邮件于某年某月某日寄送的日期,主旨108是这封电子邮件的 主题,而内文112就是信件内容。通常主旨108与内文112有密切的关系, 例如一封色情电子邮件在主旨108出现超辣、辣妹、超火辣等色情文字, 信件内容可能就包括半裸全裸的照片、写真集等色情图片。为避免收到奇 怪或陌生的电子邮件,附加色情、猥亵的文件、文字或图片,提供选择权 给不想看此类信息的人,因此提供一套针对信息内容的即时检查机制,直 接对可疑的文字、图片文件数据进行过滤检查,方能有效过滤电子邮件所 夹带的色情图象文件,真正使未成年人善用网络资源而不致受网络有害信 息的负面影响。\n参照图2,表示出按照本发明的一个优选实施例的色情文件判断系统的 方块图。本发明的色情文件判断系统是利用文字部分与图片部分的双重检 查,除了利用原有的色情图片识别引擎来识别图片外,还对于描述图片的 文字进行分析,以获得图片的相关信息,提高色情图片识别的正确率。如 图2所示,色情文件判断系统200是用以过滤通过网络传送的标记文件, 包括:文件分配器202、色情图片识别引擎204、文字比较引擎206。\n文件分配器202将所接收的标记文件数据Dc分离为文字数据Dt和图 片数据Dp,并将文字数据Dt传送到文字比较引擎2 06、将图片数据Dp传 送到色情图片识别引擎204。文字比较引擎206是用以检查文字部分,计算 文字部分的文字色情指数,并将文字色情指数传送给色情图片识别引擎 206;此外,文字比较引擎206连接色情文字数据库208,其中色情文字数 据库208包括许多数据库色情文字,提供文字比较引擎206进行文字部分 的搜索比较,且每个数据库色情文字都具有对应的色情加权值,不同色情 文字有不同的加权值;例如:超火辣、色情写真、辣妹等文字,由于几乎 可以断定其相关图片为色情图片,因此具有较高的色情加权值,而如:出 道写真集、清凉等文字,有可能是清纯偶像的照片或清凉的水果等,因此 具有较低的色情加权值,而文字比较引擎206会根据所检查的文字部分所 对应的所有色情加权值,计算出标记文件的文字色情指数。而色情图片识 别引擎204是用以检查图片部分,计算图片部分的图片色情指数,并将所 接收的文字色情指数及图片色情指数加总为色情识别指数。色情图片识别 引擎204是以统计作为其判断的基础,运用数学演算法针对待检查图片的 特征数据进行识别;图片的特征数据来源大致包括颜色、型态、位置、大 小、条纹分布、物件属性等,由于色情图片多半呈现半裸或全裸的图面, 因此可以图片的肤色比例作为其特征数据来源,提供色情图片识别引擎204 进行判断。此外,色情文件的判断系统200可连接拦截单元210,当色情文 件的判断系统200根据色情识别指数判断出标记文件为色情文件时,色情 图片识别引擎204传送控制信号Cr,通知拦截单元210以进行色情文件拦 截。因此,将本发明的色情文件判断系统安装到企业的电子邮件服务器后, 即可侦测来往邮件所夹带的图片,有效遏止公司员工占据网络频宽传送色 情图片。此外,色情文件判断系统亦可安装在其它服务器上以过滤色情网 页,或可安装在个人计算机上,对于不明来源的文件,可在开启文件之前 先进行识别。\n参照图3,表示出按照本发明的一个优选实施例的色情文件判断方法的 流程图。色情文件的判断方法是用以过滤通过网络传送的标记文件,其中 标记文件包括文字部分及图片部分。如图3所示,首先开始进入步骤302, 输入标记文件到文件分配器202。接着在步骤304中,由文件分配器202将 标记文件分离为文字部分及图片部分,再将文字部分及图片部分分别传送 到文字比较引擎206及色情图片识别引擎204。然后在步骤306中,分别由 文字比较引擎206检查文字部分及由色情图片识别引擎204检查图片部分。 分别完成文字部分及图片部分的检查后,进入步骤308,标记文件的色情识 别指数即可计算得知。最后在步骤310,根据色情识别指数判断出标记文件 是否为色情文件,而结束色情文件判断方法。\n举例而言,假设标记文件为图1中有附加图片114的电子邮件,并请 同时参考图4及图5。在图4中,文字比较引擎206的检查方法是先进入步 骤402,提取电子邮件中的待检查文字,例如是主旨108的标题文字、附加 文件110的文件名称或内文112的叙述内容,接者在步骤404,搜索色情文 字数据库208,并在步骤406中判断是否比较出色情文字。当文字比较引擎 206在色情文字数据库208找到与待检查文字相同或近似的数据库色情文 字,则进入步骤408中,计算文字色情指数;例如图1的主旨108上有“超 火辣”的字眼,而文字比较引擎206就可以从色情文字数据库208中检查 比较出“超火辣”这三个字,如果其色情加权值为0.1,则得到文字色情指 数为0.1。而后经过步骤410,判断是否为最后一个文字,如果否,则回到 步骤402,继续提取下一个其它待检查文字,重复上述步骤404、406、408, 由于在图1的电子邮件中,其附加文件110的文件名称为“写真集”,如果 “写真集”的色情加权值为0.05,则在步骤408中,文字色情指数累计为 0.15(=0.1+0.05)。由于文字部分已检查完毕,因此在步骤412中,文字 比较引擎206将文字色情指数传送到色情图片识别引擎204。\n在图5中,色情图片识别引擎204的检查方法是开始进入步骤502,提 取待检查图片,接着在步骤504中,识别待检查图片,而在步骤506中计 算出图片色情指数。在图1中,如果色情图识别引擎204对于附加图片114 识别后所得的图片色情指数为0.5,表示附加图片114有一半机会是色情图 片,也有一半机会不是色情图片,因此无法判断此张图片是否真的是一张 色情图片,此时,色情图片识别引擎204接收到从文字比较引擎206所传 送的文字色情指数0.15,而在步骤508中加总文字色情指数和图片色情指 数,得到色情识别指数为0.65(=0.5+0.15),因此通过文字比较引擎206 的检查而提高了这张附加图片114的色情成分,因此在步骤510可以根据 色情识别指数判断标记文件为色情文件,当标记文件被判断为色情文件, 则进入步骤512,通知拦截单元210进行标记文件的拦截。倘若文件比较引 擎206所检查的文字部分找不到任何有关色情的字眼,则文字色情指数会 呈现负值,例如是-0.1,则在步骤508中所加总的色情辨识指数会是为 0.4(=0.5-0.1),因此通过文字比较引擎206的检查而降低了图片的色情 成分,因而会被判断为不是色情文件。由此可知,利用文字部分与图片部 分的双重检查,确实能够提高色情图片识别的正确率,尤其是当色情图片 识别引擎208无法判断时,更能可靠的识别出正确的结果。\n发明效果\n本发明上述实施例所披露的色情文件判断系统及方法,利用文字部分 与图片部分的双重检查,提高色情图片识别的正确率,除了利用原有的色 情图片识别引擎来识别图片外,还对于描述图片的文字进行分析,以获得 图片的相关信息,尤其是当色情图片识别引擎无法判断时,更能客观可靠 地识别出正确的结果。\n当本发明应用在过滤通过网络传送的标记文件,例如网页或电子邮件, 而将色情文件判断系统安装到企业的电子邮件服务器或其它服务器上,即 可侦测来往邮件所夹带的图片或所下载的色情文件,有效遏止公司员工占 据网络频宽传送色情图片的问题,或可安装在个人计算机上,对于不明来 源的文件,在开启文件之前先进行识别,能有效过滤标记文件所夹带的色 情图片,真正使未成年人善用网络资源而不致受网络有害信息的负面影响。\n综上所述,虽然本发明已以一个优选实施例进行了披露,但其并非用 以限制本发明,任何本专业的技术人员在不脱离本发明的精神和范围内, 都可作各种的修改和变化,因此本发明的保护范围是按后附的权利要求书 所界定的范围为准。
法律信息
- 2016-09-07
未缴年费专利权终止
IPC(主分类): G06F 17/00
专利号: ZL 01123132.7
申请日: 2001.07.16
授权公告日: 2005.04.20
- 2008-08-20
专利申请权、专利权的转移(专利权的转移)
专利申请权、专利权的转移(专利权的转移)变更项目:专利权人变更前权利人:友立资讯股份有限公司 地址: 台湾省台北市变更后权利人:英特维数位科技股份有限公司 地址: 台湾省台北市登记生效日:2008.7.11
- 2008-08-20
专利权人的姓名或者名称、地址的变更
专利权人的姓名或者名称、地址的变更变更事项:专利权人变更前:英特维数位科技股份有限公司 地址: 台湾省台北市变更后:科立尔数位科技股份有限公司 地址: 台湾省台北市
- 2005-04-20
- 2003-02-12
- 2001-11-14
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有引用任何外部专利数据! |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |