第一次在男方都是报社论版发贴,难免还是有点小激动 = =。强自淡定地贴一下编辑未删前的原稿吧~
为了求证发黄段子就要停机是否属实,我在前两天拨打了韩寒的电话。不出所料,尽管转发了不少黄段子,韩寒的手机功能一切正常。同时,他也告诉我曾经给朋友发去生日祝福短信却死活也发不出去。他百思不得其解,笑言:“难道“日”字也是过滤词?”
他的问题,其实也是网民的问题:到底什么是黄段子鉴定的实际技术标准?为什么“你妈妈做的红烧肉棒极了”、“24口交换机”这样的短信,竟然可能会给人带来麻烦,而韩寒发了一堆黄段子却什么事都没有?上海移动一名工作人员的回答让人惊讶:“理论上来说,只要发送黄段子就会被系统自动检测到。”但从事实看来,这不过是对技术无知的呓语罢了。
人们经常说汉语博大精深,但民众未必了解这门语言的美妙与困难对于计算机自动处理来说到底意味着什么:其实对这门学科稍有了解的人都知道,目前的技术离达到使计算机“理解”语意的境界还差得非常远,至多是在做一些基础性工作。其中,自动断句(专业上称为分词)就是一切其他应用的根本,也是最大的难点,因为它涉及汉语语言学的基础理论研究、数据库的建立、以及海量规则的设计,目前仍然只能在容错率相对很高的媒介上运用,如搜索引擎。
工信部购买绿坝花了4000万,从专业角度来看,这个软件使用的仍然是老旧的关键字识别技术,实际价值可能超不过40万。而要做出具有广泛实用意义的自然语言理解、处理的过滤软件,不仅其造价将是天文数字,也需要汉语语言学界、计算机科学界再出上三五个王力、图灵(现代计算机始祖)才能做得到。
目前的情况是,即便在国内一些设立“汉语自动化处理”专业的科研单位,很多学生也只能对语句先进行手工分词,再人工整理数据库。这一汉语自动化处理的瓶颈,从其发展之初就很少改善过;而技术实力强如美国,也只是在算法上比较领先而已,其数据库的建设仍然达不到在社会中实际广泛运用,甚至直接用来干预社会生活的技术标准。
由政府、执行机构直接发布公告,强制要求社会接受不成熟技术的管制,这样一条决策在欧美国家是不可能出现的:在政府咨询之时,科研单位就会坦诚地告诉政府,用目前的计算机技术手段,绝无可能在实用级别做出类似的检测软件。而堂堂中国的工信部,居然验收了绿坝这样一个禁止用户输入“24口交换机”的软件,甚至用类似软件来检测、禁止社会传播黄段子,这是政府不懂技术、决策缺乏科学基础的后果,充满了拍脑袋式的异想天开。
而针对动用技术手段禁止黄段子传播,声称“只要发送黄段子就会被系统检测到”,就好像禁止地球围绕太阳运转一样可笑:仅就技术而言,我们仍然处在人工智能发展的石器时代;而“幽默”是人类智能高度发达的产物,是建立在社会群体意识上的,不仅无法复制,甚至很难作为科学对象来研究。语言作为“幽默”的载体和表现,往往正是靠语言歧义达到效果,因此在大量黄段子里,并不会真的出现任何可用目前技术检测、搜索的关键字。要在目前技术下做到禁绝黄段子,除非连“线头”、“大老粗”、“先进性教育”这样的词语都从社会语言中剔除掉,而这显然是绝无可能的。
最后,建议有关部门还是不要对技术抱有不切实际的幻想了:文中所谈及的关键技术问题,任何一条都需要中国的科技实力超越美国100年才有可能做到。如果中国的科研单位能在最近几年内做出具有广泛实用意义的自然语言理解、处理的软件,我不仅不会跳起来反对,反而会欢呼,因为这将说明我们的底层理论及其高端应用将彻底领先全世界。在这之前,如果工信部、中国移动等单位再遇到上门推销过滤软件,声称可以达到对社会进行语言控制的公司或个人,作者建议直接将来访人扭送公安局,并以诈骗罪追究其责任。这一建议长期有效。
Recent Comments