舆情监测系统的语义分析准确度最高能到多少?

阅读  ·  发布日期 2023-03-02 22:57  ·  云服科技

    相信很多想要购买舆情监测软件的都会关注到舆情软件的自动语义分析准确度,在此可以给大家公开一下,目前市面上的中文语义分析功能准确度基本都在60%左右,并且这个成绩还真没有大家想象的那么低。


    很多人一看到,准确度才60%,那这语义分析功能准确度也太差了。实际上并不是如此,中文语义分析之所以准确度低,主要是源自于中文的语序、含义、相似度等等都成为了难点。


    在开发中文语义分析时,为了提高准确率,开发者们都想过那些办法?


    1、正常顺序阅读。也就是通过语言的正常顺序进行阅读,但是大家都值啊都,要想正常顺序读的话,需要用到一个对人来说很简单,但对AI来说很难得动作,那就是“切词”,比如一个很简单的词语“手术刀”,正常人阅读会知道这是一个词,但AI会认为这里面包含了“手”、“手术”、“刀”、“手术刀”四个元素,因此进行语义识别时,很难精准的识别到“手术刀”的内容;


    2、倒叙阅读。既然正常阅读容易出错,那么倒着阅读也许可以解决这一问题。比如上面提到的“手术刀”关键词,正序阅读会比较宽泛,那么倒叙阅读,就能逐步识别到刀、术刀、手术刀,进而定位到手术刀的内容。这样看起来好像有很好的解决办法,但如果应用到长的句子中,依然难以做到准确识别;


    3、中间向两边阅读。这也是中文语义分析中用到的一种方式,就是一个很长的句子,从中间开始往两边阅读,然后再正序阅读+倒序阅读,这也是目前最常见的中文语义分析解决方案,而这样的解决方式,也才勉强能够达到60%,仍然有非常多的中文内容AI根本无法准确识别到其含义。


    得益于中文的博大精深,一个字可能涉及到多个同音字、同音词,同时再加上人们日常交流中会使用错别字、谐音字,这些都加大了中文语义分析的难度。因此不要过分苛求中文语义分析系统了,毕竟就算是两个人面对面交流,有时也有可能理解错意思。

technology-book-books-business