最近更新最新入庫全本精品總排行榜  

正文 第十八章 語義識別的難點

投推薦票  上一章  章節列表  下一章  加入書簽

作品︰科技大崛起 | 作者︰劃過指尖


 熱門推薦: 雪鷹領主 完美世界 武極天下 星河大帝 傲世九重天 我的貼身校花

    <font color=red>筆趣閣</font>已啟用最新域名︰www.<font color=red>biquge001</font>.com ,請大家牢記最新域名並相互轉告,謝謝!

    “寧總,官網流量突然大增!”

    “超過預期了嗎?”

    “超了……五倍!”一直關注著流量的程序員大喊了出來。www.kmwx.net這遠遠超過預期!

    寧熙言臉上無喜無憂,在宣傳效果超過預期的時候,她就知道了會有這樣的結果,因此一點也不吃驚。

    “很好,現在就逐步放出消息吧。”

    超越時代公司官網同樣也是十分簡潔。原版的官網是白色背景牆上有一個佔據大半個屏幕的樹影,以及一個樹枝上的人影,除此之外再無他物。

    這個官網是羅輯設計的,靈感來源自然是腦海中的科技樹。按照羅輯的設想,每一個枝杈都應該可以點擊,並且每一個枝杈都代表是一個時代,這樣才符合他腦海里的東西。

    寧熙言雖然不太理解這麼設計的原因,但是感覺這個方案很具有科幻感,十分符合公司的定位,也沒有太多的意見。

    不過由于簡潔的太過分,第一次點進來的人,估計都不知道怎麼瀏覽信息,就是額外添加了些元素。在背景牆上添加了一些淺綠色的綠葉虛影,而人影所在的樹枝的綠葉則是深綠色的。

    這樣就給人一種十分明顯的提示,這地方是可以點擊的。

    “這太炫酷了!”正操作著鼠標的朱成興奮的叫了起來,他沒有在第一時間瀏覽信息,反而來回在樹葉上點了數次。

    這個主頁設計的很有感覺,和國內最大化給予用戶視覺飽滿度的設計截然不同,在看慣了那種不放過任何空白的網站之後,這種變化讓朱成有些不太適用,但是卻感覺很輕松。

    “就憑這個官網,我相信語音識別是這家公司做的。”作為華夏網民,最煩的就是網站在頁面上設置廣告,而這種設計風格明擺著不會這麼干。要是想租廣告位,全部設置成模塊就好了,這種浪費空間的方式該少賺多錢啊?

    朱成是個隻果用戶,最初在網上看到這個信息的時候是不信的,以為又是那些不良記者寫來博人眼球的。不過隨著時間的推移,語音軟件愈演愈烈,朱成半信半疑的下載了電腦版,然後找了個播報文錄音放了起來。讓他感到不可思議的一幕出現了,在三秒鐘的延遲之後,他從電腦上看到了那篇文章。

    震撼!

    他比其它人看的到的東西更多,這款軟件不僅識別率高,並且還保證了用戶的自由度。不用按鍵說話,說完之後也不需要等待軟件是否識別正確,這款軟件的寫入速度完全比跟的上說話速度。

    朱成在用軟件上測試了一天,感覺有些遺憾,因為這只是個樣品,並且還沒有隻果版的。然後他在網上找到了原帖,然後順藤摸瓜的找到了超越時代的官網。

    再次點擊一回樹葉後,朱成沒在繼續下去,開始瀏覽起信息來。

    點擊樹葉之後,出現的一根樹枝的放大版。與簡單的首頁不同,這個二級頁面中多了很多信息。

    “智能小語1.0七天後正式上線!”朱成很快就看到了頂端的信息。

    “暫時推出的軟件分個人版和企業版。個人版免費使用,企業版有為期七天的試用期。”

    在軟件的下方還分別有個簡介。個人版對于生活方面的識別會更加精準,而企業版更注重于會議,可支持多人同時錄入,抗噪音能力也更強,並且還可以選擇去口語化,使會議內容更接近書面格式。

    網頁里面的信息不多,很快朱成就看完了。對于七天後軟件的發布十分期待,語音錄入可是懶人必備的神器啊,以後估計都不用打字了。

    “智能小語,也可以叫語音輸入法吧?”

    如果不用打字了,是不是意味著鍵盤也沒用了?那筆記本豈不是可以做的更薄?不對,沒了鍵盤不就成了平板麼?朱成想到了這一點,感覺自家的電腦城可以多進一些平板電腦了。

    在外界因為語音識別而震驚的時候,羅輯所在的機房卻只能听到敲鍵盤的聲音。盡管語音識別已經做了出來,但對于寫代碼而言意義不大。真正能將羅輯從這些繁重的任務中解救出來的只有語義識別!

    開發語義識別,就如同羅輯預料的那樣,並不是一塊好啃的骨頭。

    更何況是中文體系上的語義識別,這比其它語言要難上幾個級別。光是分詞這一項,就能讓人死掉不少腦細胞。中文不同于單詞組成的拉丁文,拉丁文單詞間的空格可以大幅度減少電腦的識別難度,而中文卻不行。

    在中文里面,一句話就有很多意思。別說電腦了,有時候就連人也不好分辨。比如那句著名的“下雨天留客天天留我不留”,在沒有標點符號的情況下,它至少有七種意思。對于電腦而言,別說這種地獄級的分詞,哪怕是一些人們看來再簡單不過的句子也很難分辨。

    比如“華科大學生前來應聘”,電腦可能會理解為“華科大學,生前,來應聘”。

    中文語義識別的第一個難點,也可以說是最大的難點便在這里。怎樣的分詞算法才是最完美的?

    羅輯在科技樹中找到了方案,一種基于統計學模型的算法,構建一個三維矩陣,選取概率最高的一個。xy軸是任意兩個詞語的組合,而z軸則是場景狀態,根據語氣和語態選取的最佳方案。

    “不過這需要聯網。”羅輯琢磨了一下,這似乎是目前最好的方案,雖然他的本意是打造一個可用于線下服務的智能,但是以現在的設備存儲能力想要存下大量的語料庫,根本就是天方夜譚。電腦肯定是不行的,光腦還差不多。

    “聯網就聯網吧,在程序里預留一些常用算法,斷網勉強也能用。”

    解決了第一個問題之後,羅輯又陷入了瓶頸。他驀然想起中文還有一點很蛋疼,那就是沒有和英文一樣可用于區分人名地名的大小寫。

    要是僅僅這樣也就罷了,關鍵是有些人的名字起就是一個詞語,如果分詞程序有智能的話,它一定會把這些人拖出去砍死。比如高峰、汪洋、羅輯……

    “這……還是不要砍死了,半殘就好。”

    羅輯馬上停止了抱怨了,再困難也要解決不是?

    “到底要怎麼做?”

    羅輯覺得自己有些天真了,一開始以為有了科技樹絕對可以快速的解決問題,可事實上並非如此。之前做無線充電器時,都要用到機械方面的知識,而難度比無線充電更大的語義識別,其交叉的學科只會更多。

    “語義識別要什麼?電腦編程、統計分析、數據建模……還有語言學?”羅輯看到科技樹上顯示的內容完全傻眼了,前面的只要的理科內容,不管多難他都不怕,可偏偏最後一項他卻沒有辦法。

    讓羅輯去看文科知識,那比殺了他還難受。可不學語言學,怎麼可能做的出語氣識別?

    羅輯抓破腦袋也沒有想出代替方案,這似乎是唯一的解決方法。想想也是,對語言不熟悉的人又怎麼做的出語義識別?作為社交白痴的羅輯,自己都听不太明白別人的話,又怎麼讓電腦也“听”的懂?

    學習語言學?

    羅輯硬著頭皮只看了一會,就感覺頭大如斗,就像熬了好幾個通宵,困意如潮水般一波波涌來,怎麼也擋不住。

    這道是個催眠的好方法,羅輯有些哭笑不得。

    “只能走一步看一步了。”羅輯決定先將這個問題擱置,等其他能解決的都解決了,再回頭來考慮這個問題。

    先搭建模型吧。

    語義解析得到步驟和前兩步很想,都需要一定量的數據支持。好在有小音的幫助,不需要羅輯去親自搭建語料庫,不然光是這一個工程就能讓開發時間延長幾倍。

    繁瑣的數據積累永遠是最費時間的,不過幸好小音的智能程度提高了,她能替羅輯執行的工作也越來越多,可以說只要語義識別完成,她就和電影里的那些黑科技差不多了。

    研發的過程對于別人也許是枯燥的,但對羅輯來說卻是讓人興奮不已的。因為在擁有了科技樹之後,他基本不會做無用功,任何研究都有一個明確的方向,所以他的研究每時每刻都在向目標推進。

    七天後,羅輯在屬于自己的機房里長出了口氣。現在上他能解決問題都解決了,自動分詞系統也趨于實用,至少不會出現烏龍了。一些帶有歧義的句子也能分析出來。

    比如“獨立自主和平等互利的原則”這句話,電腦就能做出兩種分析,“獨立自主和,平等互利的原則”以及“獨立、自主、和平等互利原則”。

    但是對于人名應該怎麼處理?總不可能用窮舉法吧?也就是將所有的名字都輸入資料庫,但這又會出現一個問題,因為你永遠不知道那些父母會起怎樣的名字。去公安部找身份證信息?這不現實,先不提這難度有多大,光是暴露了用戶隱私這一條,就能讓公司陷入萬劫不復。

    更何況羅輯還很嫌棄身份證信息的更新速度,辦張證都要好幾個月!這對于一分鐘都嫌長的互聯網而言,根本就是無法忍受的好嗎?

    羅輯感覺頭都大了,難道非得去學什麼語言學嗎?真要去學的話,那個效率不敢想象。如果說羅輯的理科學習效率是一百的話,文科大約就只有二十了。

    同時能做出語義識別的知識,也絕對不會簡單。

    這麼想的話,想要做出完整的語義識別根本,不得花好幾個月?羅輯倒不是嫌時間太長,只是一想到要看這麼久的文科就覺得蛋疼。

    羅輯從小就養成了獨立思考的能力,長大後更是形成了孤獨思考的習慣,加之性格使然,就更加的不會找人幫忙了。

    “頭疼……”

    在羅輯還在苦思冥想的時候,手機久違的響了起來。羅輯的手機很少有人撥打,一般情況除了父母,也就沒誰了。

    “輔導員?”

    羅輯愣了一下,隨後驚醒過來,自己貌似半個月沒去上課了。別說是華科,就算是三本學校也不會容忍這種情況發生。羅輯不知道該怎麼解釋,只好硬著頭皮接通了電話。

    還未開口,那邊就傳來了輔導員的聲音“羅輯同學嗎?”

    “是我。”

    “是這樣的,接下來的幾天有考試不要忘記了。”

    羅輯迷糊的點了點頭,差點忘記了自己還是學生這茬,考試什麼的更是忘得一干二淨。

    “好的輔導員,謝謝你的提醒。”

    羅輯對他的輔導員並不熟悉,只是在領獎學金的時候有接觸。這次他才覺得自己的輔導員很好說話,居然沒有提曠課的事。這讓羅輯松了口氣的同時,又更加頭疼了。

    真是禍不單行。

    語義識別工作出現困難不說,居然還要考試?羅輯感覺自己根本靜不下心來復習啊。手機用戶請訪問http://m.piaotian.net
投推薦票 上一章 章節列表 下一章 加入書簽


本站強烈推薦給您以下精彩小說︰

本站所有內容均來源于網友網絡分享與轉載,本站不承擔任何責任!如不認同,請離開本站。

若本站無意中侵犯到您的權益或含有非法內容,請及時聯系我們,我們將在第一時間做出回應。

Copyright © 2012∼2018 www.luanhen.com 飄天文學網 All Rights Reserved.

滬ICP備15008561號

XML︰1  2  3  4  6  7