国产玉足榨精视频在线_亚洲日韩国产第一区_男人都懂的网站在线观看免费_久久91亞洲精品中文字幕奶水_按摩房技师激情国产精品_无人在线观看视频在线观看_年轻女教师2免费播放_欧洲熟妇色xxⅩx欧美老妇多毛_91爱视频成人在线第一页_欧美日韩中文字幕成人网

日志樣式

無錫企業(yè)網(wǎng)站建設(shè)500元全包(ai產(chǎn)品經(jīng)理,如何從零開始打造專業(yè)領(lǐng)域的技術(shù))ai產(chǎn)品經(jīng)理薪資,

在SEO中,為節(jié)省存儲空間和提高搜索效率,搜索引擎在索引頁面或處理搜索請求時(shí)會自動忽略某些字或詞,這些字或詞即被稱為停用詞。那么對于AI產(chǎn)品經(jīng)理來說,要如何從零開始打造專業(yè)領(lǐng)域的停用詞庫?

人工智能領(lǐng)域有三大基礎(chǔ):數(shù)據(jù)、計(jì)算力和算法,只有有了數(shù)據(jù),才會有數(shù)據(jù)智能,有了數(shù)據(jù)才能描繪用戶精準(zhǔn)畫像,從而進(jìn)行豐富的個(gè)性化推薦、精準(zhǔn)營銷計(jì)算力現(xiàn)在各家體力相當(dāng),沒有多大差別,而好的算法卻能夠讓你的AI產(chǎn)品更加智能。

在智能客服、垂直行業(yè)的AI助手:法律、金融、體育、醫(yī)療健康、智能語音助手領(lǐng)域,如何從零打造自己的停用詞庫是一個(gè)產(chǎn)品經(jīng)理必備技能?什么是停用詞停用詞(Stop Words) ,詞典譯為“電腦檢索中的虛字、非檢索用字”。

在SEO中,為節(jié)省存儲空間和提高搜索效率,搜索引擎在索引頁面或處理搜索請求時(shí)會自動忽略某些字或詞,這些字或詞即被稱為Stop Words(停用詞)停用詞一定程度上相當(dāng)于過濾詞(Filter Words),不過過濾詞的范圍更大一些,包含黃色、政治等敏感信息的關(guān)鍵詞都會被視做過濾詞加以處理,停用詞本身則沒有這個(gè)限制。

通常意義上,停用詞(Stop Words)大致可分為如下兩類:(1)使用十分廣泛,甚至是過于頻繁的一些單詞比如英文的“i”、“is”、“what”,中文的“我”、“就”之類詞幾乎在每個(gè)文檔上均會出現(xiàn),查詢這樣的詞搜索引擎就無法保證能夠給出真正相關(guān)的搜索結(jié)果,難于縮小搜索范圍提高搜索結(jié)果的準(zhǔn)確性,同時(shí)還會降低搜索的效率。

因此,在真正的工作中,Google和百度等搜索引擎會忽略掉特定的常用詞,在搜索的時(shí)候,如果我們使用了太多的停用詞,也同樣有可能無法得到非常精確的結(jié)果,甚至是可能大量毫不相關(guān)的搜索結(jié)果(2)文本中出現(xiàn)頻率很高,但實(shí)際意義又不大的詞。

這一類主要包括了語氣助詞、副詞、介詞、連詞等,通常自身并無明確意義,只有將其放入一個(gè)完整的句子中才有一定作用的詞語如常見的“的”、“在”、“和”、“接著”之類,比如:“AI產(chǎn)品經(jīng)理總舵是AI產(chǎn)品經(jīng)理的匯集地”這句話中的“是”、“的”就是兩個(gè)停用詞。

為什么要建停用詞庫文本中如果大量使用停用詞容易對聊天對話中的有效信息造成噪音干擾,所以QA搜索引擎在運(yùn)算之前都要對所索引的信息進(jìn)行消除噪音的處理了解了停用詞,在對話語料內(nèi)容中適當(dāng)?shù)販p少停用詞出現(xiàn)的頻率,可以有效地提高關(guān)鍵詞密度,使得自然語言理解過程中的意圖識別和語義匹配更加準(zhǔn)確。

所以搭建專業(yè)領(lǐng)域的停用詞庫,對處理專業(yè)語料庫及用戶問題的意圖識別及語義匹配的準(zhǔn)確性會有很大提高如何搭建專業(yè)停用詞庫1. 匯總通用停用詞庫標(biāo)點(diǎn)符號:,、?“”等語氣詞:呵呵 嗚嗚 哈 呸等指代詞:我 你 各位等。

連接詞:即使 即便 卻 或等總結(jié)詞:總的來說 再者說 何樂不為等英文詞:yourself yes who等現(xiàn)在網(wǎng)上有一些通用停用詞庫,例如:百度停用詞列表、四川大學(xué)機(jī)器智能實(shí)驗(yàn)室停用詞庫、哈工大停用詞表等,整理去重后有2428條。

但是每個(gè)領(lǐng)域有專業(yè)語言特色,特別是金融領(lǐng)域醫(yī)藥領(lǐng)域和法律領(lǐng)域,如果能夠加上專業(yè)停用詞做補(bǔ)充,那樣識別和匹配結(jié)果效果會更好2. 篩選行業(yè)專有停用詞以保險(xiǎn)行業(yè)為例,首先通過網(wǎng)絡(luò)搜集保險(xiǎn)行業(yè)問答QA語料,如下圖所示:

將QA分別做分詞處理,然后統(tǒng)計(jì)詞頻按數(shù)量排序,如下圖所示:

將該數(shù)據(jù)和通用停用詞做去重后,人工篩選行業(yè)專有停用詞將篩選完成的專業(yè)專有停用詞和通用停用詞合并,就構(gòu)成了保險(xiǎn)行業(yè)的專有停用詞庫了AI產(chǎn)品經(jīng)理的極致理論AI產(chǎn)品已經(jīng)進(jìn)入精細(xì)化設(shè)計(jì)階段,因?yàn)閷υ捫蜋C(jī)器人產(chǎn)品特性原因,輸入輸出的極度簡單,也就造成了處理過程的極度復(fù)雜。

一個(gè)對話型機(jī)器人系統(tǒng)包含了近二十項(xiàng)技術(shù)模塊,每個(gè)模塊都會影響最終輸出的結(jié)果,只有把顆粒度分的足夠細(xì)小,在每一個(gè)顆粒度上做到“好一點(diǎn)”,才能使得最終結(jié)有明顯提升小米產(chǎn)品里有一個(gè)極致思維,估計(jì)大家都聽過木桶理論,說是一個(gè)木桶,能裝多少水,取決于拼湊這個(gè)木桶所有的木板最短的那塊。

然而在AI產(chǎn)品已經(jīng)普及(例如智能音箱),避免出現(xiàn)短板,已經(jīng)不是最大的難題了難題是什么呢?如何提高每一塊板的高度,這時(shí)候就需要用到極致思維就是說怎么在每一塊板子上下功夫,把每一塊板子都做到極致舉個(gè)例子:IPod剛出來的時(shí)候和其他MP3最大的區(qū)別是什么呢?是在機(jī)器里面加了一個(gè)小硬盤,能存上千首歌。

連續(xù)播放幾天集不重樣,就因?yàn)檫@一點(diǎn)做到了極致,迅速占領(lǐng)了音樂播放器市場小米產(chǎn)品能夠迅速占領(lǐng)市場,是因?yàn)樗麅?yōu)化了整個(gè)供應(yīng)鏈系統(tǒng),才有了物美價(jià)廉的產(chǎn)品AI產(chǎn)品經(jīng)理要有數(shù)據(jù)信仰AI產(chǎn)品要堅(jiān)信,未來的技術(shù)及產(chǎn)品的底層智能是數(shù)據(jù)智能,數(shù)據(jù)是一切運(yùn)算及邏輯的本質(zhì)基礎(chǔ),具備數(shù)據(jù)信仰才能做好AI產(chǎn)品。

數(shù)據(jù)是基礎(chǔ),算法是路徑,具備了足夠干凈的數(shù)據(jù)和合適的算法,才會有更準(zhǔn)確的結(jié)果這里說的算法不僅僅指的工程師寫出來的算法,那只是狹義的算法,我所說的是廣義的算法,既包括產(chǎn)品經(jīng)理的做事的前后順序及做事方法,一切選擇都會對結(jié)果造成影響,一切影響都會左右最終結(jié)果,這里不做價(jià)值判斷。

AI產(chǎn)品經(jīng)理在工作中要有數(shù)據(jù)信仰,多做數(shù)據(jù)判斷,少做主觀判斷,這樣最終結(jié)果才不會和預(yù)期有太大偏差雷軍曾經(jīng)說過,要想知道產(chǎn)品的迭代方向,不是產(chǎn)品經(jīng)理拍腦門想出來的,也不是通過客服反映出來的,客服反映的只是愿意表達(dá)的那部分用戶的需求,而不是全部用戶的需求,就像是現(xiàn)在的一些論壇,看帖的用戶數(shù)是發(fā)帖用戶數(shù)的十倍以上,所有帖子中熱帖數(shù)量只占到所有帖子數(shù)量的1%。

也就是說論壇其實(shí)是1000個(gè)人在聽1個(gè)人講話,甚至更低,而這一個(gè)人根本不能代表1000個(gè)人的需求數(shù)據(jù)信仰就是要去看數(shù)據(jù)的本質(zhì),透過數(shù)據(jù)本質(zhì)才能找到更好的算法中國漢字有4萬個(gè),常用的只有3500個(gè),常用對話句式有10W條,但是抽離出來的停用詞也就不到2500個(gè)。

作者:老張,宜信集團(tuán)保險(xiǎn)事業(yè)部智能保險(xiǎn)產(chǎn)品負(fù)責(zé)人,運(yùn)營軍師聯(lián)盟創(chuàng)始人之一,《運(yùn)營實(shí)戰(zhàn)手冊》作者之一本文由 @老張 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理未經(jīng)許可,禁止轉(zhuǎn)載題圖來自Unsplash,基于CC0協(xié)議