当前位置:首页 > 一个人开发的语音识别,正在被一亿人使用

公司新闻业界资讯网站技术社会宠物

一个人开发的语音识别,正在被一亿人使用

上瘾的游戏化学习体会, 全球用户超越1个亿,获Google的C轮4500万美元融资 ......Duolingo(多邦邻)无疑是言语学习范畴最明星的商品之一。此次,36氪独家专访了它背面的一名“造星人”—— Duolingo 的工程师秦龙博士——让他为咱们讲讲多邦邻暗地那些事儿。

秦龙在卡内基梅隆大学取得博士学位,他于2014年秋参加 Duolingo,并担任平台上的多语种语音辨认技能,是 Duolingo 第一位我国工程师。

36氪:语音辨认技能对于的是用户的白话学习。和与真人对话相比,言语学习者在用电子设备学习白话时优势和下风首要是什么呢?

秦龙:也许呈现的障碍是,机器判别学习者读音过错时,用户会有挫折感,这种一清二楚的正误反应通常是不会呈现在人与人的对话当中的;再加上机器辨认不能确保100%精确,有的学习者会发向咱们诉苦:为何我明明读对了,但仍是被辨认为过错?

除此之外,当前语音辨认技能在言语学习软件中的运用,还遍及停留在协助用户改进发音的层面上,并不能被自在创立场景进行人机对话,而后者对言语学习本来是至关重要的。

优势的话,一是学习者心理压力小。也许很多人小时分都经历过,在街上碰到一个老外,父母就在一旁戳你:“快去和老外对个话”。本来对很多人来说,开口说外语的门心理障碍本来是很大的,而通过机器学白话就彻底没有这种压力。其次是能够运用碎片化时刻,学习更高效,而和真人对话的时刻本钱和门槛都比较高。

36氪:具体来说,当前的语音辨认技能能够怎样协助学习者进步白话呢?

秦龙: 首要是两种方法,第一种的意图是协助用户改进发音:软件给出一个句子,用户读句子,机器会通过语音辨认技能来判别你发音对不对,给出一个评分。

第二种方法,当前的言语学习软件,包含 Duolingo 在内,做得都还不够好:抱负状况下,在创立的场景下,学习者和电子设备应当能够完成自在对话,语音辨认技能不光能够辨认发音是不是规范,还能进行语义理解,判别学习者的词汇句法是不是精确,这和Siri的技能有些类似,但具体如安在 Duolingo 中完成,咱们还在研讨中。

当前 Duolingo 页面端现已能够做到的是:在创立的场景中,引导用户先用文字翻译句子,再把翻译后的外语读出来,机器会别离就文字翻译和白话发音两方面的水准进行打分。

36氪:Duolingo 当前供给超越40种言语课程,乃至包含克林贡语。语音辨认技能支撑其中多少种?

秦龙:当前已支撑的言语有10种(英语、西班牙语、法语、德语、意大利语、葡萄牙语、荷兰语、丹麦语、瑞典语、土耳其语),已在开发中行将上线的还有乌克兰语和挪威语。Duolingo 在英语语音辨认中投入最多,它的辨认成果和打分也最精确,由于英语是当前 Duolingo 上学习人数最多的言语,占到悉数流量的30-40%。

36氪:团队当前有多少人?每种言语的语音辨认需不需要开发者自身懂这种言语?

秦龙:Duolingo 语音辨认团队当前由我一个人担任。我自己只会中文和英文,所以刚开始接触的时分也有些忐忑。最终衡量语音辨认作用的是客观评测,所以开发者本来并不必须掌握言语自身,但对每种言语的是深化理解对开发是有很大协助的,在细节的处理上会更精确一些。

36氪:能不能给非技能布景的读者解释一下,多语种语音辨认的难度终究在哪里?Duolingo 每开发一种新言语的本钱怎样?

秦龙:难度首要来自三方面。一是数据十分杂乱:来自页面端、平板、手机端的语音质量都不一样;男女老少,乃至不一样文化程度的人有不一样的言语习气;朗诵和天然对话的语音数据不一样;室内录音和室外录音也数据也不一样......要将这些状况悉数思考进入,做出精确的辨认成果,需要相当大的开发量。

二是不一样言语有不一样元素,比方中文的特色是有平仄腔调,德语的特色是能够把不一样词汇组在一起生成一个新词,因而词汇量反常的大,开发时需要依据每种言语的特色做相应调整。

三是多语种数据库自身有很大的保护本钱。

当前世界上辨认言语最多的技能应当来自Google,覆盖了40多种言语,Siri 和微软也都能辨认20多种。

就 Duolingo 来说,开发英语辨认这部分用了2-3个月,别的一些小语种(西、德、法、意)在数据到位的状况下,用2-3个星期就完成了。

36氪:Duolingo 作为一家创业型公司,全部公司担任语音辨认技能的也只要你一个人,没有科技巨子们那么多的资本,又要开发多种言语,怎样应对这种压力呢?

秦龙:咱们的诀窍首要是:运用全部能够运用的免费资本。比方,咱们会运用揭露的Google API 在Chrome 版别的 Duolingo 中运用,省去一部分开发资本;咱们还会运用 Google Voice Search 的语音辨认,不过由于咱们辨认需要服务于言语学习的意图,而不是查找意图,所以运用时会在后端做一些调整;别的,咱们还会抓取一些开源词典的发音,并依据 Duolingo 的需要做一些剪裁和修正。

注:原文是对话粗心,为便于阅览,句子通过修正和整理

分享到:
点击次数:  更新时间:2015-06-11  【打印此页】  【关闭


嘉兴蜂鸟网络科技 版权所有 2008-2015 浙ICP备05784968