近日,专心中文分级读者系统的考拉读者宣告已完成了2000万美金B轮融资,距去年12月A轮融资过去了9个月时间。谈及A轮以后的最新进展,赵梓淳回应,考拉读者App总日活量早已增涨到将近百万,平均值日逗留时长30分钟,次日和次周的留存率超过70%以上,产品半年时间发版26次。回到考拉读者北京办公室,采访了考拉读者CEO赵梓淳。
中文分级读者难题在哪?分级读者有几百年的历史,欧美都较为普及。在中国,引进分级读者的时间也不较短,但是,中国跟美国仅次于的有所不同在于,无论是像中文在线还是其他公司,基本上逗留在书单形式,根据学生年级或年龄来区分书单。
“但是,确实的分级读者应当像欧美那样,根据学生的读者能力展开给定。通过分级读者把读者解放出来,让孩子寻找合适自己的东西。
但为什么之前没有人像我们这样做到,仅次于的难题就在于中文文本可玩性的测量,即如何科学区分文本可玩性的等级。”首先,中文和英文不存在着十分大的差异,不同于西方印欧语系由繁琐的格标记语法系统,汉语语法过分灵活性、意合语义非常简单。英文的基础构成单位是26个字母,中文的构成单位是字,常用的汉字大约就有3500个。《康熙字典》收录于的汉字大约就有8万到10万个汉字,这种简单包含的稀缺性不会造成分析中文的时候,往往必须更加可观的语料。
第二,现代汉语的历史很短,中国的学者、专家,对中国的汉语言、语言学的一些积累和溶解只不过很少,确实展开科学化的一些研究时间并不宽,文化底蕴也过于。第三,分级读者还牵涉到到数据挖掘、语言学、测量心理学、读者测量学等各学科的同步。
最后,更加关键的是,在深度自学广泛应用于之前,没技术能解决问题这样的问题。10年前或者20年前的技术,只不过不太能解决问题当时遇上的这个问题,例如美国的蓝思分级,主要运用的是语言学家传统的统计学,所以只不过没用太多的高深的技术。中文读者分级要想要已完成规模化的解决方案不能依赖现代科学技术的发展。
据介绍,考拉读者历时两年,建构起全球仅次于的中文分级底层语料库,融合语言学、测量心理学以及深度神经网络为代表的前沿AI算法解决问题了这一难题。“我们邀长年参与教学研究的专业学者和经验丰富的教学专家参予可玩性辨别和标准制订,通过上万篇文本测试,找到准确度能超过93%左右。
”AI驱动的自学系统图片来源:考拉读者App界面考拉读者的产品有学生末端、教师末端App,还有考拉家长微信小程序。有两项特点。一是游戏化。
“我们最先做到考拉读者产品时,糅合了国外的产品,做到的较为坦率,缺少游戏和动漫色彩。但做到了一段时间后找到,坦率产品对中国学生缺少吸引力,小学生还是讨厌较为游戏简化的东西,后来回应做到了调整,引入了一位优酷少儿的设计师,使整个UI和孩子的契合度更加低。”试用了考拉读者学生末端App,主界面第一栏即为“短文星球”小游戏;第二栏的「探寻世界」为ER值有所不同的读者文本;第三栏「听得书电台」为和喜马拉雅合作的音频栏目;第三栏为组词过关游戏,第四栏又改以标示ER值的故事文本,此外,还有童话岛、每日晨读、书籍专题、同学热读、书籍海洋等读者栏目。
二是AI驱动。“我们是将底层的AI算法应用于到产品层面。这套算法类似于今日头条,只不过今日头条是内容推展算法,无论是交叉引荐还是做到用户画像,都是根据兴趣引荐用户讨厌的内容。而我们的引荐算法是根据学生读者能力展开给定,用于的频率就越多,引荐的准确度就越高。
”图片来源:考拉读者获取“因为中文句子互为较英文要简单得多,机器在解读中文第一步时就不会遇上词性分析、语言模型上的艰难。所以,造就现在风行的AI技术,如RNN、LSTM等深度自学技术,可以填补中文在NLP上的缺陷。我们将一个句子按照句法树、倚赖关联等不予报废,以分析每一个成分在句子中的比重,从而构建读者文本的可玩性分级。
”据介绍,考拉读者一共处置了1300万字的非均衡语料库和2亿字的均衡语料库。其中,非均衡语料库主要来自各个版本的小学教材及其教辅资料;均衡语料库指一个孩子在日常生活中必须现实认识的语料,如,按照一位10岁小孩必须看20%的名著小说、50%的课文和20%的漫画这种比例来配上语料库。
考拉读者的人工智能主要应用于,除了打造出底层分级标准,还有自适应自学系统,即学生末端App不会根据学生读者能力自动引荐适当内容。谈及现在火热的自适应自学,赵梓淳回应,自适应自学不应被过分高估,基于科学知识图谱的自适应自学有一定意义,可以防止学生反复做到早已掌控的题目,节省时间提高效率,“但这件事并没多难,只不过就是把科学知识图谱做到的充足粗,而这个主要考验的是教研能力,那你说道这个事儿有多政治宣传呢?坦白说,没多政治宣传。
”此外,考拉读者也正在展开智能语音产品研发,可以通过语音输入测试学生的普通话标准程度。打造出中国的“蓝思标准”国外的分级读者标准体系早已很成熟期,比如培生公司发售的测量少儿英文读者能力的DRA(Developmental Reading Assessment)发展性读者评估体系;英国 Renaissance Learning 公司研发的AR(Accelerated Reader)分级系统;还有知名的蓝思读者项目管理体系(The Lexile Framework for Reading),该体系由美国Metametircs教育公司经过15年研究研发出来,美国用于蓝思的机构遍及50个州,大约覆盖全国学生人数的50%。蓝思读者项目管理体系从读物可玩性和读者读者能力两方面展开取决于,用于的是同一个度量标尺,因此读者可以根据自己的读者能力,自由选择合适自己的读物。
可玩性范围为0L~1700L,数字就越小回应读物可玩性就越较低或读者读者能力就越较低,反之则回应读物可玩性越高或读者读者能力越高。主要从两个维度来取决于读物可玩性,即语义可玩性(Semantic Difficulty)和句法可玩性(Syntactic Complexity)。
考拉读者发售的中文分级读者标准(ER Framework)糅合了国外的“词、句”的分析思想,度量方式也和蓝思十分相近。(ER为考拉读者品牌所属公司享阅科技的英文名Enjoy Reading的简写。
)图片来源:考拉读者获取一方面,把给定的中文文本测出来,从200ER到1300ER,以10为一个十进制。另一方面,运用测量心理学、读者测量学和语言学的方法,测人的读者能力,也就是指200ER到1300ER,以10为一个十进制。
“如果一个孩子测出来是600ER的读者能力,他究竟需要看多大可玩性的文本?是600还是610?我们明确提出一个叫ZPD ( Zone of Proximal Development ) 的概念,糅合了知名心理学家维果斯基明确提出的‘最近发展区’,即能力范围内可以做到获得的区间。别总做到一些很非常简单的事情,但如果做到尤其无以的事情,久而久之也失去信心。”“例如600ER的孩子,我们做到了大量的实验,她/他的ZPD范围大约是550到700。
这个区间代表了孩子探究文本的解读程度在50%到59%之间,既会因为文本太难而读书不懂,也会因为文本过于非常简单而读书将近新的内容。”图片来源:考拉读者App图片明确测试方式,赵梓淳向说明,是在手机上展开时长大约三分钟的测试,才可量度学生的读者等级。
至于商业模式,“目前主要是和公立学校合作,早已在二、三线城市的将近万所小学落地。未来一定是ToC的,但现在没做到任何尝试,学生、老师和家长都可以免费用于。
我们目前只不过还不过于考虑到盈利的事,再行不断扩大规模,如果说全中国小学生最后需要用ER值来密切相关自己的读者能力,所有的人都用ER值来密切相关文本可玩性,这件事情背后蕴含着相当大的机会。”“我们打算明年发布整个底层标准,所使用的算法也可能会陆续发布。”当(公众号:)问到考拉读者目前面对的仅次于挑战是什么,赵梓淳回应:“仅次于的挑战是没竞争对手可以对标。
这条路以前没有人走到,不告诉参考谁,每一步都要靠自己思索。”涉及文章:考拉读者已完成2000万美元B轮融资,用AI技术自研中文分级读者系统考拉读者CEO赵梓淳:如何利用AI、语言学作出国内首个中文分级读者系统?前有“老大哥”,后有“新势力”,AI+教育江湖谁主沉浮?原创文章,予以许可禁令刊登。下文闻刊登须知。
本文来源:沙巴官网入口-www.lissalinks.com