- A+
到2020年,Netflix上约有3712部影片和1845部电视节目。假定你正在学习英语,可供选择的内容许多,但你可以没那么多时刻去看完。因而,我用数据科学技能来分析Netflix上前1500部影片和电视节意图剧本。经过许多的处置,我找到了Netflix上最佳的英语学习内容。这样做的意图是为了给你供给许多好的选择,让你可以找到你喜爱的影片或电视节目,一起对学习英语也有优点,而不是强逼你看不喜爱的电视节目,因为你的教师和兄弟坚持'它有助于我们学习英语'。
为了找到Netflix上最佳的影片和电视节目,我比照了台本对话中运用的词汇。让咱们找到哪些是最佳的电视节目和影片。
Netflix上词汇最简略的电视节目
Netflix上的美国和英国电视节目都是为母语为英语的人制造的。这就是为啥假定英语不是你的母语,你有了解某些场景中的对话时可以会遇到一些困难。我根据词汇量的难易程度对Netflix目录上的500个一流电视节目(223部Netflix自创节目)进行了排名。
《老友记》词汇简略,被认为是学习英语最佳的电视节目之一。可是,这部电视剧在Netflix目录中只排在第78位,这意味着还有77部电视剧和《老友记》相同好——甚至非常好!-可以在Netflix上学习英语并享受快乐喜爱。例如,根据我的查询成果,电视剧《去他*的世界》(排名13)或《13个缘由》(排名40)在其剧会集的词汇量甚至更简略。
你可以鄙人面的框中查找电视节目名。你会发现他们的排名和词汇掩盖率。排名前十的电视节目在整个Netflix剧集列表中词汇最简略。
假定你正在寻找合适你英语水平的电视节目,那么我有一个好消息要告诉你, 我对一切节意图英语词汇量水平进行了排名(初级、中级、高档)。最靠右的节目在每个等级上运用的词汇量更多。掩盖率越高,你就越简略了解电视剧中的情节。
按词汇掩盖率排名的Netflix剧集
每个等级代表1000个最多见的英语单词。一切的影片都有一切等级的排名。1级代表 "初级水平",3级代表 "中级水平"。一集的掩盖率越高,越简略了解其词汇量。
黄色代表Lvl 1
赤色代表Lvl 1+2
蓝色代表Lvl 1+2+3
这些是在Netflix目录中发现的电视节目。可以有些你喜爱的电视节目不在Netflix上,但不要忧虑,我现已分析了其间一些电视节目,如《权力的游戏》或《辛普森一家》。此外,Netflix目录在你的国家可以略有不一样。这就是为啥我只列出了一个最有可以在全球规模内供给的Netflix原著。
Learn English with Game of Thrones: The Best Episodes
以下是学习英语的十大Netflix自创节目
妖灵(Jinn)
恋爱起床号(Good Morning Call)
鱼妖怪谈(Tidelands)
Easy
黑色夏天(Black Summer)
夏天韶光 (Summertime)
Baby
上层男孩(Top Boy)
血缘(Bloodline)
去他*的世界(The End Of The F*ing World)
按词汇掩盖率排名的Netflix影片
假定你比照喜爱看影片,那么Netflix也有极好的影片来学习英语。我把Netflix上最受等待的950部影片(173部Netflix自创影片)依照词汇量的难度进行了排名。排名前100的抢手影片有《蒙上你的眼 》(30)、《蜘蛛侠:平行世界》(84)和《当夸姣来敲门》(81)。
经过下面的
方框播映,看看还有哪些影片排在前100名。你还可以发现你喜爱的影片的排名和词汇掩盖率。
你可以鄙人面找到合适你英语水平的影片。最右边的影片有更多的初级、中级和高档词汇。但这些都是在 Netflix 目录中找到的排名靠前的影片,你不会在 Netflix 上找到像《哈利波特》、《阿凡达》、《玩具总建议》这样的影片,但假定你还想看这类影片,你大约看看我的另一篇文章,我分析了3000部最受等待的影片。你可以在这儿找到它。
Netflix 的影片排行榜(根据词汇量)
每一级代表 1000 个最多见的英语单词。一切的影片都按等级摆放。第 1 级代表“初级水平”,第 3 级代表“中级水平”。一集节意图收视率越高,词汇就越简略了解。
我还列出了 Netflix 在世界规模内最可以供给的自创影片列表,以防 Netflix 的目录在你的国家纷歧样。
以下是Netflix十大最合适学英语的自创影片:
In The Tall Grass (2019)-在高草中
A Secret Love (2020)-隐秘的爱
Under The Riccione Sun (2020)
Dangerous Lies (2020)-风险的鬼话
Bird Box (2018)-蒙上你的眼
Who Would You Take To A Deserted Island (2019)
Earthquake Bird (2019)
Love Wedding Repeat (2020)
Paddleton (2019)
6 Balloons (2018)-六个气球
在向英语学习者展示 Netflix 上最佳的内容之前,让咱们比照一下最佳的和可以最差的内容,仅关于词汇量难度来说。
Netflix 词汇最易懂和最难明的自创剧
以下图像闪现了排名前十和后十的网飞自创影片在英语词汇难度上的不一样。正如你所看到的,在曩昔的 10 年中,运用的词汇愈加困难。例如,你只需要晓得最多见的 1000 个英语单词就能了解影片《 蒙上你的眼 》中 94,5% 的单词,但你需要至少3000个单词来包括影片《Spelling The Dream 》中 94.5% 的对话。这额定的 2000 个单词可以就是你不理解的缘由——即便你的英语水平现已很高了!
数据集
办法
我用 Python 做了一切这些分析,这是我预备数据的方法:
Tokenization:为了分析文字记载中的词汇,我将字符说的一切单词符号化。Python中有许多用于符号化的东西,可是我运用 CountVectorizer,因为它将搜集的转录本变换为符号计数的数据格局,然后简化了分析。在分析了 3000 部影片的文章中,我进一步说明了 CountVectorizer 是如何作业的。
词形复原(Lemmatization):在符号化之后,我有必要找到每个符号的根柢方法。您可以经过运用象 lemmizing 这样的技能来完成这一点,您可以在 NLTK 库中找到这些技能。不过,我运用了类似的单词族列表,而且还根据单词呈现的频率给出了每个单词的难度水平。到 2020 年,有 29 个单词家族列表,你可以在这儿找到。这些列表是对与言语学和英语作为第二言语学习有关的研谈论文进行评价的。
数据收拾:我删去了在影片或片段悦耳不到的单词,比方场景描绘和说话者的名字。我还打扫了对话中跨越 3.5% 的单词与单词家族列表不匹配的抄本(它们可所以异常值或被损坏的数据)。
一切的代码都可以在 Github 上找到!
关于分析和成果
我用来对电视节目中的词汇进行分类的单词表,大有些都来自语料库。词汇水平是根据一个词在语料库中被发现的频率来断定的,即这些文本中最多见的词被标示为 1 级。尽管之前的研讨现已证明晰该列表是可靠的,但关于具有多种意义的单词,它并不那么精确。例如,单词 “draw” 在列表中被符号为第 1 级。之所以会呈现这种情况,是因为这个词一般指“拍摄”,但假定它的意思是“拿出武器来进犯或人”或“得出结论”,那么它就不归于第一级。
我花了几个星期的时刻寻找、收拾、处置数据,然后弄理解得到的成果。可是,研讨成果并不完满。关于影片的研讨成果可以比电视节目更精确。影片的文字记载是绝无仅有的,但电视节目播出的剧集不一样,这添加了每部电视节意图文字记载数量。这就是为啥我搜集了每个节目 3 到 10 集的样本,以获得该电视节目均匀每集包括的词汇。
总的来说,查询成果提示了许多合适每个词汇水平的内容,但其间一些仍是让我吃惊。比方,《酒囊饭袋》排在第 62 位,这让我很吃惊。我不是那个电视节意图粉丝,但我不认为一个有僵尸的虚拟节目在对话中运用简略的词汇。在查看了文字记载后,我证明晰《酒囊饭袋》中对词汇的需要在整集都有许多高低。也就是说,有些情节可以比其他情节更难了解。
AI研习社是AI学术青年和AI开发者技能交流的在线社区。咱们与高校、学术机构和工业界协作,经过供给学习、实战和求职效能,为AI学术青年和开发者的交流合作和作业打开打造一站式平台,尽力变成我国最大的科技立异人才集合地。
假定,你也是位酷爱共享的AI喜爱者。等待与译站一同,学习新知,共享生长。