python代写-RSEWORK 2021
时间:2021-12-17
基础商业分析
COURSEWORK 2021
发布日期:2021年 11月 29日(注意:您将通过大学电子邮件收到一个数据集)
截止日期:2022年 1月 13日下午3点
提交:通过 FBA模块网页上的Moodle课程作业提交链接
1. 问题定义 :
N/LAB企业正在将其业务扩展到银行部门。他们的第一个目标是积累资本,因此N/LAB企业想
出了一个计划:向存款数额可观(但一年内不能提取)的人推销一种提供有吸引力的定期利率的
金融产品——“N/LAB白金存款”。
给潜在客户打电话推销这种新产品是一项必要但困难且耗时的任务。公司接触的个人中,只
有相对较小比例的人会接受他们的营销,这表明确定哪些人应该成为目标有多重要。这是你
必须完成的商业分析任务,并以专业商业报告的形式提交,就像直接提交给公司一样。
幸运的是,N/LAB企业已经接管了一家提供非常相似(即几乎相同)产品的银行公司的运营。事
实上,“无实验室铂金矿床”本质上只是该产品的一个品牌重塑。这意味着他们有以前营销
电话的详细记录,所有这些电话都试图销售同样的产品,你可以用它来通知你的模型构建。
这些先前的数据包括被叫人的特征和人口统计信息,以及他们自己打电话的一些特征。当
然,他们也非常了解所联系的人最终是否订阅了该产品。
这些数据可以说明N/LAB企业应该瞄准什么样的人,以及他们应该如何去做。作为一名顾
问,您的任务是分析历史数据集,并生成一个模型,用于预测电话营销人员联系的任何新客
户是好是坏(可悲的是,全面联系每个潜在客户太贵了)。
除了对您选择的模型进行有力的测试、证明和拆封(以首席执行官的需求为指导,如下所
述),N/LAB企业还希望您提出一些业务建议-根据您的调查,您认为公司应该关注什么。你将
提交一份正式的商业报告(严格要求6页,最多2000字)。此外,您将提交您的模型实现,以
及如何使用它来测试新数据的说明(用 Python、Orange3或一些组合形式的规范编写,详见下
文)。祝你好运!
2. 首席执行官的重要信息 :
“当然,对管理层来说,一个首要目标是尝试并联系每一个可能购买“N/LAB白金”产品的
人。我们当然不想错过潜在客户
轻轻的!但是我们必须现实一点——我们不能一刀切地接触每一个潜在的目标,即使只有相
对较小比例的人会接受我们的新产品!是的,当通过电话联系客户时,他们会感到恼火,尤
其是当他们对我们的产品不感兴趣时(事实上,有些人甚至不想再和我们打交道,但这很
少)。但这不是我想关注的问题,因为我们在这里的真正业务成本将是打给不感兴趣的个人
的毫无结果的电话的费用,为我们浪费了昂贵的员工时间。尽可能避免这种情况。"
3. 可用数据集 :
您将通过电子邮件获得一个CSV格式的数据集,其中包含4000个以前与潜在客户电话沟通的示
例,以及他们是否订阅了所提供的产品。请注意,客户可能已经联系了不止一次,尽管没有提供
单个客户的 ID-因此每个呼叫可能会被独立考虑。
您的训练数据集已通过电子邮件提供给您。请注意,您的数据集将不同于模块中的其他
人,因此您将期待不同的结果。正如您将从数据文件的第一行(反映其标题)中看到的,它
遵循以下模式:
类型 名字 功能描述
一 投入 年龄 被叫个人的年龄(年数)
2 投入 工作 个人声明了工作角色(分类:“管理员”,‘蓝领’,‘企业
家’,‘女佣’,‘管理’,‘退休’,‘个体户’,‘服务
业’,‘学生’,
技术员','失业','未知')
3 投入 婚姻的 个人的婚姻状况(分类:“离婚”、“已婚”、“单身”、“未
知”)
四 投入 教育 申报的教育水平(分类:“基础. 4y”、“基础.
6y”、“基础. 9y”、“高中”、“文盲”、“专业.课
程”、“大学.学位”、“未知”)
5 投入 系统默认

此人是否有他们拖欠的信用-即无法支付。(分
类:“否”、“是”、“未知”)
6 投入 平衡 如果有的话,这个人目前在银行的余额是多少?(数字)
七 投入 房屋 已经办理了住房贷款。(分类:“否”、“是”、“未知”)
8 投入 贷款 已经办理了个人贷款。(分类:“否”、“是”、“未知”)
9 投入 接触 联系通信类型(分类:“手机”、“电话”)
10 投入 天 个人最后一次联系的月份(数字)
12 投入 期间 上次联系持续时间,以秒为单位(数字)。重要注意事项:该属性对输
出目标有很大影响(例如,如果持续时间=0,则y= '否'),但在以
后的调用中不会知道。它可以在分析中使用(请这样做),但不应在
新客户的预测模型中使用。
13 投入 运动 此活动期间为该客户执行的联系次数(数字,包括最后一次联系)
14 投入 pdays 在之前的活动中最后一次联系客户端后过去的天数(数字;-1表
示以前没有联系过客户端)
15 投入 以前的 此活动之前为此客户执行的联系次数(数字)
16 投入 噘嘴 试图向个人推销上一次活动的结果(明确的:“失败”、“不
存在”、“成功”)
17 输出 y 我们必须尝试理解和预测的输出特性——对这个人的呼叫是否
导致了销售(分类:;是','否')
4. 正式任务规范
● 您必须提供一种分类方法来预测哪些个人更有可能订阅“N/LABs白金存款”产品。这将需
要一个统计分析阶段,一个模型选择阶段,一个最终模型训练阶段,然后是影响分析。你
可以使用任何你想要的软件来进行分析,但是你的模型必须用 python3或者 Orange3来完
成这个课程(或者一些组合)。
● 您的提交将包括您的模型的文件压缩,以及最多 6页的报告。您的模型将在一个隐藏
的数据集上进行测试(使用与训练数据集相同的模式,但没有特征“持续时间”和(显
然是)“y”)。
您的报告必须严格遵守以下章节,但请在组织提交时考虑每个章节的可用分数:
第一部分 : 总结 [10 分可用 ]
在本节中,您必须提供数据集的汇总统计分析。考虑每个输入特征如何与输出变量(“y”)
相关联。此外,您可能希望检查它们之间的关系。请随意使用表格、条形图或散点图,
这完全取决于你。请注意,本节的重点是提供信息,而不是让您的客户端信息过载,因
此也要总结您在数据集中观察到的关键分析点。
第二部分 : 探索 [ 现有 20 个标记 ]
将决策树应用于数据集,以对数据中的影响因素进行解包、检查和识别。哪些变量似乎很
重要?变量的某种组合是否允许您识别数据中有用的子群体?所有变量都有用吗?讨
论这个分析(如果合适,链接到你在A部分的分析)。您不必直观地表示最终的决策
树,但强烈建议这样做,这可能有助于您展示这一初步探索性分析。
如果决策树的可视化表示在您的报告中占用了太多空间,并超出了 6页的限制,您可
以将其移到附录部分,该部分不会计入您的页数限制。附录中应该只有决策树图,您
的文本应保留在报告的B部分。附录中的任何文本都不会被考虑!
第三部分 : 模型评估 [25 分可用 ]
选择至少 3个不同的分类模型类别(仅从我们在FBA讲座中介绍的类别中选择:逻辑回
归、决策树、随机森林、朴素贝叶斯分类器和 k近邻),并根据点预测基准(即是/否
模式)评估它们对历史训练数据集建模的有效性(这是您独有的)。这应该在蟒蛇 3或
猩猩 3中进行。
在您的报告中,详细说明选择测试的型号以及选择它们的原因。详细说明您为每个模型选
择的参数化,解释您选择参数的原因。
描述您选择的评估策略,以相互比较模型(包括您认为合适的评估统计数据和绩效衡
量标准),充分证明您的决策的合理性。
预计您对每个模型输出的分析将根据它们产生的混淆矩阵进行检查。将此与您选择的绩
效衡量标准联系起来。
此过程中使用的任何代码/文件也可以提交,以增加您的代码/文件提交标记(请参见
第四部分 : 最终评估 [ 可得 5 分 ]
根据第三节中的分析,证明“成功”分类器的合理性,以及您为什么选择它作为最终
模型,在衡量成功时要密切关注业务案例。
第五部分 : 模型实现 [5 个可写标记 ]
选择了性能最佳的单一模型后,必须根据准备部署的整个训练数据集对该模型进行训
练。这一部分应该详细说明这一选择,并简要描述提交时附带的代码/项目文件。特
别是,这一部分应该用来提供简短的说明,说明接收者应该如何使用您提交的模型代
码/文件来处理新的测试集,并根据您的模型做出新的预测。
注意:此处授予的分数仅用于您的撰写/说明,更多分数可用于评估模型的实施代码/文件-
请参见“进一步”
可用标记”
第六部分 : 商业案例建议 [5 分可用 ]
报告的最后一部分应向客户总结业务案例(不适用实验室银行业务),为进一步的潜在分析
提供业务建议。
其他可用标记 :
你的报告的总体陈述、论点和专业性
→ [5个标记可用]
您提交的评估/最终建模代码/工作流程的标准。预计在此代码/工作流中,您还将为用
户提供一些方法来加载新数据(与您提供的数据集格式相同)并进行新预测。
→ [提供20个标记]
根据我们保留的测试数据集评估您的模型的有效性
→ [5个标记可用]
请注意,您提交的模型将在我提供的另一个外部数据集上进行测试(您将无法访问该数据集,这反映了
这些代表“未来”营销尝试的事实)。因此,除了为您的报告、您的模型实现以及您对其构建的测试、
评估和论证程度评分之外,还会为它预测我们的隐藏测试集的程度评分!
6. 提交
→在您的提交中,请提交以下文件的 zip文件:
1. 您的最终报告(最多 6页或 2000字)。
2. 您的评估代码/工作流文件和最终模型代码/工作流
→提交必须通过 moodle提交链接提交
→提交材料必须在2022年 1月 13日下午3点前收到
潜在处罚:
→迟交的作品每天将从最终分数中扣除5%。
→将收到超过 6页的提交报告,但仅评估前 6页。这是一条严格的规定。
7. 关于剽窃的最后重要说明
→为你们每个人提供了略有不同的训练数据集,因此期望对其他人有不同的结果。这显然是为
了确保您单独工作,我们将在您被特别分配的数据集上测试您的结果模型。
→还将检查所有代码和工作流,以确保提交之间没有重复,因此,虽然您能够分享想法
和策略,但实施和分析必须100%是您自己的个人工作。任何抄袭的作品将立即获得零
分,并立即通知学校。
8. 一些额外的提示!
● 在整个课程中,展示思维过程和理解如何根据业务案例评估模型比最终的预测测试结果更
重要。
● 同样,正如评分方案中所反映的,说明你对稳健模型评估和比较的理解再次比本课程的
最终实施更重要。
● 您可以使用任何分析工具来制定您的报告,但是您提交的模型必须用 Python或 Orange(或两者)
来实现。你可以假设接收者分别使用 python 3和 Orange3,并且安装了
sklearn、scipy、numpy、pandas、matplotlib、seaborn。任何进一步的要求都必须在您提交
的说明中明确说明。
● 注意总的可用页面长度,以及每个部分的可用标记,以评估每个部分需要花费多少时间和
精力。
● 请注意,您的工作演示也正在评估中。这是一份针对商业专业人士的正式报告,应该有相
应的格式和措辞。
● 用 python而不是Orange不一定会给你加分。然而,它可能会给你机会展示你的工作与更
复杂的分析,并增加在这些领域获得更高分数的潜力。
● 如果你选择说明一个决策树——这样做是有原因的,让它在视觉上有用。没有人想看到
一页100个节点,所以想一想如何最好地展示它所包含的见解!



essay、essay代写