统计学你学会了什么(什么是一个好的)

内容提要:本文对皮普·阿诺德及克里斯汀·富兰克林所撰《什么是一个“好的”统计学问题?》作了较详细解读,认为它关于“统计学教学主线”即“提出问题-收集数据-分析数据-解释数据”结合实例所做的阐述,不仅深化了我们对“统计调查问题”(statistical investigative questions)重要性的认识,而且使我们对开展这种调查时应注意的提问细节及数学上的要求,也获得不少启发因此,本文认为皮普·阿诺德及克里斯汀·富兰克林这篇文章值得推荐给更多中国统计教育界人士阅读、参考,我来为大家科普一下关于统计学你学会了什么?以下内容希望对你有帮助!

统计学你学会了什么(什么是一个好的)

统计学你学会了什么

内容提要:本文对皮普·阿诺德及克里斯汀·富兰克林所撰《什么是一个“好的”统计学问题?》作了较详细解读,认为它关于“统计学教学主线”即“提出问题-收集数据-分析数据-解释数据”结合实例所做的阐述,不仅深化了我们对“统计调查问题”(statistical investigative questions)重要性的认识,而且使我们对开展这种调查时应注意的提问细节及数学上的要求,也获得不少启发。因此,本文认为皮普·阿诺德及克里斯汀·富兰克林这篇文章值得推荐给更多中国统计教育界人士阅读、参考。

关键词:统计调查问题;统计教师教育;循环统计分析框架

皮普·阿诺德及克里斯汀·富兰克林两位学者(Pip Arnold & Christine Franklin),2021年3月于美国《统计与数据科学教育杂志》(Journal of Statistics and Data Science Education)在线发表论文“What Makes a Good Statistical Question ?”(《什么是一个“好的”统计学问题?》)(以下简称《皮文》[1]),对美国统计协会(ASA)2007年在《中小学统计学评估与教育指导纲要》(Pre-K-12 GAISE) 提出的“统计学教学主线”即“提出问题-收集数据-分析数据-解释数据”,结合实例做了进一步阐述。我读完后觉得它不仅对我国中学统计学教学有参考价值,对大学统计学教学也有一定参考价值,故此不揣浅陋,把学习心得写出来与读者分享。

一、 《皮文》所用例子

[例] 美国某大型学区教育官员对该学区初中、高中学生睡眠不足深感忧虑:学生们在校期间注意力必须高度集中而晚上很晚还在写作业,家长们担忧是作业留多了,而校长们则认为导致学生睡眠不足另有潜在原因,如学生们过多参与了课外活动,过多耗时在互联网或其他电子设备上等等,不一而足。为此该校区决定抽查一些学生,以查找造成他们睡眠不足的真正成因。

对这个实际问题应怎样开展统计调查呢?

若把“该校区初、高中学生全学年参与的课外活动共有多少次?”作为统计调查问题提出来,则在《皮文》作者看来它太过笼统不易实行,而将其改作“该学区初、高中生在整学年必须要参加哪些课外活动?”就具体多了。

为周全计,《皮文》作者还提出如下两个统计调查问题,即

(1)该学区高中生花在课外活动上的时间是否比中学生多?

(2)该学区高中生参加课外活动的数量与他们周一至周五晚上睡眠时间长短是否相关?

这些变动的理由将在下一节做出阐述。

现在,中外统计学教材大都把“提出问题-收集数据-分析数据-解释数据”作为教学主线,但在《皮文》作者看来这还不够,应该深入讨论导致启动这一教学主线的统计调查问题(statistical investigative questions),才更加合乎逻辑、更有助于培养学生的统计思维和分析能力。所谓“提出问题”必须是提出统计学问题,亦即它应是“基于不同数据预测答案的问题”(故答案有可能变化),而不是具有确定性预期答案的问题。

《皮文》前一作者皮普·阿诺德(Pip Arnold)在其2013年博士学位论文中指出,统计调查问题应包括“构造(提出)问题”及“对所构造(提出)问题进行提问”两部分。所谓“构造(提出)问题”中的“问题”,通常是在“提出问题-收集数据”这两个阶段人们事先构想出来、需要采用某种统计调查方法予以解答的问题,因而它们应是针对行将获取的调查数据的“恰当问题”(the right questions),而“提问”则是持续自发的、对所构想出来的问题进行质疑的过程,其作用是查验是否遗漏了全部数据中某些有用信息,以利进一步的统计分析。在统计教学主线背景下展开相应的讨论,更有助于读者廓清这两类问题各自所起的作用。

二、 在统计教学主线背景下展开相应讨论

先看下表,它取自《皮文》前一作者2013年博士学位论文,该表(横向)展示了统计教学主线即“提出问题-收集数据-分析数据-解释数据”,请读者特别留意“提出问题-收集数据”这两个阶段所涉及的构造(提出)问题及其相应的提问。

提出问题

收集数据

分析数据

解释数据

构造(提出)问题

统计调查问题

数据收集问题

对所构造(提出)问题进行提问(质疑)

质疑该统计调查问题

质疑该数据收集问题

质疑该分析数据问题

质疑该解释数据问题

相关统计量、统计表、统计图分析

相关统计量、统计表、统计图分析

图示1:“构造(提出)问题”及“对所构造(提出)问题进行提问”

事实上,在“提出问题-收集数据”这两个阶段,无论是构造(提出)一个恰当的统计调查问题,或是构造(提出)一个恰当的调查数据收集问题,都绝非易事;更为重要的是研究人员要不断对所构想出来的问题进行提问(质疑),以保证所构造(提出)的问题是恰当的统计学问题(即它应是“基于不同数据预测答案的问题”),以及恰当的数据收集问题(即它应有助于提供有意义的数据来回答统计调查问题所展示的关切),实际上这是一个问题的两个方面,它们同等重要。

回到上一节的例子。如把“该校区初、高中学生全学年参与的课外活动共有多少次?”径直当作所提统计调查问题,不做提问,则依据它能否使该学区教育官员得到其想要的数据,就很没有把握。根据《皮文》,提问应至少包括下述几个方面:

• 学生们参与课外活动的高频次能否视为他们睡眠不足的成因?

• 是否还有其他课外活动信息?是否需要考虑学生们花在课外活动上的时间?

• 是否还有其他与学生睡眠不足相关的变量?若有,应该提出什么样的统计问题?

• 高中生是否比初中生更有可能参与课外活动?

仔细考虑过这些提问后,上一节初始构造的笼统统计调查问题才可能加以具体化。《皮文》认为,合乎研究人员意愿的统计调查问题应满足如下要求:

1. 所涉变量界定义清楚、获取容易;

2. 所涉总体界定清晰,若不是由样本推断总体,则所涉组(群)亦应清晰;

3. 研究意图明确:如(通过统计调查试图得到总体的何种有关)描述性指标、有关指标的比较、或变量间的相关,等等;

4. 利用(统计调查得到的)数据可为统计调查所提问题提供解答;

5. 统计调查所提问题本身就值得探究而且目的性强;

6. 对统计调查所提问题的分析适合整个(有关)群体。

容易看出,改进后的(该例)统计调查问题基本满足了这些要求:变量及总体界定都很清楚,研究意图也很明确。

有趣的是《皮文》后一作者克里斯汀·富兰克林(Christine Franklin) 更进一步,对“构造(提出)问题”这一阶段数学上的要求也一并提了出来(Mathematical Practices, MPs) ,它们是MP1:廓清并解决问题;MP2:抽象及量化推理;MP6: 注重精准。详细些说,MP1要求学生理解统计教学主线四个组成部分即“提出问题”、“收集数据”、“分析数据”、“解释数据”相互联系,在整个解决问题过程中还要能够根据需要对这四个组成部分进行适当调整以得出一个解决方案,并使该方案将结果的解释与所提统计问题及研究主题适当联系起来。此外,学生还必须能够对替代方案做出合理评价,且能根据研究设计识别出适当及不适当结论[2]。

MP2要求学生了解数学思维和统计思维的区别,了解统计数据都是有具体内容的数字并理解变异存在于一切过程;了解虽然统计思维建立在具体背景之下,但它仍然需要使用抽象方法(概念)进行推理。例如,汇总统计量“样本均值”作为中心的度量就是一种抽象(可能数据集里并不存在这样一个值),而数据的图示、抽样变异性及其在做出推论中的作用等内容,不借助抽象方法也很难深入理解。

MP6要求学生明白统计的精确不仅指计算的精确,在统计学中人们还必须对模糊性和变异性有精准认识。学生应理解统计调查问题的解决始于对一个统计问题的精确表述,它能预计(用于回答该统计问题时)所收集到的数据之变异性。在设计承认变异性的数据收集计划时,精度也是必要的,而被测量对象的精度亦非常重要。

收集到数据以后,学生应能准确选择所需方法来解释数据中的变异性。他们应会展示其构建的、并且标注清晰的图表,以避免出现误导图像(如三维饼图),从而避免歪曲数据。在解释关于数据所做的分析时,学生应会用自己的术语和统计语言给出精准解释。例如,他们应能认识到“相关性”是对两个定量变量之间线性关系的测量,而非是“关联”的一个同义词;还应认识到“偏度”(skew)指的是分布之形状,而非“偏差”(bias)的另一种说法。

学生应能利用“抽样绝对误差”(margin of error)来量化一个点估计值附近的抽样变异性,从而实现由探索性统计到推断统计的过渡。学生还应认识到点估计的准确性部分地取决于样本量——样本量越大,误差幅度就越小。在解释统计结果时,学生应将此结果与初始所提统计问题联系起来,并提供一个考虑到数据变异性的答案;而能够清晰地与他人沟通及准确地使用统计语言,亦是非常重要的统计能力要求。

现在讨论本例的“收集数据”部分。很自然地,其“调查数据收集问题”可以表为:

你在本学年实际积极参加了多少项课外活动?

和上一节一样,在这里研究人员也需及时进行提问,如:积极参加课外活动的项目数量学生们是否还记得?“积极参加”含义如何?是哪个学年的事情?是初中生还是高中生的看法?等等。

通过这些提问,研究人员再次提出两个改进的调查数据收集问题如下:

(1) 请在下面列表中选择你在过去12个月内,在校期间积极参加的所有课外活动。“积极参加”意味着在此期间你参加这个(这些)活动超过两周。

(2) 在校期间你平均每周在课外活动上花多少时间?请在考虑过去4周内每周花费时间基础上,给出过去12个月你参加课外活动时间的平均值(下拉列表时间段有“小时”及“分钟”等选项)。

不言而喻,在收集数据阶段研究人员还需要关注数据收集过程,以评估采用他们的抽样方法是否可以产生代表总体的样本。

如果使用现成数据,也要对这些数据随机产生的方式予以注意,因为只有随机抽样才可使关于样本的结论推广至从中取样的总体,并应用概率论进行深入分析。

此一阶段,数学上的要求是MP5:恰当使用各种数据处理工具和MP6:注重精准。MP6已简介如上,不赘述。

MP5要求学生在解决统计问题时会使用计算器、电子表格软件、小程序、统计软件包等工具。开展统计调查所用的技术学生也应了解。特别地,MP5要求中学生会使用电子表格软件创建箱线图来比较、分析两个定量变量的分布;高中生则应会使用小程序来模拟从特定总体中进行重复抽样,以得到用于量化抽样变异性的“抽样绝对误差”。在创建统计模型时,学生应知晓上述这些软件(包)可帮助他们将不同假设下的结果可视化,探索数据中(可能存在的)模式,以及将预测数据与实际观测数据进行比较。统计模拟技术务求掌握,以利学生加深对统计及概率概念的理解。投掷硬币、骰子以及转动转盘等项操作,也有助于学生利用这些机会装置来模拟随机过程。

现在对统计教学主线之“分析数据”部分展开讨论。

和“提出问题”、“收集数据”不同,此处我们只关心“相关统计量、统计表、统计图分析”等数据处理技术细节问题(“解释数据”部分同此)。可以提出如下问题:

什么样的图形适合显示初中和高中学生参与课外活动的时间及其分布?

学生们参与课外活动的时间分布有无变化? 变化范围如何?

学生们参与课外活动的时间长短集中在哪些时段上? 平均参与时间是多少?

是否存在离群值?等等。

对于初步接触统计调查的学生而言,就所得统计调查数据进行提问通常是由教师示范、他们效仿,反复做几次学生们即可领会(计算出的有关)统计量、制作出的(有关)统计表、统计图的统计学意义。

此一阶段数学上的要求是MP2:抽象与量化推理;MP4:数学建模;MP6:注重精准;以及MP7:观察一组数据中可能存在的模式并加以利用。MP2和MP6已简介如上,亦不赘述。

MP4要求学生会用数学来回答日常生活、社会和工作场所中出现的统计问题。数学模型通常使用方程或几何图示来描述结构,而统计模型则建立在数学模型之上,亦即“数据 = 结构 变异性”。例如,均值可用来表示单变量数据分布的中心,均值绝对偏差可用来模拟分布的变异性;正态分布可用于模拟定量数据的单峰对称分布,或模拟样本均值及/或样本比例的抽样分布。对于双变量数据,可使用直线来模拟两个定量变量之间的关系。考虑到相关系数和残差(即实测数据与预测数据之差),该线性模型的统计解释须考虑实测数据相对于这条(回归)直线的变动情况。事实上,统计模型的评判标准就是它们是否有用,是否能合理地描述实测数据。

MP7要求学生对数据作仔细观察,以发现其中的结构或模式。例如,对于单变量数据,分布的均值或中位数描述了分布的中心(此即数据围绕其变化的基础结构)。同样,直线方程则描述了两个定量变量之间的关系(此即线性结构)。学生应能使用“结构”将一组数据中的“信号”与“噪声”分开——“信号”是结构,“噪声”是变异性;同样地,学生也应能在结构周围的变异性中寻找模式,并认识到这些模式通常都可以量化。例如,如果一组双变量定量数据中存在正的线性趋势,学生应能使用相关系数量化这种模式,以度量线性关联的强度,并使用回归直线来预测(相应解释变量)响应变量的值。统计模型就是用来描述(某种业已确定的)结构和与之有关联(数据的)变异性的。

关于“解释数据”的讨论与关于“分析数据”的讨论大致相同,此处从略。

三、 几点启示

1. 《皮文》告诉我们,为了细致考虑“什么是一个‘好的’统计学问题”这个大问题,可将它变成更为具体的四个小问题,即

“什么是好的统计调查问题?”

“什么是好的调查/数据收集问题?”

“什么是好的数据分析问题?”

“什么是好的数据解释问题?”

由第二节图示1可知,贯穿全部这些问题始终的、必不可少的成分非“提问”莫属。凭借在“提出问题”、“收集数据”、“分析数据”及“解释数据”等阶段安排适当提问,保证了统计教学主线的顺利实施;尤其在“提出问题-收集数据”这两个阶段,研究人员只有坚持对所构想出来的问题进行提问,才能保证所构造(提出)的问题是恰当的统计学问题、恰当的数据收集问题。

2.《皮文》前一作者的博士论文显然深受PPDAC影响[3]:所谓“统计学问题应是‘基于不同数据预测答案的问题’(故答案有可能变化),而不是具有确定性预期答案的问题”,强烈暗示这种答案不可能“一成不变”!这就告诉我们把 “提出问题-收集数据-分析数据-解释数据”这一统计教学主线,像PPDAC 那样理解为一个循环往复过程或许更为合理些。关于某课题开展统计跟踪研究实际上也有这种意味。

3. 我国教育部在2017年高中数学新课标中提出中学数学需培养学生六大核心素养,即数学抽象,逻辑推理,数学建模,直观想象,数学运算,数据分析;该新课标于2020年作了修订、而需要学生具备的这六种数学素养也再次得到确认。《皮文》后一作者因参与过“Pre-K-12 GAISE”及“SET”的撰写,对统计建模与分析中学生应具备何种数学能力十分清楚、感受亦深,所以她才把“提出问题-收集数据-分析数据-解释数据”各个阶段学生应具备的数学能力都详细明示了出来,这对我们也很有参考价值。

总之,自GAISE(Guideline for Assessment and Instruction in Statistics Education,2005)及其姊妹篇Pre-K-12 GAISE发布以来,美国大学及中小学统计教育已发生重大变化(GAISE及Pre-K-12 GAISE本身就是变化的产物),相应的统计教学研究也呈现出一派蓬勃景象,研究范围及研究深度都较先前扩大、加深了许多,值得关注。

参考文献

[1] Pip Arnold and Christine Franklin. What Makes a Good Statistical Question? [J/OL]. JOURNAL OF STATISTICS AND DATA SCIENCE EDUCATION 2021, VOL. 29, NO. 1, 122–130 https://doi.org/10.1080/26939169.2021.1877582

[2] Christine A. Franklin et al. Statistical Education of Teachers. [EB/OL]. https://www.amstat.org/asa/files/pdfs/EDU-SET.pdf

[3] R. J. MacKay, R. W. Oldford. Scientific Method, Statistical Method and the Speed of Light[J/OL]. Statist. Sci. 15(3): 254-278 (August

(本文作者系天津财经大学统计学院教授)

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页