分类变量或称类别变量统计学中的有限多个取值的变量,其每个值对应于定性属性英语qualitative property的特定分组(group)或定类类别英语nominal category[1]在计算机科学或一些数学分支中,分类变量对应于列举法枚举类型。通常,分类变量的每个值成为一个level。其概率分布称为分类分布英语categorical distribution

分类数据(Categorical data)是一种统计数据类型英语Statistical data type,由分类变量及其数据组成。具体说,分类数据可从定性数据计数汇总或生成列联表,或从定量数据按照给定的间隔分组得到。

分类变量如果只可能有两个取值,被称为二值变量英语binary variable(binary variable或dichotomous variable),如伯努利变量。分类变量如果取多于2个值,成为多值变量(polytomous variables)。

分类变量的例子

编辑

表示法

编辑

为使统计处理简便,分类变量可以赋以数值索引值,如从1到K,对于K值分类变量。这种表示可以用于相等比较、作为集合的元素做集合运算。

分类变量的集合的集中趋势可用众数表示,但不能定义均值中位数

可能值的数量

编辑

分类的随机变量用统计学的分类分布英语categorical distribution,允许任意K值分类变量用每个值的单独的概率来表示(即K值的离散概率分布)。这种多值分类变量常用多项分布来分析。分类结果的回归分析是通过多项逻辑回归multinomial probit英语multinomial probit或相关的discrete choice英语discrete choice模型。

分类变量也可以只有两种可能结果,称为二值变量或伯努利变量。由于重要性,这种情形常被视作独立分布(伯努利分布)、独立的回归模型(逻辑回归、probit regression英语probit regression等)。反之,分类变量常被用于指大于等于3种结果,或称“多值变量”(multi-way variable)。

参考文献

编辑
  1. ^ Yates, Daniel S.; Moore, David S; Starnes, Daren S. The Practice of Statistics 2nd. New York: Freeman. 2003 [2014-09-28]. ISBN 978-0-7167-4773-4. (原始内容存档于2005-02-09). 

拓展阅读

编辑

📚 Artikel Terkait di Wikipedia

邏輯斯諦迴歸

邏輯斯諦迴歸(英語:Logistic regression,又譯作邏輯斯迴歸、羅吉斯迴歸、邏輯迴歸、对数几率迴归),在统计学中是一種对数几率模型(英語:Logit model,又译作逻辑斯谛模型、评定模型、分类评定模型),是离散选择法模型之一,属于多元变量分析范畴,是社会学、生物统计学、临床、数量心

半参数回归

for an in-depth look at nonparametric regression methods. Robinson, P.M. Root-n Consistent Semiparametric Regression. Econometrica (The Econometric Society)

虚拟变量

而提出的另一个模型。Probit模型使用与logit模型相同的非线性方法。但是,它使用正态CDF而不是逻辑CDF。 二元回归(英语:Binary regression) 邹检验 假說檢定 指示函数 線性判別分析 多重共线性 Draper, N. R.; Smith, H. ‘Dummy’ Variables

安慰劑

much of the placebo ‘effect’ is really statistical regression?: PLACEBO EFFECT AND STATISTICAL REGRESSION. Statistics in Medicine. 1983-10, 2 (4) [2022-10-30]

市村英彦

Yoichi and Kawaguchi, Daiji) "Optimal Bandwidth Selection for the Fuzzy Regression Discontinuity Estimator," Economic Letters, 141, (2016), pp. 103-106,

反美

逆向 宗派主義 優越主義 黑人 白人 福佬 馬來人 印度 日本 跨性別恐懼 非二元者(英语:Discrimination against non-binary people) 厭跨女症 厭跨男症(英语:Discrimination against transgender men) 素食者恐懼(英语:Vegaphobia)

决策树学习

Leo; Friedman, J. H., Olshen, R. A., & Stone, C. J. Classification and regression trees. Monterey, CA: Wadsworth & Brooks/Cole Advanced Books & Software

萤火虫算法

Bao, and Tao Xiong, Electricity Load Forecasting using Support Vector Regression with Memetic Algorithms, The Scientific World Journal, 2014, http://www