Item Response Theory

 English

Usually the training on Machine Learning and Data Science focuses on supervised methods. Unsupervised methods are often neglected apart from perhaps some mention of k-means or other simple clustering methods. Nevertheless there are lots of powerful techniques that should be part of the toolbox of any competent Data Scientist. One of theses techniques are Latent Variable models[1]. These models are somehow related with Partial Component Analysis (PCA) but unlike it, they provide a predictive model[2]. A common example could be IQ tests, in which some accessible data (the results from some tests) are used to measure some “latent” variable which is not directly measurable, the IQ. This latent variable just summarizes the correlation pattern between observable variables, so it is important not to ascribe any causal meaning to it, but it can still be very useful to predict future outcomes that were not directly observed.

 

One interesting application of this latent variable model is Item Response theory[3]. Originating in psychology, IRT addresses test results within a population, particularly binary response tests in educational settings. From the results of these tests one tries to infer the skill of the student on a specific subject.
The fundamental concept is that the probability of a student selecting the correct answer to a question depends not only on their skill but also on the question’s difficulty. This relationship can be easily modeled with a Poisson distribution.
Later one can add additional parameters including the question’s discriminative power (logistic curve slope) and a minimum success probability (accounting for random guessing). Once the model is established, estimation of different parameters can be easily done using standard statistical techniques like Maximum Likelihood or MCMC if you are follow a Bayesian approach. The results of this analysis can be used not only to determine the skills of individual students, but also to look at effects of educational policies, compare populations and so on. This kind of analysis are amenable to hierarchical modeling, which is achievable in a Bayesian setting where model layers align with demographic variables such as e.g. schools, districts, and countries.

This flexible model extends well beyond the simple setting. It readily accommodates additional factors like response time, randomized tests (where questions are concealed to protect student anonymity), and more. Again, the remarkable point is that this approach gives us access to a variable (skill) to which do we do not have direct access and thus we can not apply the usual supervised learning techniques.

The model is naturally most popular in psychology and pedagogy but it is easy to find applications in different contexts. For instance, tests could be brand-related questionnaires, skills could represent affinity with a brand. Or in sales we could try to estimate the effectiveness or productivity of salespersons in different stores and so on.
日本語
通常、機械学習やデータ・サイエンスのトレーニングは教師ありの手法に焦点を当てています。教師なし手法は、k-meansや他の単純なクラスタリング手法についての言及を除けば、軽視されがちです。とはいえ、有能なデータサイエンティストのツールボックスの一部となるべき強力なテクニックはたくさんあります。そのひとつが潜在変数モデル[1]です。これらのモデルは部分成分分析(Partial Component Analysis, PCA)と関連していますが、PCAとは異なり予測モデル[2]を提供します。一般的な例としては、IQテストがあり、いくつかのアクセス可能なデータ(テストの結果)が、IQという直接測定できない「潜在」変数を測定するために使用されます。この潜在変数は、観測可能な変数間の相関パターンを要約しているだけなので、それに因果的な意味を与えないことが重要ですが、それでも直接観測されなかった将来の結果を予測するのに非常に有用です。

 

この潜在変数モデルの興味深い応用例の1つに、項目応答理論[3]があります。心理学を起源とするIRTは、母集団内のテスト結果、特に教育環境における二値反応テストを扱います。これらのテスト結果から、特定の主題に関する学生のスキルを推測しようとします。基本的な概念は、生徒が問題の正解を選ぶ確率は、その生徒のスキルだけでなく、問題の難易度にも依存するということです。この関係はポアソン分布で簡単にモデル可能です。後で、問題の識別力(ロジスティック曲線の傾き)や最小成功確率(ランダムな推測を考慮)などのパラメータを追加することができます。いったんモデルが確立されれば、最尤法やベイズ的アプローチに従うならMCMCのような標準的な統計技法を用いて、さまざまなパラメータの推定を簡単に行うことができます。この分析結果は、個々の生徒のスキルを決定するためだけでなく、教育政策の効果を見たり、母集団を比較したりするためにも使用できます。この種の分析は、階層的モデリングに適しており、ベイズ設定では、モデル層が、例えば、学校、地区、国などの人口統計学的変数と一致する場合に実現可能です。

 

この柔軟なモデルは、単純な設定にとどまりません。応答時間、ランダム化テスト(生徒の匿名性を守るために問題が隠されている)等の追加要因に容易に対応することができます。繰り返しますが、注目すべき点は、このアプローチによって、直接アクセスできない変数(スキル)にアクセスできるようになり、通常の教師あり学習技術を適用できないことです。

 

このモデルは当然、心理学や教育学で最も人気がありますが、異なる文脈での応用を見つけるのは簡単です。例えば、テストはブランドに関連したアンケートかもしれないし、スキルはブランドとの親和性を表すかもしれません。また、販売においては、異なる店舗における販売員の効果や生産性を推定することもできます。

 

[1] Bartholomew, D. J., Knott, M. and Moustaki, I. Latent Variable Models and Factor Analysis (2011), Wiley.

[2] Shalizi, C. [Advanced Data Analysis from an Elementary Point of View](https://www.stat.cmu.edu/~cshalizi/ ADAfaEPoV/).

[3] Fox, J.-P. Bayesian Item Response Modeling (2010), Springer.

 

m.valverde

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

PAGE TOP