ДОСЛІДЖЕННЯ ВИБІРОК ЕКСПЕРИМЕНТАЛЬНИХ ДАНИХ НА НАЯВНІСТЬ ВИКИДІВ: ПОРІВНЯННЯ МЕТОДІВ
DOI:
https://doi.org/10.20998/2078-5364.2023.3.07Ключові слова:
промахи вимірювань (викиди), мала вибірка, нестатистичні похибки вимірювань, невизначеність, 2 –критерій, 3 –критерій, параметричні та непараметричні критерії виявлення викидів, інтервальний аналіз, узгоджена та неузгоджена вибірки, інтервальна статистикаАнотація
Задача виявлення викидів (промахів, аномальних значень, результатів, що різко виділяються, результатів, що відірвалися) є однією з найактуальніших, складних і неоднозначних при обробці експериментального матеріалу. Такими значеннями вважаються результати експерименту, які знаходяться аномально далеко від інших точок із серії паралельних спостережень.
Джерелом викидів нерідко є похибки вимірювань. Серед таких є невірний запис результатів експерименту, можливе неправильне кодування даних, некоректне проведення експерименту тощо. Грубі похибки виникають при різкій зміні умов проведення дослідження, несправностях в роботі апаратури й т.і.
Одночасно викиди можуть свідчити про неочікувану, неординарну поведінку вимірюваної величини, яка є проявом ще не з’ясованої властивості процесу. І тому потрібен аналіз з застосуванням надійного математичного інструментарія.
Методи виявлення викидів різноманітні і численні. Параметричні тести мають більшу чутливість до розміру вибірки і до ймовірнісного розподілу значень сукупності. Більш гнучкими є непараметричні тести, які можна застосувати, якщо не можна зробити припущення про нормальність вибіркової сукупності або обсяг вибірки малий; такі критерії дають кращий результат в асиметричних розподілах, тому що застосовують медіану замість середнього; їх можна застосовувати для порядкових або номінальних даних, а також в ситуації аберрантного значення викиду.
Методи інтервального аналізу, зокрема інтервальної статистики, є альтернативним гнучким інструментарієм для отримання більш точного та повного аналізу експериментальних даних за наявності неповної інформації, шумів, викидів вимірювань, наявності аномальних та аберрантних точок.
Проведено порівняння результатів застосування параметричних критеріїв (-критерій, -критерій, Львовського) та непараметричних критеріїв (правило «скриньки з вусами») виявлення викидів, а також обчислення методами інтервальної статистики. Один з викидів був визначений таким непараметричним критерієм, -критерієм і процедурою виявлення поодинокого викиду інтервальними методами. Ще два значення були виявлені, як підозрілі викиди за допомогою правила «скринька з вусами» і алгоритму розпізнання з інтервальної статистики.
Методи виявлення викидів методами інтервального аналізу є не менш ефективними, ніж застосування непараметричних тестів.
Посилання
Wada K. Outliers in official statistics // Japanese Journal of Statistics and Data Sci-ence. 2020. No 3. pp. 669–691. https://doi.org/10.1007/s42081-020-00091-y.
Barnett V., Lewis, T. Outliers in statistical data. John Wiley & Sons Chichester, West Sussex. 1994. 584 p.
Barnett V. Outliers in sample surveys // Journal of applied statistics. 1994. No 21. pp. 381–389.
Orellana M., Cedillo P. Outlier Detection with Data Mining Techniques and Statis-tical Methods // InternationalConference on Information Systems and Computer Science (IN-CISCOS). 2019. https://doi.org/10.1109/INCISCOS49368.2019.00017.
Peirce B. Criterion for the rejection of doubtful observations // Astronomical Journal II. 1852. No 45. pp. 161–163.
Bertarelli G., Chambers R., Salvati N. Outlier robust small domain estimation via bias correction and robust bootstrapping // Statistical Methods and Applications, Springer, Societa Italiana di Statistica/ 2021. Vol. 30(1). pp. 331–357. http://doi.org/10.1007/s10260-020-00514-w.
Lykhach O.Yu., Ugryumov M.L., Shevchenko D.O., Shmatkov S.I. Metody vyiavlennia vykydiv v probnykh vybirkakh pry upravlinni protsesamy v systemakh za stanom // Visnyk Kharkivskoho natsionalnoho universytetu imeni V.N. Karazyna, seriia «Matematychne modeliuvannia. Informatsiini tekhnolohii. Avtomatyzovani systemy upravlinnia». 2022. No. 53. pp.21¬- 40. https://doi.org/10.26565/2304-6201-2022-53-03.
Yefimov O.V., Potanina T.V. Determination of the dependence of the NPP unit power on the steam temperature at the outlet of the superheater separator first stage with an uncertainty of information // Problems of Atomic Science and Technology. 2022. No. 137(1). pp. 169–172.
NIST/SEMATECH e-Handbook of Statistical Methods, http://www.itl.nist.gov/div898/handbook/,date. 2012.
Moore R.E., Kearfott R.B., Cloud M.J. Introduction to interval analysis. Philadel-phia. Society for Industrial and Applied Mathematics, 2009. 223 p.
Na S., Xumin L., Yong G. Research on k-means Clustering Algorithm: An Im-proved k-means Clustering Algorithm // Third International Symposium on Intelligent In-formation Technology and Security Informatics. 2010. Jian, China. pp. 63–67. doi: 10.1109/IITSI.2010.74.
Helm M. Use this clustering method if you have many outliers. The k-medians variation for robust outcomes // Towards Data Science. 2021.
https://towardsdatascience.com/use-this-clustering-method-if-you-have-many-outliers-5c99b4cd380d
Оlefir V., Bosniuk V. Rozrakhunok obsiahu vybirky yak narizhnyi kamin planuvannia naukovoho doslidzhennia // Visnyk Lvivskoho Universytetu. Seriia Psykholohichni nauky. 2021. Issue 9. pp. 186–195. doi:10.30970/PS.2021.9.24.
Horton R. Offline: What is medicine’s 5 sigma? // The Lancet. 2015. Vol. 385, Is-sue 9976. p. 1380. doi:10.1016/S0140-6736(15)60696-1.
Reiczigel J., Rozsa L. Do small samples underestimate mean abundance? It de-pends on what type of bias we consider // Folia Parasitologica. 2017. No. 64:025. doi:10.14411/fp.2017.025.
Hollander Myles, Wolfe Douglas A., Chicken E. Nonparametric Statistical Meth-ods // John Wiley & Sons. 2014. Inc. ISBN 978-0-470-38737-5. pp. 39–41.
Zhexue H. Extensions to the k-Means Algorithm for Clustering Large Data Sets with Categorical Values // Data Mining and Knowledge Discovery. Kluwer Academic Pub-lishers. Manufactured in The Netherlands.1998. No. 2. pp. 283–304.
Patrick A. Regoniel. Nonparametric Tests: 8 Important Considerations in Using Them // Research-based Articles. 2020. https://simplyeducate.me/2020/10/11/nonparametric-tests/.
Winter J.C.F., Dodou D. Five-Point Likert Items: t test versus Mann-Whitney-Wilcoxon // Practical Assessment. Research and Evaluation. 2010. No. 15(11).
Natsionalnyi Standart Ukrainy. Materialy metalevi. Vyprobuvannia na tverdist po Brinelliu. Chastyna 2. Perevirennia ta kalibruvannia vyprobuvalnykh mashyn (DSTU EN ISO 6506-2:2019, IDT). Kyiv, 2019. 25 р.
Nastanova derzhavnoho pidpryiemstva «NAEK «Enerhoatom»»: Metodyka vyznachennia mekhanichnykh vlastyvostei metalu za rezultatamy vyprobuvan na tverdist. Kyiv, 2016. 33 р.