kabaddipointstable

जर्नल में अगला लेख
मुखबिर के आधार पर मोटर असर कंपन का समय श्रृंखला पूर्वानुमान
जर्नल में पिछला लेख
द्विघात और घन कठोरता के साथ असममित अरेखीय प्रणालियों के लिए पैरामीटर पहचान विधियों का एक तुलनात्मक अध्ययन
पिछला लेख विशेष अंक में
गहरी सीख के आधार पर अंतर्देशीय नदियों में बहु-कार्यात्मक प्लवों की अल्पकालिक बहाव भविष्यवाणी
 
 
लेख

सिंगल कैमरा फेस पोजीशन-इनवेरिएंट ड्राइवर का गेज़ ज़ोन क्लासिफायर, 3D कन्वेन्शनल न्यूरल नेटवर्क्स का उपयोग करके फ्रेम-सीक्वेंस रिकग्निशन पर आधारित

1
ग्रेजुएट स्कूल ऑफ क्रिएटिव साइंस एंड इंजीनियरिंग, वासेडा यूनिवर्सिटी, टोक्यो 169-8555, जापान
2
विज्ञान और इंजीनियरिंग अनुसंधान संस्थान (आरआईएसई), वासेदा विश्वविद्यालय, टोक्यो 162-0044, जापान
*
वह लेखक जिससे पत्रव्यवहार किया जाना चाहिए।
अकादमिक संपादक: डाइटर श्राम और फिलिप सीबर्ग
सेंसर2022,22(15), 5857;https://doi.org/10.3390/s22155857
प्राप्त: 30 जून 2022/संशोधित: 29 जुलाई 2022/स्वीकृत: 1 अगस्त 2022/प्रकाशित: 5 अगस्त 2022

सार

एक प्राकृतिक वास्तविक दुनिया की सेटिंग में चालक की नजर का अनुमान लगाना विभिन्न चुनौतीपूर्ण परिदृश्य स्थितियों के लिए समस्याग्रस्त हो सकता है। उदाहरण के लिए, वाहन चलाते समय चेहरे पर चेहरे की रोशनी, रोशनी, या विभिन्न चेहरे की स्थिति से गुजरना होगा। इस प्रयास में, हम ड्राइविंग स्थितियों में गलत वर्गीकरण को कम करने का लक्ष्य रखते हैं जब ड्राइवर के पास कैमरे के संबंध में अलग-अलग चेहरे की दूरी होती है। त्रि-आयामी कन्वेन्शनल न्यूरल नेटवर्क्स (सीएनएन) मॉडल एक अनुपात-अस्थायी चालक का प्रतिनिधित्व कर सकते हैं जो कई आसन्न फ़्रेमों में एन्कोडेड सुविधाओं को निकालता है जो गति का वर्णन कर सकते हैं। यह विशेषता संदर्भ जानकारी की कमी के कारण प्रति-फ़्रेम पहचान प्रणाली की कमियों को कम करने में मदद कर सकती है। उदाहरण के लिए, फ्रंट, नेविगेटर, राइट विंडो, लेफ्ट विंडो, बैक मिरर और स्पीड मीटर ड्राइवरों द्वारा जांचे जाने वाले ज्ञात सामान्य क्षेत्रों का हिस्सा हैं। इसके आधार पर, हम एक ऐसे मॉडल को लागू करते हैं और उसका मूल्यांकन करते हैं जो कैमरे से विभिन्न दूरी वाले इन क्षेत्रों की ओर सिर की दिशा का पता लगाने में सक्षम है। हमारे मूल्यांकन में, 2D CNN मॉडल में तीनों मॉडलों में औसत औसत रिकॉल 74.96% था, जबकि 3D CNN मॉडल का औसत औसत रिकॉल 87.02% था। यह परिणाम दर्शाता है कि हमारा प्रस्तावित 3डी सीएनएन-आधारित दृष्टिकोण ड्राइविंग स्थितियों में 2डी सीएनएन प्रति-फ्रेम पहचान दृष्टिकोण से बेहतर प्रदर्शन करता है जब ड्राइवर के चेहरे की कैमरे से अलग दूरी होती है।
कीवर्ड: चालक निगरानी; टकटकी वर्गीकरण; दृढ़ तंत्रिका नेटवर्कचालक निगरानी;टकटकी वर्गीकरण;दृढ़ तंत्रिका नेटवर्क

1 परिचय

विभिन्न रिपोर्टों के अनुसार, चालक की व्याकुलता के परिणामस्वरूप पूरे वर्ष में अनगिनत सड़क दुर्घटनाएँ हुई हैं। अधिकांश दुर्घटनाओं के प्राथमिक कारणों में से एक असावधान चालक है। वार्षिक आंकड़ों के अनुसार, इन घटनाओं के परिणामस्वरूप लगभग आधा मिलियन लोग घायल होते हैं और हजारों लोग मारे जाते हैं [1,2,3].
अगर हमारी कारें एडवांस ड्राइविंग असिस्टेंस सिस्टम (एडीएएस) की पेशकश कर सकती हैं जो पहले से विकर्षणों का पता लगाती हैं, तो सिस्टम न केवल सतर्क करने में सक्षम होगा, बल्कि हमारे निकट भविष्य के स्वायत्त वाहनों में स्थिति को नियंत्रित करने, बड़े पैमाने पर यातायात दुर्घटनाओं को कम करने और योगदान देने में भी सक्षम होगा। यातायात सुरक्षा के लिए।
ADAS के अंदर, ड्राइवर के जागरूकता के स्तर को पहचानने के लिए एक ड्राइवर का गेज़ ज़ोन क्लासिफायरियर महत्वपूर्ण है [4,5], काम का बोझ [6], और तैयारी [7 ] ताकि एक आंशिक या पूर्ण स्वायत्त वाहन खतरनाक स्थिति उत्पन्न होने पर नियंत्रण कर सके। खतरनाक स्थितियों के उदाहरणों में शामिल हैं जब ड्राइवर नींद में हो या ड्राइविंग के अलावा अन्य कार्यों पर ध्यान केंद्रित कर रहा हो। पिछले कई अध्ययनों ने इस तरह के क्लासिफायरियर को लागू किया है। हालांकि, उनका मूल्यांकन प्रतिबंधित शर्तों के तहत किया गया था। इस वर्गीकरण को एक अप्रतिबंधित संदर्भ में बनाना अभी भी अत्यंत कठिन है, जिसके परिणामस्वरूप पहले से ही किए गए अध्ययनों में बहुत खराब परिणाम प्राप्त हुए हैं।
हमारी शोध लाइन अप्रतिबंधित परिस्थितियों में एक उच्च-प्रदर्शन चालक टकटकी क्लासिफायरियर विकसित करने पर केंद्रित है। अप्रतिबंधित परिस्थितियों में एक उच्च-प्रदर्शन प्रणाली होने का अर्थ है कम गलतियों के साथ विकर्षणों की पहचान करने में सक्षम होना और इस तरह ऑटोमोबाइल दुर्घटनाओं को काफी कम करना।
हमारे पिछले अध्ययनों को लागू करते समय [8,9,10 ], हमने देखा कि कैमरे से अलग-अलग दूरी एक अप्रतिबंधित स्थिति है जिससे गलत वर्गीकरण हो सकता है। यह विशिष्ट स्थिति, जो ड्राइविंग परिदृश्य के दौरान किसी भी समय हो सकती है, का किसी भी मौजूदा दृष्टिकोण के प्रयोगों में स्पष्ट रूप से मूल्यांकन नहीं किया गया है। इसके अलावा, पिछले शोध में उपयोग किए गए डेटासेट में डेटा शामिल नहीं होता है जहां ड्राइवर की कैमरा दूरी काफी भिन्न होती है। यही कारण है कि हमने डेटा एकत्र किया, उसका विश्लेषण किया, और एक मॉडल का सुझाव दिया जो इस स्थिति के उत्पन्न होने पर मजबूत हो सकता है।आकृति 1कैमरे से ड्राइवर के चेहरे की अलग-अलग दूरी दिखाकर समस्या को दिखाता है।
मौजूदा दृष्टिकोणों में से अधिकांश एकल-फ्रेम सुविधा-आधारित प्रणाली का पालन करते हैं। हालांकि, ऐसा लगता है कि अनुपात-अस्थायी विशेषताओं का उपयोग उन स्थितियों में वर्गीकरण को और अधिक मजबूत बनाने में मदद करता है जहां पैटर्न व्यापक रूप से भिन्न होता है। विभिन्न कार्य सटीकता के लाभों को सुदृढ़ करते हैं जो उनके मॉडल के अंदर अनुपात-अस्थायी विशेषता होने के साथ आता है [1 1,12 ]. इसे ध्यान में रखते हुए, हमने 3D CNN का उपयोग करके एक मॉडल बनाने का निर्णय लिया, जो विभिन्न मानक ड्राइविंग गेज क्षेत्रों के लिए छह अलग-अलग हेड पोजीशन को वर्गीकृत करने के लिए, स्थानिक-अस्थायी विशेषताओं पर विचार करता है [13,14]: सिर सामने की ओर, सिर के सामने दाहिनी खिड़की, सिर के सामने नेविगेटर, सिर का सामना बाईं खिड़की, सिर के सामने पीछे का दर्पण, और सिर का सामना गति मीटर का सामना करना पड़ रहा है।
तालिका एक हमारे मॉडल के लिए लेबल के रूप में प्रस्तावित सभी प्रमुख पदों को सूचीबद्ध करता है। प्रत्येक लेबल दो अक्षरों से बना होता है: एक सिर की दिशा के लिए और दूसरा आंख की दिशा के लिए। उदाहरण के लिए, FF का अर्थ है सामने की ओर मुख करना, आँखें सामने की ओर। यह हमारे पूर्व के कार्यों पर आधारित है [8,9], जहां चेहरे और आंखों का सामना करना पड़ रहा है, के बीच के अंतर को स्पष्ट करना महत्वपूर्ण है।
हमने प्रति-फ़्रेम पहचान प्रणाली की तुलना करने के लिए सुझाए गए 3D CNN मॉडल की तुलना 2D CNN मॉडल से की, जो कि पूर्व शोध में सामान्य कार्यान्वयन है, और एक अनुक्रम फ़्रेम मान्यता है। हमने प्रत्येक तकनीक के फायदे और नुकसान को संबोधित किया, साथ ही साथ 3D CNN मॉडल ने 2D CNN मॉडल से बेहतर प्रदर्शन क्यों किया।
संक्षेप में, हमारे काम के पाँच प्रमुख योगदान हैं:
  • हमने कैमरे से अलग-अलग दूरी पर ड्राइवर की चुनौती पर ध्यान केंद्रित करके अपने मॉडल का मूल्यांकन किया। यह समझने के लिए कि वर्गीकरण करते समय यह समस्या सटीकता को कैसे कम कर सकती है और इसे कैसे दूर किया जाए, हमने डेटा एकत्र किया, एक मॉडल लागू किया, प्राप्त परिणामों का विश्लेषण किया और एक चर्चा लिखी।
  • हम वीडियो से स्थानिक और लौकिक विशेषताओं को निकालने और इस समस्या को दूर करने के लिए एक 3D कनवल्शन ऑपरेशन लागू करने का प्रस्ताव करते हैं। हम ड्राइविंग परिस्थितियों में इसे लागू करने के लाभों का मूल्यांकन और प्रदर्शन करते हैं जहां ड्राइवर की कैमरे से अलग दूरी होती है।
  • चूंकि प्रति-फ़्रेम-आधारित मान्यता का उपयोग अक्सर टकटकी क्लासिफायर के अंदर किया जाता है, हम प्रस्तावित 3D CNN बेसलाइन मॉडल का मूल्यांकन 2D CNN बेसलाइन मॉडल के विरुद्ध करते हैं। प्रयोगात्मक परिणाम बताते हैं कि प्रस्तावित 3D मॉडल समग्र रूप से 2D CNN मॉडल से बेहतर प्रदर्शन कर सकता है।
  • हम एक मॉडल पोर्टेबल और एक्स्टेंसिबल सिस्टम का प्रस्ताव करते हैं क्योंकि हमने डेटा प्राप्त करने के लिए केवल एक कैमरा और कोई बाहरी सेंसर का उपयोग नहीं किया था।
  • हम एक ऐसे मॉडल का प्रस्ताव करते हैं जो नए विशिष्ट विषयों को सही ढंग से वर्गीकृत कर सके।
इस पेपर के बाकी हिस्सों को इस प्रकार व्यवस्थित किया गया है: संबंधित कार्यों पर चर्चा की गई हैधारा 2.धारा 3 इस काम के लिए इस्तेमाल की जाने वाली कार्यप्रणाली और हमारे मॉडल के विवरण का वर्णन करता है। प्रयोगात्मक सेटिंग और परिणाम रिपोर्ट किए गए हैंधारा 4.धारा 5बुद्धिमान वाहनों के लिए इस कार्य के योगदान को सारांशित करता है, और अंत में,धारा 6भविष्य के कार्यों का समापन और चर्चा करता है।

2. संबंधित कार्य

ड्राइवर की टकटकी की दिशा पर नज़र रखने से ड्राइवर के ध्यान की पहचान करने और दैनिक आधार पर वाहन चलाते समय ऑटोमोबाइल दुर्घटनाओं से बचने में मदद मिल सकती है। दुर्भाग्य से, ये ड्राइविंग परिदृश्य अक्सर चुनौतीपूर्ण परिस्थितियों की एक श्रृंखला के संपर्क में आते हैं। इस पत्र में, हम विशेष रूप से एक ऐसी पद्धति का प्रस्ताव करने में रुचि रखते हैं जो कैमरे से चालक के चेहरे की अलग-अलग दूरी के कारण गलत वर्गीकरण को आसान बना सके।
हमारे सर्वोत्तम ज्ञान के लिए, मौजूदा टकटकी क्लासिफायर में से कोई भी कैमरे से विविध ड्राइविंग स्थितियों के डेटासेट के खिलाफ अपने मॉडल का मूल्यांकन नहीं करता है। हालांकि, ड्राइवर टकटकी क्लासिफायर का एक लंबा इतिहास रहा है। हम मौजूदा गेज क्लासिफायर की समीक्षा करते हैं जो पाठकों को उनकी कार्यप्रणाली पर एक पृष्ठभूमि प्रदान करने के लिए एकल कैमरा या सेंसर का उपयोग करते हैं।
संदर्भ। [15 ] एक ऐसे मॉडल का उपयोग करते हुए ड्राइवर टकटकी क्लासिफायरियर के प्रदर्शन की तुलना करने की कोशिश करता है जो सिर और आंख की मुद्रा का उपयोग करता है बनाम केवल हेड पोज़ का उपयोग करता है। सिर की मुद्रा सिर की दिशा से मेल खाती है। उदाहरण के लिए, यदि सिर स्पीड-मीटर की ओर है, तो हेड पोज़ स्पीड-मीटर की ओर है। उनकी पाइपलाइन के चरण हैं: रेखीय सपोर्ट वेक्टर मशीन (एसवीएम) क्लासिफायर, प्यूपिल डिटेक्शन, फीचर एक्सट्रैक्शन और नॉर्मलाइजेशन, और रैंडम फॉरेस्ट क्लासिफायर का उपयोग करके वर्गीकरण के साथ संयुक्त ओरिएंटेड ग्रेडिएंट्स (HOG) के हिस्टोग्राम का उपयोग करके फेस डिटेक्शन और फेस अलाइनमेंट।
संदर्भ। [16 ] उनके वर्गीकरण को बनाने के लिए Haar फीचर-आधारित कार्यप्रणाली का भी उपयोग करता है। सबसे पहले, वे अलग-अलग फ्रंटल, लेफ्ट और राइट-प्रोफाइल फेस डिटेक्टरों के साथ एक मोटे हेड पोज डिटेक्शन बनाते हैं। फिर, वे टकटकी फीचर डिस्क्रिप्टर को केवल उन फ़्रेमों के लिए निकालते हैं जिनमें फ्रंटल पोज़ होते हैं। इसके बाद, वे बाएं आईरिस, दाएं आईरिस, मुंह और नाक क्षेत्रों का पता लगाते हैं। सभी डिटेक्शन Haar फीचर डिस्क्रिप्टर पर काम कर रहे फास्ट AdaBoost कैस्केड क्लासिफायर के आधार पर किए गए हैं। एक्सट्रेक्टेड फीचर वेक्टर एक मल्टी-क्लास लीनियर एसवीएम क्लासिफायर का इनपुट है जो आठ संभावित दिशाओं में से एक अनुमानित टकटकी दिशा को आउटपुट करता है। फिर, वर्तमान फ्रेम में टकटकी की अंतिम भविष्यवाणी का उत्पादन करने के लिए एक अस्थायी पोस्ट-फ़िल्टरिंग का उपयोग किया जाता है, जिसमें पिछले पांच फ़्रेमों से क्लास लेबल का एक स्लाइडिंग विंडो इतिहास होता है।
संदर्भ। [17 ] एक छात्र केंद्र कॉर्नियल प्रतिबिंब (पीसीसीआर) आधारित तकनीक पर विचार करता है। वे ड्राइवर के ललाट चेहरे को प्राप्त करके शुरू करते हैं और फिर इनपुट के रूप में एक निकट-अवरक्त कैमरा फ्रेम का उपयोग करके चेहरे के स्थलों को निर्धारित करने के लिए dlib चेहरे की सुविधा ट्रैकर का उपयोग करते हैं। इसके बाद, वे चेहरे, बायीं आंख और दाहिनी आंख की छवियों को प्राप्त करने के लिए संबंधित स्थलों का उपयोग करते हैं। फिर, तीन अलग-अलग सीएनएन का उपयोग करते हुए, वे फीचर वैल्यू के तीन सेट बनाते हैं, उनकी यूक्लिडियन दूरियों की गणना करते हैं, और इन तीन दूरियों के स्कोर फ्यूजन के आधार पर टकटकी क्षेत्र को वर्गीकृत करते हैं।
जैसा कि इन कार्यों में होता है, चेहरे और चेहरे की ऐतिहासिक पहचान का उपयोग बहुत ही प्रारंभिक चरण के रूप में टकटकी के वर्गीकरण के लिए किया जाता है। यह चरण महत्वपूर्ण है क्योंकि यह शेष प्रक्रिया के लिए मूल डेटा को पुनः प्राप्त करता है। यदि यह चरण विफल रहता है, तो शेष वर्गीकरण विफल हो जाएगा। इस चरण के लिए, रेफरी। [15,16 ] हर फीचर डिस्क्रिप्टर, एचओजी, और/या एसवीएम पर काम कर रहे कैस्केड क्लासिफायर पर भरोसा करते हैं। के अनुसार [18 ], जब अप्रतिबंधित सेटिंग्स के तहत चेहरे के स्थलों का पता लगाने का प्रयास किया जाता है, तो ये एल्गोरिदम गलत तरीके से चेहरों का पता लगाते हैं या स्थलों का गलत अनुमान लगाते हैं। सबसे खराब मान्यता होने के बावजूद, इसकी सबसे अधिक कंप्यूटिंग गति होने की संभावना है।
संदर्भ। [19 ] में उनके पाइपलाइन के अंदर चेहरा पहचान, मील का पत्थर अनुमान, सिर की मुद्रा और आंखों के संकेत शामिल हैं। चेहरे की पहचान के लिए, वे वायोला-जोन्स के AdaBoost कैस्केड का उपयोग Haar सुविधाओं के साथ करते हैं जो Faceness के कार्यान्वयन के समान है। लैंडमार्क का पता लगाने के लिए, वे कैस्केड रिग्रेशन मॉडल से अनुमान का उपयोग करते हैं जैसा कि [में वर्णित है]20].
टकटकी क्षेत्र के आकलन के लिए एक एनोटेट डेटासेट की अनुपस्थिति को संबोधित करने के लिए, रेफरी। [21 ] एक नए वर्गीकरण कार्य में बड़े और भरोसेमंद डेटासेट वाले मोबाइल उपकरणों पर रिग्रेशन के माध्यम से टकटकी लगाने की समस्या को प्रोजेक्ट करने के लिए एक पूर्व-प्रशिक्षित सीएनएन मॉडल के साथ एक ट्रांसफर-लर्निंग दृष्टिकोण को नियोजित किया। उन्होंने कार के क्षेत्र को दस क्षेत्रों में विभाजित किया और विभिन्न iOS उपकरणों, जैसे कि iPads और iPhones के साथ डेटा एकत्र किया। उन्होंने एसवीएम को अंतिम पूरी तरह से कनेक्टेड (एफसी) परत के साथ बदलकर आईट्रैकर के गहरे सीएनएन को बदल दिया जो यूक्लिडियन रिग्रेशन से जुड़ा हुआ है। हमें लगता है कि एक मजबूत बिंदु [21] यह है कि यह कम क्षमता वाले उपकरणों में चल सकता है।
संदर्भ। [22 ] हेड पोज़ और लैंडमार्क डिटेक्शन का पता लगाने पर उनके एल्गोरिदम पर आधारित है। वे पोज़िंग फ्रॉम ऑर्थोग्राफ़ी और स्केलिंग विद इटरेशन्स (POSIT) पर हेड पोज़ एल्गोरिथम आधारित हैं, जो एक कैमरा फ्रेम में किसी ऑब्जेक्ट की 3D मुद्रा का आकलन करता है। यह तकनीक मुख्य रूप से गैर-समतल अंतरिक्ष स्थानों और उनकी द्वि-आयामी छवि के बीच संबंधों का उपयोग करके ऑब्जेक्ट पोज़ को हल करती है। मोटे से महीन तक की प्रक्रिया का उपयोग पुतली और आंख के कोने का पता लगाने के लिए किया जाता है। आंखों और आंख के कोने का सटीक स्थान स्थानीय बाइनरी फीचर (एलबीएफ) आकार प्रतिगमन का उपयोग करके निर्धारित किया जाता है। फिर वे वर्गीकरण करने के लिए यादृच्छिक वन का उपयोग करते हैं।
संदर्भ। [23] चार अलग-अलग लोकप्रिय सीएनएन आर्किटेक्चर, एलेक्सनेट, वीजीजीनेट, रेसनेट, और स्क्वीज़नेट, को अलग-अलग प्री-ट्रेन सीएनएन मॉडल का उपयोग करने के परिणामों की तुलना करने के लिए।
हमारे लिए, रेफरी। [24 ] का दृष्टिकोण बहुत दिलचस्प है। बाहरी उत्तेजनाओं के बारे में चालक की धारणा की जांच टकटकी और पर्यावरण की गति को देखकर की जाती है। इस दृष्टिकोण को विजन-इन/विज़न-आउट के रूप में वर्णित किया गया है। हालांकि, एक हेड-आई-ट्रैकर टकटकी दिशा माप प्रदान करता है, जो वास्तविक ड्राइविंग स्थिति में ड्राइवरों के लिए घुसपैठ कर सकता है। फिर भी, हमें लगता है कि उनका दृष्टिकोण रोमांचक है, और ड्राइवर की टकटकी के साथ वस्तुओं को मैप करने से टकटकी क्लासिफायर के अंदर उच्च सटीकता तक पहुंचने में मदद मिलेगी। संदर्भ। [13 ], उसी पंक्ति में, एक हेड-आई-ट्रैकर का उपयोग करता है जो ड्राइवर के लिए दखल देने वाला होता है। संदर्भ। [25 ] इसके बजाय एक स्टैंडअलोन आई ट्रैकर का उपयोग करता है। हालांकि, जैसा कि वे बताते हैं, लगातार बदलती रोशनी की स्थिति के कारण आई ट्रैकर हमेशा सही ढंग से टकटकी लगाने में सक्षम नहीं था, जिससे डिवाइस पर परेशान करने वाले प्रतिबिंब उत्पन्न होते थे [25].
संदर्भ। [26 ], चेहरे का पता लगाने के लिए, वायोला-जोन्स फेस डिटेक्टर का इस्तेमाल किया और आरजीबी-डी कैमरे का उपयोग करके उपस्थिति के आधार पर एक बहु-जोन इटेरेटिव क्लोजेस्ट पॉइंट (आईसीपी)-आधारित हेड लोकेशन ट्रैकिंग और टकटकी अनुमान शामिल किया। प्रयोगों में, चालक का चेहरा हमेशा पूरी तरह से देखने के क्षेत्र में दिखाई देता है।
संदर्भ। [27 ] हेड वैक्टर और आंखों की छवि सुविधाओं के साथ एक यादृच्छिक वन-प्रशिक्षित क्लासिफायरियर प्रस्तुत करता है। इस अध्ययन में, POSIT हेड वेक्टर की गणना तब करता है जब एक 3D फेस मॉडल को फेशियल लैंडमार्क रिकग्निशन के साथ जोड़ा जाता है। वे पर्यवेक्षित वंश विधि (एसडीएम) फेशियल लैंडमार्क डिटेक्टर का उपयोग करते हैं, जो चेहरे के लैंडमार्क को पहचानते हुए नेत्रगोलक और अन्य चेहरे के बिंदुओं के आसपास के आंखों के कोने के बिंदुओं की पहचान करते हैं।
संदर्भ [28,29,30 ] उनके वर्गीकरण के लिए केवल चेहरे की मुद्रा की जानकारी का उपयोग करें। संदर्भ। [28 ] निरंतर टकटकी कोणों के आधार पर अंतराल तैयार करता है और एक हेडबैंड का उपयोग करके घनी भविष्यवाणी के लिए मात्रात्मक कोणों के ग्रिड को एक छवि के रूप में मानता है। हमारी राय में, बैंड का उपयोग ड्राइवर के लिए दखल देने वाला है। संदर्भ। [29 ] मामूली संशोधनों के साथ मौजूदा सीएनएन संरचनाओं पर आधारित एक प्रणाली का परिचय देता है; पॉज़िट एल्गोरिथम के साथ पोज़ का अनुमान 3डी जेनेरिक फेस और चुनिंदा कठोर लैंडमार्क के साथ लगाया जाता है। संदर्भ। [30] का दृष्टिकोण एक बिंदु क्लाउड का उपयोग करता है जो बड़े हेड पोज़ के लिए मजबूत हो सकता है, लेकिन उनकी विधि Fi-Cap का उपयोग करती है, जो एक घुसपैठ करने वाला उपकरण हो सकता है।
संदर्भ। [31] का दृष्टिकोण हमारे लिए बहुत दिलचस्प है क्योंकि यह चश्मा प्रतिबिंब चुनौती को दूर करने का प्रयास करता है जो लगातार ड्राइविंग परिदृश्य में होता है।
संदर्भ। [32 ] बिना की-पॉइंट्स के फाइन-ग्रेन्ड हेड पोज़ एस्टीमेशन का उपयोग करता है। इस पद्धति का मूल विचार द्विपदीय मुद्रा वर्गीकरण और प्रतिगमन के संयोजन से छवि तीव्रता से सिर की मुद्रा का पता लगाने के लिए यूलर कोणों का उपयोग करना है [33 ]. संदर्भ। [32] की पाइपलाइन में फेस डिटेक्शन, हेड पोज़ एंगल्स का अनुमान, फेशियल और आई लैंडमार्क का अनुमान, कॉन्फिडेंस वैल्यू की गणना और पूरी तरह से कनेक्टेड नेटवर्क आर्किटेक्चर शामिल हैं।
संदर्भ [8,9,10 ] गेज ज़ोन क्लासिफायर की मजबूती में सुधार करने के लिए हमारी शोध लाइन है। में [8 ], हमने एक ऐसी प्रणाली लागू की है जो किसी चालक की निगाहों को मजबूती से वर्गीकृत कर सकती है जब चेहरा और आंखें बिना बाहरी अवरोधों जैसे मास्क, स्कार्फ या चश्मे के प्रतिबिंब के बिना अलग-अलग दिशाओं में हों। संदर्भ। [10 ] एक क्लासिफायरियर बनाने में हमारा पहला कदम था जो बाहरी अवरोधों, जैसे मास्क या स्कार्फ के लिए मजबूत हो सकता है। हम अभी भी उस समस्या पर काम कर रहे हैं जो चश्मे के प्रतिबिंब के साथ आती है।
अपने पिछले काम को लागू करते समय, हमने महसूस किया कि कैमरे से दूरी वर्गीकरण में एक उच्च कारक हो सकती है, इसलिए हमने एक उन्नत दृष्टिकोण का विश्लेषण और प्रस्ताव करने का लक्ष्य रखा है जो उन परिदृश्यों में एक मजबूत वर्गीकरण की ओर एक और कदम उठाता है जहां अप्रतिबंधित स्थितियां उजागर होती हैं।
संदर्भ के साथ आने वाली स्थानिक-अस्थायी सहसंबंध विशेषता 3D CNN को 2D CNN से बेहतर बनाती है। अलग-अलग कार्य, ड्राइवर के टकटकी क्षेत्र के वर्गीकरण से असंबंधित, एक 2D CNN पर 3D CNN का उपयोग करने के लाभ दिखाते हैं। संदर्भ। [1 1 ] निगरानी वीडियो में मानवीय कार्यों की स्वचालित पहचान पर विचार करता है। 2डी इनपुट की सीमाओं को समझते हुए, उन्होंने 3डी सीएनएन मॉडल और 2डी सीएनएन मॉडल की तुलना की। उनके परिणाम बताते हैं कि 3D CNN मॉडल अन्य तरीकों से बेहतर प्रदर्शन करता है, जो वास्तविक-विश्व सेटिंग वातावरण में बेहतर प्रदर्शन का प्रदर्शन करता है। एक संदर्भ के रूप में, रेफरी। [12 ] पॉइंट क्लाउड में ऑब्जेक्ट डिटेक्शन के प्रदर्शन को और बढ़ाने के लिए 3D FCN (फुली कन्वेन्शनल न्यूरल नेटवर्क) मॉडल का उपयोग करके अपने काम का विस्तार करने का प्रस्ताव करता है। सबसे पहले, उन्होंने एक 2D FCN बनाया जिसने छवि-आधारित पहचान कार्यों में उल्लेखनीय प्रदर्शन हासिल किया, और फिर उन्होंने इसे एक 3D मॉडल तक बढ़ा दिया। अपने काम में, एंड-टू-एंड दृष्टिकोण का उपयोग करते हुए, वे वस्तुओं का पता लगाते हैं और उन्मुख ऑब्जेक्ट बाउंडिंग बॉक्स का अनुमान लगाते हैं। उनके ऑब्जेक्ट डिटेक्शन दृष्टिकोण को किनेक्ट, स्टीरियो, या गति से एक एककोशिकीय संरचना द्वारा कैप्चर किए गए पॉइंट क्लाउड पर अन्य कार्यों के लिए सामान्यीकृत किया जा सकता है।
हमारे सर्वोत्तम ज्ञान के लिए, ड्राइवर टकटकी वर्गीकरण से संबंधित सभी पिछले कार्य प्रति-फ्रेम सिस्टम-आधारित हैं, और उनमें से कोई भी उन सुविधाओं का लाभ नहीं उठाता है जो वीडियो पहचान के साथ आती हैं। हालांकि, सीमित संख्या में ऐसे अध्ययन हैं जो 3डी सीएनएन का उपयोग करते समय ड्राइवरों की नींद की स्थिति का विश्लेषण करते हैं। में [34 ], लेखक एक 3D CNN मॉडल के आधार पर एक शर्त-अनुकूली प्रतिनिधित्व सीखने के ढांचे के आधार पर ड्राइवर उनींदापन का पता लगाने का प्रस्ताव करते हैं। उनके प्रयोगात्मक परिणाम बताते हैं कि उनका 3डी सीएनएन-आधारित ढांचा दृश्य विश्लेषण के आधार पर मौजूदा उनींदापन का पता लगाने के तरीकों से बेहतर प्रदर्शन करता है। ड्राइवर की उनींदापन का पता लगाने के लिए उसी पंक्ति में, रेफरी। [35 ] स्थानिक-अस्थायी डोमेन में सुविधाओं को निकालने के लिए एक 3D CNN लागू करता है; फिर वे उनींदापन वर्गीकरण के लिए ग्रेडिएंट बूस्टिंग का उपयोग करते हैं, और अंत में, वे समग्र प्रदर्शन को बढ़ाने के लिए अर्ध-पर्यवेक्षित शिक्षण का प्रस्ताव करते हैं। फिर भी, यह स्पष्ट नहीं है कि कैमरे की विभिन्न स्थितियों से संबंधित गलत वर्गीकरण की ओर ये क्लासिफायर कितने मजबूत हो सकते हैं।
इसलिए, हमारे शोध का उद्देश्य वास्तविक ड्राइविंग परिदृश्यों के दौरान उच्च प्रदर्शन के साथ एक क्लासिफायरियर तक पहुंचना है जहां कैमरे के संबंध में ड्राइवर का चेहरा अलग-अलग स्थिति में होता है। यह एक प्राकृतिक वास्तविक दुनिया की सेटिंग में अधिक मजबूत ड्राइवर के टकटकी क्लासिफायर को लागू करने का एक दृष्टिकोण है।

3। प्रक्रिया

इस शोध का उद्देश्य एक टकटकी क्षेत्र को वर्गीकृत करने के लिए अनुक्रम-फ्रेम पहचान प्रणाली (3 डी सीएनएन) के खिलाफ प्रति-फ्रेम पहचान प्रणाली (2 डी सीएनएन) के प्रदर्शन का मूल्यांकन और तुलना करना है। इस अध्ययन में, हम एक डेटासेट का विश्लेषण करते हैं जिसमें ड्राइवर कैमरे से विभिन्न दूरी पर होता है। हम यह प्रदर्शित करने का लक्ष्य रखते हैं कि उपरोक्त चर्चा किए गए परिदृश्य में गलत वर्गीकरण को कम करने में संदर्भ कैसे सहायता कर सकता है।
इस पत्र में, हमने दिखाया कि अनुपात-अस्थायी सुविधाओं का उपयोग करने के दौरान गर्भपात में सुधार संभव है:
  • प्रति-फ़्रेम पहचान प्रणाली का उपयोग करते समय धुंधली छवियों के कारण फ़्रेम।
  • ऐसी स्थितियां जहां ड्राइवर की कैमरे से अलग दूरी होती है।
इसके बाद, हम 3D CNN मॉडल और 2D CNN मॉडल के प्रदर्शन की तुलना करते हैं। 2D CNN मॉडल को अक्सर पहले से मौजूद टकटकी क्लासिफायर मॉडल में आधार के रूप में उपयोग किया जाता है।
इनपुट डेटा से निम्न-आयामी गुणों को निकालने के लिए तंत्रिका नेटवर्क में उपयोग किए जाने वाले सीखने योग्य फ़िल्टर या मैट्रिक्स हैं। वे इनपुट डेटा घटकों के बीच स्थानिक या स्थितीय संबंधों को संरक्षित कर सकते हैं। संवेदी तंत्रिका नेटवर्क बाद की परतों में न्यूरॉन्स के बीच एक स्थानीय कनेक्शन पैटर्न बनाकर स्थानिक रूप से स्थानीय सहसंबंध का उपयोग करते हैं। कनवल्शन को आसानी से इनपुट में स्लाइडिंग विंडो तकनीक को लागू करने और आउटपुट के रूप में भारित योग का उत्पादन करने के चरण के रूप में वर्णित किया जाता है। फीचर स्पेस के भारित योग का उपयोग बाद की परतों के लिए इनपुट के रूप में किया जाता है।
छवि डेटासेट पर, CNN डिज़ाइन अक्सर 2D कनवल्शनल फ़िल्टर का उपयोग करते हैं। 2डी कनवल्शन का मूल आधार यह है कि कन्वेन्शनल फिल्टर दो दिशाओं (x, y) में काम करता है ताकि इमेज इनपुट से लो डायमेंशन विशेषता उत्पन्न की जा सके। परिणामी रूप एक द्वि-आयामी मैट्रिक्स भी है।
दूसरी ओर, त्रि-आयामी कनवल्शन, एक त्रि-आयामी फ़िल्टर का उपयोग करते हैं जो निम्न-स्तरीय सुविधा अभ्यावेदन के निर्माण के लिए तीन आयामों (x, y, और z) में संचालित होता है। उनका अंतिम आकार घन के समान त्रि-आयामी आयतन स्थान है। उनका उपयोग वीडियो या 3D चिकित्सा छवियों में घटनाओं का पता लगाने के लिए किया जा सकता है।

3.1. फेस डिटेक्टर

दोनों मॉडल इनपुट के तौर पर फेशियल डिटेक्शन का इस्तेमाल करते हैं। अनियंत्रित ड्राइविंग स्थितियों के परिणामस्वरूप चेहरे की पहचान करने वाले गलत वर्गीकरण की संख्या अधिक हो सकती है; इसलिए, एक मजबूत फेस डिटेक्टर का चयन करना महत्वपूर्ण है। पिछले विभिन्न कार्य Haar फीचर्स डिस्क्रिप्टर पर काम कर रहे कैस्केड क्लासिफायर पर निर्भर करते हैं [36] या हॉग [37 ] और फेस डिटेक्शन के लिए मल्टी-क्लास लीनियर एसवीएम। हालाँकि, उनका प्रस्ताव विभिन्न स्थितियों, जैसे, प्रोफ़ाइल चेहरे में पर्याप्त रूप से मजबूत नहीं हो सका। अपने HOG डिटेक्टर की तुलना में, Dlib ने CNN-आधारित डिटेक्टर के लिए एक मालिकाना वास्तुकला के साथ एक तेजी से उपयोग की जाने वाली लाइब्रेरी का निर्माण किया है जो व्यावहारिक रूप से सभी कोणों पर चेहरों की पहचान करने में सक्षम है। हम Dlib CNN फेस डिटेक्टर का उपयोग करके चेहरे का पता लगाते हैं क्योंकि यह इस काम में उपयोग किए गए डेटासेट पर उच्च प्रदर्शन के साथ एक तेजी से उपयोग होने वाला पैकेज है।
हालांकि, जैसा कि हमने अपने पिछले काम में हाइलाइट किया था, आंशिक अवरोध मौजूद होने पर गलत वर्गीकरण से बचने के लिए और भी अधिक मजबूत फेस डिटेक्टरों का चयन करना महत्वपूर्ण है, जैसे कि ऐसी स्थितियां जब ड्राइवर ने मास्क या स्कार्फ पहना हो या चश्मे के प्रतिबिंब हों। हम पढ़ने की सलाह देते हैं [38 ] सूचियां जो पाठक के लिए संक्षिप्त संदर्भ के रूप में सबसे मजबूत चेहरा पहचान वर्गीकरण प्रदान करती हैं। पिछले अनुभव के आधार पर, सिंगल शॉट स्केल-इनवेरिएंट फेस डिटेक्टर (S3FD) का प्रदर्शन बहुत मजबूत है और विभिन्न फेस डिटेक्शन बेंचमार्क डेटासेट में एनोटेट फेस इन द वाइल्ड (AFW), PASCAL फेस के रूप में बड़े अंतर से अन्य बेंचमार्क फेस डिटेक्टरों को बेहतर बनाता है। फेस डिटेक्शन डेटासेट और बेंचमार्क (एफडीडीबी), और वीजीए-रिज़ॉल्यूशन इमेज के लिए एनवीडिया टाइटन एक्स पर 36 एफपीएस पर चलने वाला वाइडर फेस [38,39].

3.2. दो आयामी सीएनएन मॉडल

हमने अपने आर्किटेक्चर को यथार्थवादी ड्राइविंग परिस्थितियों, सटीकता और गति को ध्यान में रखकर बनाया है।
इस विशिष्ट अध्ययन में, हमने अन्य विकल्पों पर सीएनएन की वास्तुकला को चुनने का मुख्य कारण इसकी समानता की शक्तिशाली विशेषता है:
टीमैंएक्स(सी(एफ))=सीटीमैंएक्स(एफ)=(सी(टीमैंएक्स(एफ)))
कहाँ पेसी(एफ)कनवल्शन ऑपरेटर है जो a . पर कार्य करता हैएफकर्नेल का संकेततथाटीमैंएक्सअनुवाद ऑपरेटर वेक्टर है।
इस समीकरण के साथ, सीएनएन स्थानिक रूप से अपरिवर्तनीय होने की विशेषता के साथ आता है। Invariance का तात्पर्य है कि एक पैटर्न को पहचाना जा सकता है, भले ही उसका स्वरूप भिन्न हो। एक यथार्थवादी ड्राइविंग स्थिति में, हमें छवि के अंदर मुख्य पैटर्न का ट्रैक रखने की आवश्यकता है, क्योंकि हम उस पैटर्न को पहचानना चाहते हैं, भले ही उस पर भिन्नताएं हों। हमारे मामले में, पीछे के शीशे का सामना करने वाले ड्राइवर का पैटर्न इस बात पर निर्भर करता है कि वह व्यक्ति कैमरे के कितना करीब है। यही कारण है कि यह विशेष विशेषता इतनी मूल्यवान है।
2D CNN का नेटवर्क आर्किटेक्चर में दिखाया गया हैचित्र 2 . इसका विवरण इस प्रकार समझाया गया है:
इनपुट: हम Dlib CNN का उपयोग करके ड्राइवर के चेहरे का पता लगाते हैं।
पहचानी गई चेहरे की छवि को . की एक-चैनल छवि में बदल दिया जाता है256×256 पिक्सल। यह हमारे नेटवर्क का इनपुट होगा- डेटा वृद्धि रणनीतियों को लागू नहीं किया गया था (अनुवाद, रोटेशन और फ़्लिपिंग)।
नेटवर्क आर्किटेक्चर में 2D कनवल्शन का अनुप्रयोग होता है, प्रत्येक के बाद एक रेक्टिफाइड लीनियर यूनिट (ReLU) होता है।
नेटवर्क स्थलाकृति:
  • पहली 2D दृढ़ परत,3×3
  • ओवरफिटिंग को रोकने के लिए 20% ड्रॉप-आउट [40].
  • 2डी 2डी कनवल्शनल लेयर3×3
  • स्थानीय आयाम द्वारा स्थानिक जानकारी को हटाने के लिए मैक्स-पूलिंग उप-नमूनाकरण परत [41 ]. दूसरे कनवल्शन के बाद, हम न्यूरॉन्स की अगली परत के आकार को कम करने के लिए पूलिंग लेयर का उपयोग करते हैं और मुख्य विशेषताओं को प्रबल करते हैं।
  • परत चपटा करें।
  • ओवरफिटिंग की संभावना को कम करने के लिए अधिकतम मानक वजन की कमी के साथ घनी परत।
आउटपुट: में दिखाए गए प्रस्तावित लेबल की प्रायिकता भविष्यवाणीतालिका एक . यह एक लीनियर ऑपरेशन द्वारा बनाया जाता है जिसके बाद सॉफ्टमैक्स एक्टिवेशन होता है।
मॉडल को दो कारणों से ठीक नहीं किया गया था:
  • इस शोध का क्षेत्र बहुत संकीर्ण है; इसलिए, जटिल पूर्व-प्रशिक्षित नेटवर्क का उपयोग करने की कोई आवश्यकता नहीं है।
  • एक छोटे डेटासेट पर पूर्व-प्रशिक्षित नेटवर्क को फाइन-ट्यूनिंग करने से ओवरफिटिंग हो सकती है।
सीखने की शर्तें:
  • अनुकूलन विधि: स्टोकेस्टिक ग्रेडिएंट डिसेंट (SGD)।
  • बैच का आकार: 32.
  • युगों की संख्या: 200।
  • सीखने की दर: 0.01।
इस तंत्रिका नेटवर्क में अनुशंसित परतों की संख्या ड्राइवर के टकटकी क्षेत्र क्लासिफायर का परीक्षण करते समय नियंत्रित सेटिंग में प्राप्त सटीकता के समानुपाती होती है। नतीजतन, हमने परतों की संख्या को लगातार कम किया जब तक कि हमें सबसे सरल कॉन्फ़िगरेशन नहीं मिला जो सटीकता को प्रभावित नहीं करता था।

3.3. 3डी सीएनएन मॉडल

इस दृष्टिकोण के पीछे प्राथमिक अवधारणा फ्रेम के बजाय वीडियो को पहचानना है। कनवल्शनल न्यूरल नेटवर्क्स को एक्शन रिकग्निशन में उत्कृष्ट प्रदर्शन करने के लिए दिखाया गया है [42 ]. 2D CNN पर 3D CNN का एक लाभ समय और स्थान दोनों में कनवल्शन का उपयोग करके गति की जानकारी को कैप्चर करने की क्षमता है। स्थानिक और लौकिक विशेषताओं को शामिल किया गया है क्योंकि यह दृष्टिकोण 3डी कनवल्शन और 3डी मैक्स पूलिंग दोनों को नियोजित करता है। के रूप में दिखाया गया [43], पहचान कार्य के लिए टेम्पोरल पूलिंग महत्वपूर्ण है क्योंकि यह वीडियो की स्थानिक-अस्थायी जानकारी को बेहतर ढंग से कैप्चर करता है और पृष्ठभूमि शोर को कम करता है।

3.4. नेटवर्क आर्किटेक्चर

नेटवर्क आर्किटेक्चर में दिखाया गया हैचित्र तीन . विवरण निम्नानुसार हैं:
इनपुट: इनपुट में 26-फ्रेम अनुक्रम के विषम फ्रेम होते हैं जो Dlib-CNN फेस डिटेक्टर द्वारा उत्पन्न होते हैं। चूंकि 3D CNN 2D CNN की तुलना में कहीं अधिक तेजी से मेमोरी की खपत करता है, इसलिए हमने वीडियो को a . में बदल दिया100×100पिक्सेल फ्रेम अनुक्रम।
सामान्य डेटा वृद्धि रणनीतियों को लागू नहीं किया गया था (अनुवाद, रोटेशन और फ़्लिपिंग)।
नेटवर्क स्थलाकृति: चूंकि 2D CNN मॉडल ने एज कंडीशन ड्राइविंग परिदृश्यों में सही ढंग से वर्गीकृत नहीं किया, इसलिए हमने 3D CNN मॉडल के लिए 2D CNN मॉडल के समान संरचना को अपनाने का निर्णय लिया। इसलिए, इस प्रस्ताव में, नेटवर्क आर्किटेक्चर में निम्न शामिल हैं:
  • ReLU सक्रियण के साथ पहली 3D कनवल्शन लेयर और3×3×3गिरी
  • 20% का ड्रॉपआउट।
  • ReLU सक्रियण के साथ 2nd 3D कनवल्शन लेयर और3×3×3गिरी
  • एक 3डी मैक्सपूलिंग।
  • एक समतल परत।
  • ReLU सक्रियण के साथ पूरी तरह से जुड़ी हुई परत।
आउटपुट: अंतिम परत भी एक रैखिक ऑपरेशन है जिसके बाद सॉफ्टमैक्स सक्रियण होता है।
सीखने की शर्तें: जैसा कि हमारा लक्ष्य 2D CNN आर्किटेक्चर और 3D CNN आर्किटेक्चर के बीच के अंतर को यथासंभव संकीर्ण रखना है, सीखने की स्थिति समान है।
  • अनुकूलन विधि: एसजीडी।
  • बैच का आकार: 32.
  • युगों की संख्या: 200।
  • सीखने की दर: 0.01।

4. प्रायोगिक मूल्यांकन और परिणाम

इस शोध में, हमारा लक्ष्य एक स्पष्ट बिंदु प्रदर्शित करना है: ड्राइवर के टकटकी क्षेत्र को वर्गीकृत करने के लिए 2D और 3D CNN मॉडल को लागू करके, हम 2D CNN मॉडल बनाम 3D CNN मॉडल के व्यवहार की तुलना करते हैं, जबकि ड्राइवर का चेहरा अलग-अलग दूरी का सामना कर रहा है। कैमरे से। वास्तविक दुनिया में ड्राइविंग वातावरण में, यह एक सामान्य घटना है।

4.1. प्रतिभागियों

प्रयोगों में अठारह प्रतिभागी- 6 महिलाएं, 12 पुरुष- शामिल थे। आयु सीमा 19 के बीच थी 59 वर्ष की आयु के साथ, की आयु के साथμ=26.65और का एक मानक विचलनमैं=8.14.
  • प्रशिक्षण डेटासेट में 4 महिलाओं और 8 पुरुषों के डेटा का इस्तेमाल किया गया था।
  • परीक्षण डेटासेट में, 2 महिलाओं और 4 पुरुषों के डेटा का उपयोग किया गया था।
प्रशिक्षण डेटासेट और परीक्षण डेटासेट में विषय अलग हैं।

4.2. डेटासेट और लेबलिंग

हमने वीडियो को एक असली कार में लिया। विषयों को प्रस्तावित छह अलग-अलग मानक टकटकी क्षेत्रों को देखने के लिए कहा गया थातालिका एक . यह कार्य तीन बार करना चाहिए। उन तीन गुना के बीच का अंतर कैमरे से चेहरे की दूरी है: दूर (70 सेमी ± 10 सेमी), मध्य (46 सेमी ± 10 सेमी), और कैमरे के निकट (34 सेमी ± 10 सेमी), जैसा कि में दिखाया गया हैआकृति 1 . चेहरे की दूरी (दूर, मध्य, निकट) को वर्गीकृत करने के लिए इस्तेमाल किया जाने वाला मानदंड मनमाना था क्योंकि इसे मापने के लिए कोई मानकीकृत मीट्रिक नहीं है। सभी दूरियां चालक की सीट की स्थिति पर निर्भर करती हैं। कैमरा सेट किया गया है जैसा कि में दिखाया गया हैचित्र 4.
प्रशिक्षण डेटा में कोई बाहरी अवरोध, प्रमुख प्रकाश भिन्नता या घटनाएँ नहीं होती हैं जहाँ चालक पीछे की सीट/पिछली खिड़कियों को देखता है। हालाँकि, जैसा कि प्रायोगिक सेटअप उपखंड में उल्लेख किया गया है, हमारे पास परीक्षण डेटा में अस्थायी अवरोधों और प्रकाश भिन्नताओं के उदाहरण हैं। डेटा सुबह 11 बजे से शाम 5 बजे के बीच एकत्र किया गया था कोई भी वीडियो नहीं है जो रात के समय लिया गया हो।
यह सुनिश्चित करने के लिए कि सभी स्थितियों का विश्लेषण किया गया था, प्रशिक्षण डेटासेट के लिए एक स्थिर ऑटोमोबाइल सेटिंग में डेटा एकत्र किया गया था। दूसरी ओर, परीक्षण डेटासेट में फ़्रेम और वीडियो, वास्तविक दुनिया की ड्राइविंग परिदृश्य सेटिंग्स और स्थिर कार दृश्यों का एक संयोजन हैं। प्रशिक्षण और परीक्षण डेटा अलग-अलग प्रतिभागियों से एकत्र किए गए थे। प्रशिक्षण डेटासेट के उदाहरण में दिखाए गए हैंचित्र 5.

4.3. मूल्यांकन मेट्रिक्स

इस प्रयोग के लिए, हमने रिकॉल को मूल्यांकन मीट्रिक के रूप में उपयोग किया। रिकॉल से तात्पर्य उन प्रासंगिक उदाहरणों की संख्या से है जो प्राप्त किए गए थे। परिभाषा इस प्रकार आती है:
याद करना=सत्यसकारात्मकसत्यसकारात्मक+असत्यनकारात्मक

4.4. प्रयोगिक व्यवस्था

यह खंड वर्णन करेगा कि प्रयोगात्मक वातावरण कैसे बनाया गया था और हमारे डेटासेट के अंदर कौन सी स्थितियां शामिल थीं।
प्रयोग का विवरण इस प्रकार है:
  • प्रत्येक लेबल के लिए, कैमरे की ओर अलग-अलग चेहरे की स्थिति वाले वीडियो होते हैं।
  • प्रयोग में तीन प्रकार के स्थिति मूल्यांकन होते हैं: कैमरे से निकट दूरी वाला चेहरा, कैमरे से मध्य दूरी वाला चेहरा, और कैमरे से दूर दूरी वाला चेहरा।
  • वीडियो में थोड़ी भिन्नता हो सकती है।
  • वीडियो में कभी-कभार रुकावटें आ सकती हैं.
  • इस प्रयोग के लिए नेत्र दिशा का मूल्यांकन नहीं किया जाता है।
  • 2डी सीएनएन के लिए, वीडियो के पहले फ्रेम के लिए वर्गीकरण किया गया था।
  • 3D CNN के लिए, 26-फ़्रेम अनुक्रम के विषम फ़्रेमों के लिए वर्गीकरण किया गया था।
  • प्रशिक्षण और परीक्षण डेटासेट में समान ड्राइवरों का कोई वीडियो नहीं है।
  • हमारे तीसरे कथन को बनाए रखने के लिएअनुभाग एक —एक पोर्टेबल और एक्स्टेंसिबल सिस्टम—सभी वीडियो एक वास्तविक कार के अंदर लॉजिकूल वेब कैमरा c920r, निर्माता संख्या का उपयोग करके कैप्चर किए गए थे। V-U0028, टोक्यो, जापान (Logitech .)®, नेवार्क, सीए, यूएसए)।

4.5. परिणाम और चर्चा

यह उपखंड प्रत्येक लेबल के लिए वीडियो का प्रतिशत प्रस्तुत करेगा जिसे नेटवर्क ने 2डी सीएनएन और 3डी सीएनएन दोनों मॉडलों में सही तरीके से वर्गीकृत किया है। यह भी वर्णित किया जाएगा कि प्रत्येक मॉडल कैमरे की स्थिति के संबंध में कैसा व्यवहार करता है:
  • कैमरे से दूर चेहरे की दूरी वाले वीडियो परिणाम: कैमरे से दूर की स्थिति के साथ चेहरा-अक्सर अन्य तरीकों में डेटा का उपयोग किया जाता है- 2 डी सीएनएन मॉडल और 3 डी सीएनएन मॉडल में कमोबेश एक ही रिकॉल होता है। परिणाम में दिखाए गए हैंचित्र 6.
    • FF और LL लेबल के मामले में, 2D CNN 3D CNN से बेहतर प्रदर्शन करता है। सामान्य परिस्थितियों में, जब चालक सामने का सामना कर रहा होता है, तो 3डी सीएनएन के गलत वर्गीकरण में मामूली हलचल हो सकती है।
    • फ़्रेम के धुंधला होने पर द्वि-आयामी CNN कई बार वर्गीकरण में विफल रहा।
    • 2डी सीएनएन मॉडल का औसत मूल्य 74.96% था, जबकि 3डी सीएनएन मॉडल के लिए यह 81.93% था।
  • कैमरे के परिणामों से मध्यम दूरी पर स्थित चेहरों वाले वीडियो: इस मूल्यांकन में, 3D CNN मॉडल ने लगभग हर मामले में 2D CNN से बेहतर प्रदर्शन किया। इसके लिए स्पष्टीकरण वही है जो में समझाया गया थाअनुभाग एक.
    वास्तविक ड्राइविंग परिदृश्यों में, सुविधाओं का चुनाव अत्यधिक समस्या-निर्भर होता है क्योंकि एक ही टकटकी लगाने की स्थिति अलग-अलग पैटर्न में दिखाई दे सकती है। इसके बजाय, गति पैटर्न प्रासंगिक मुख्य विशेषताओं को इस बात से स्वतंत्र रखते हैं कि ड्राइवर कैमरे से कितना निकट या दूर है। परिणाम में दिखाए गए हैंचित्र 7.
    • 2D CNN मॉडल में, NN लेबल की रिकॉल कम होती है। 2डी सीएनएन मॉडल के साथ, मॉडल बीबी लेबल के साथ कई गलत वर्गीकरण पैदा करता है।
    • 2डी सीएनएन मॉडल में, एसएस लेबल को एफएफ लेबल के रूप में गलत वर्गीकृत किया गया था। चूंकि कैमरा के पास होने पर चेहरा एक बड़े क्षेत्र को भर देता है, SS और FF लेबल में अधिक साझा मुख्य विशेषताएं हो सकती हैं।
    • 2डी सीएनएन मॉडल का औसत मूल्य 70.7% था, जबकि 3डी सीएनएन मॉडल का 91.07% था।
  • कैमरे के पास स्थित चेहरे वाले वीडियो परिणाम: सभी परिस्थितियों में, 3D CNN ने 2D CNN से बेहतर प्रदर्शन किया। यह इस तथ्य के कारण है कि 3D CNN अस्थायी अवरोधों का प्रबंधन कर सकता है। परिणाम में दिखाए गए हैंआंकड़ा 8.
    • 2डी सीएनएन मॉडल में एनएन लेबल का रिकॉल बहुत कम है। एनएन लेबल को ज्यादातर एसएस, बीबी और एलएल लेबल के साथ गलत वर्गीकृत किया गया है। ऐसा इसलिए होता है, क्योंकि एक फ्रेम के अंदर एक निकट कैमरा दूरी पर, इन तीनों लेबलों में चेहरे का आकार लगभग एक जैसा होता है।
    • FF का 2D CNN मॉडल में सबसे कम रिकॉल वैल्यू था। यह दूर-दूर के चेहरे की स्थिति की तुलना में विकृतियों के कारण होता है जो तब हो सकता है जब चेहरा कैमरे के पास हो।
    • चित्र 9 एसएस के कम रिकॉल वैल्यू के कारण को इंगित करता है। चेहरे की पहचान के दौरान छवि के निचले भाग तक पहुँचा जा सकता है, और छवि का निचला भाग एक मोटी काली रेखा में बदल जाएगा।
    • 2डी सीएनएन मॉडल का औसत मूल्य 65.43% था, जबकि 3डी सीएनएन मॉडल के लिए यह 88.08% था।
चित्र 9 कुछ स्थितियों को दिखाता है जहाँ 2D CNN विफल हो सकता है। उदाहरण के लिए, कभी-कभी चेहरे पर हाथ पड़ना, अत्यधिक प्रकाश की चमक, और कैमरे के पास का चेहरा, 2D CNN मॉडल को गलत वर्गीकरण की ओर ले जा सकता है।
कुल मिलाकर, 3D CNN का 2D CNN की तुलना में बेहतर प्रदर्शन था:
  • 3D CNN बेहतर अस्थायी अवरोधों को संभाल सकता है।
  • 2डी सीएनएन उन मामलों में प्रकाश अंतर को संभाल सकता है जहां प्रकाश लगभग पूरे चेहरे पर नहीं आ रहा है।
  • 3D CNN बहुत मजबूत प्रकाश अंतर को संबोधित कर सकता है यदि छवि अनुक्रम के अंदर कुछ फ़्रेम ड्राइवर के पूरे चेहरे को बंद नहीं कर रहे हैं।
  • 2डी सीएनएन अस्थायी अवरोधों को अच्छी तरह से संभाल नहीं सकता है।
  • हमारे लिए एक दिलचस्प बात यह थी कि 3D CNN मॉडल के लिए कैमरे के निकट और मध्य दूरी का माध्य दूर की दूरी से अधिक था। हम मानते हैं कि यह चेहरे की अधिक सशक्त गतिविधियों के कारण है, जो एक अलग पैटर्न बनाते हैं।
ये विशेषताएँ 3D CNN मॉडल को 2D CNN मॉडल की तुलना में अधिक मजबूत बनाती हैं।

5. बुद्धिमान परिवहन प्रणालियों में योगदान

हाल के शोध के अनुसार [44 ], व्याकुलता कार दुर्घटनाओं के प्राथमिक कारणों में से एक है। यदि हमारे वाहनों में एक उन्नत ड्राइविंग सहायता प्रणाली (एडीएएस) है जो समय से पहले विकर्षणों की पहचान करती है, तो सिस्टम न केवल चेतावनी देने में सक्षम होगा, बल्कि हमारे निकट-स्वायत्त वाहनों में स्थिति को नियंत्रित करने, बड़े पैमाने पर यातायात दुर्घटनाओं से बचने और योगदान देने में भी सक्षम होगा। यातायात सुरक्षा के लिए।
एक ADAS के अंदर एक ड्राइवर का टकटकी क्षेत्र क्लासिफायर ड्राइवर की स्थितिजन्य जागरूकता और तत्परता का पता लगाने के लिए महत्वपूर्ण है ताकि आंशिक रूप से या पूरी तरह से स्वायत्त वाहन कार्यभार संभाल सके। पिछले अध्ययनों ने आदर्श परिस्थितियों में अपने प्रयोग किए। इस वर्गीकरण को अनियंत्रित सेटिंग्स के तहत बनाना बेहद चुनौतीपूर्ण है, जिसके परिणामस्वरूप चल रहे अध्ययनों में बहुत कम परिणाम मिलते हैं। हमारे पेपर अनुक्रम का लक्ष्य अप्रतिबंधित परिस्थितियों में एक उच्च-प्रदर्शन ड्राइवर टकटकी क्लासिफायरियर बनाना है। अप्रतिबंधित सेटिंग्स के तहत एक उच्च-प्रदर्शन प्रणाली होने से कम त्रुटियों के साथ विकर्षणों को पहचानने में सक्षम होना, और इसलिए, यातायात दुर्घटनाओं को काफी हद तक कम करना शामिल है।

6. निष्कर्ष और भविष्य के कार्य

वर्तमान टकटकी क्लासिफायर अप्रतिबंधित दैनिक ड्राइविंग सेटिंग्स में कार्यान्वयन और आकलन की गंभीर कमी से ग्रस्त हैं। अप्रतिबंधित परिस्थितियों में एक उच्च-प्रदर्शन प्रणाली होने से कम त्रुटियों के साथ चालक विकर्षणों को पहचानने में सक्षम होना और इसलिए, नाटकीय रूप से कम यातायात दुर्घटनाएं शामिल हैं।
वर्तमान शोध में इस सीमा को संबोधित करने के लिए, हम अपने विभिन्न लेखों के माध्यम से उन गलत वर्गीकरणों के समाधान की पहचान करने और प्रस्तावित करने के लिए काम कर रहे हैं जो अत्यधिक मजबूत ड्राइविंग निगरानी प्रणाली बनाने के लिए दैनिक ड्राइविंग परिदृश्यों में विभिन्न चुनौतीपूर्ण परिस्थितियों में उत्पन्न हो सकते हैं। इस पत्र में, हमने एक प्राकृतिक ड्राइविंग परिदृश्य में कैमरों की ओर ड्राइवर के अलग-अलग चेहरे की दूरी के कारण होने वाले टकटकी वर्गीकरण के दौरान गर्भपात से निपटने के लिए एक अनुपात-लौकिक विश्लेषण प्रस्तुत किया, जो कि कन्वेन्शनल डिस्क्रिप्टर का उपयोग करके वीडियो के केवल चयनित फ्रेम से निकाली गई सुविधाओं पर निर्भर करता है। सुविधा निष्कर्षण के लिए।
अपनी परिकल्पना को प्रदर्शित करने के लिए, हमने दो मॉडल बनाए: एक 2D CNN के साथ और दूसरा 3D CNN के साथ। दूसरा, प्रत्येक मॉडल का मूल्यांकन उन स्थितियों के दौरान किया गया था जहां कैमरे के सामने अलग-अलग चेहरे की स्थिति सामने आई थी। तीसरा, हमने मॉडलों के बीच तुलना की। सभी प्रयोग हमारे डेटासेट के साथ किए गए क्योंकि इस विषय के लिए कोई सार्वजनिक रूप से उपलब्ध डेटासेट नहीं है। परिणामों से पता चला कि 3D CNN में 2D CNN मान्यता मॉडल की तुलना में बेहतर वर्गीकरण सटीकता थी।
हमारे निष्कर्षों के निहितार्थ महत्वपूर्ण हैं क्योंकि वे अन्य टकटकी क्लासिफायर के लिए एक मजबूत आधार हो सकते हैं। टकटकी क्लासिफायर नियंत्रण लेने के लिए ड्राइवरों या स्वायत्त कार सिस्टम के लिए सहायक सिस्टम बनाने में मदद कर सकते हैं।
इन परिणामों के विश्लेषण के बाद, भविष्य के कार्यों को इस पेपर के परिणामों पर विचार करना चाहिए और उन्हें अप्रतिबंधित परिस्थितियों में एक मजबूत ड्राइविंग निगरानी प्रणाली के हमारे वर्तमान कार्यान्वयन में एकीकृत करना चाहिए।

लेखक का योगदान

वासेदा विश्वविद्यालय से सीएल ने एल्गोरिथम लागू किया, प्रयोगशाला परीक्षण किया और पांडुलिपि लिखी; वासेदा विश्वविद्यालय के एमके और एसएस ने शोध परियोजना का प्रबंधन किया और पांडुलिपि को संशोधित किया। सभी लेखकों ने पांडुलिपि के प्रकाशित संस्करण को पढ़ लिया है और सहमत हैं।

अनुदान

इस शोध को कोई बाहरी वित्त पोषण नहीं मिला।

संस्थागत समीक्षा बोर्ड वक्तव्य

आवेदन संख्या 2019-276 के तहत वासेदा विश्वविद्यालय की नैतिक समीक्षा समिति द्वारा सभी नैतिक और प्रयोगात्मक प्रक्रियाओं और प्रोटोकॉल की स्वीकृति प्रदान की गई थी।

सूचित सहमति वक्तव्य

इस पत्र को प्रकाशित करने के लिए विषयों से सूचित सहमति प्राप्त की गई है।

डेटा उपलब्धता विवरण

इस अध्ययन में प्रस्तुत डेटा संबंधित लेखक के अनुरोध पर उपलब्ध हैं। डेटा सार्वजनिक रूप से उपलब्ध नहीं है क्योंकि सभी विषय अपने चेहरों को जनता के सामने दिखाने के लिए सहमत नहीं हैं।

स्वीकृतियाँ

लेखक वासेदा विश्वविद्यालय में सुगानो की प्रयोगशाला की ड्राइविंग इंटरफेस टीम, दिए गए समर्थन के लिए सभी विषयों और वासेदा विश्वविद्यालय के विज्ञान और इंजीनियरिंग अनुसंधान संस्थान को धन्यवाद देना चाहते हैं।

हितों का टकराव

ऑथर ने किसी हित संघर्ष की घोषणा नहीं की है।

संदर्भ

  1. अशरफ, आई.; हूर, एस.; शफीक, एम.; पार्क, वाई। सड़क दुर्घटनाओं में शामिल विनाशकारी कारक: अंतर्निहित कारण और वर्णनात्मक विश्लेषण।एक और2019,14 , ई0223473. [गूगल शास्त्री] [क्रॉसरेफ़] [PubMed][हरा संस्करण]
  2. रामचंद्रन, वीएम; बाबू, पीके; मणिकंदन, आर। विभिन्न एल्गोरिदम का उपयोग करके सड़क दुर्घटनाओं की गंभीरता की भविष्यवाणी। इंट. जे शुद्ध एपल। गणित।2018,119 , 16663-16669। [गूगल शास्त्री]
  3. किनी, एस. भारत में सड़क यातायात दुर्घटनाएं: सड़क सुरक्षा सुनिश्चित करने के लिए तत्काल ध्यान और समाधान की आवश्यकता है। भारतीय जे. फोरेंसिक मेड. टॉक्सिकॉल।2019,13 , 144-148। [गूगल शास्त्री] [क्रॉसरेफ़]
  4. हयाशी, एच.; कामेज़ाकी, एम.; मनावाडु, यूई; कवानो, टी.; एमा, टी.; तोमिता, टी.; कैथरीन, एल.; सुगानो, एस। अनिर्धारित अधिग्रहण स्थितियों के लिए मानक नज़र मॉडल के आधार पर एक चालक स्थिति जागरूकता अनुमान प्रणाली। आईईईई इंटेलिजेंट वाहन संगोष्ठी की कार्यवाही में, पेरिस, फ्रांस, 9-12 जून 2019; पीपी. 718-723। [गूगल शास्त्री]
  5. हयाशी, एच.; ओका, एन.; कामेज़ाकी, एम.; सुगानो, एस। अनिर्धारित अधिग्रहण स्थितियों के लिए यातायात पर्यावरण को ध्यान में रखते हुए एक स्थितिजन्य जागरूकता अनुमान मॉडल का विकास। इंट. जे इंटेल। ट्रांसप। रेस.2020,19 , 167-181. [गूगल शास्त्री] [क्रॉसरेफ़]
  6. मनावाडु, यूई; कवानो, टी.; मुराता, एस.; कामेज़ाकी, एम.; मुरामात्सु, जे.; सुगानो, एस। लॉन्ग शॉर्ट-टर्म मेमोरी आधारित आवर्तक तंत्रिका नेटवर्क का उपयोग करते हुए चालक के कार्यभार का मल्टीक्लास वर्गीकरण। आईईईई इंटेलिजेंट वाहन संगोष्ठी की कार्यवाही में, चांगशु, चीन, 26-30 जून 2018; पीपी. 2009-2014। [गूगल शास्त्री]
  7. हयाशी, एच.; कामेज़ाकी, एम.; सुगानो, एस। स्वास्थ्य से संबंधित दुर्घटना निवारण की ओर: चालक निगरानी और मौखिक बातचीत के आधार पर लक्षण पहचान और हस्तक्षेप। आईईईई ओपन इंटेल। ट्रांसप। सिस्ट।2021,2 , 240-253। [गूगल शास्त्री] [क्रॉसरेफ़]
  8. लॉलेट, सी.; हयाशी, एच.; कामेज़ाकी, एम.; सुगानो, एस। एक मजबूत चालक का गेज़ ज़ोन वर्गीकरण, स्व-रोकथाम और गैर-संरेखित सिर और आंखों की दिशा ड्राइविंग स्थितियों के लिए एकल कैमरे का उपयोग कर रहा है। सिस्टम्स, मैन, और साइबरनेटिक्स (एसएमसी) पर 2020 IEEE अंतर्राष्ट्रीय सम्मेलन की कार्यवाही में, टोरंटो, ON, कनाडा, 11-14 अक्टूबर 2020; पीपी 4302-4308। [गूगल शास्त्री]
  9. लॉलेट, सी.; कामेज़ाकी, एम.; सुगानो, एस. टुवर्ड्स अ ड्राइवर्स गेज़ ज़ोन क्लासिफ़ायर यूज़िंग सिंगल कैमरा रॉबस्ट टू टेम्पोरल और परमानेंट फेस ऑक्लूजन। 2021 IEEE इंटेलिजेंट व्हीकल्स सिम्पोजियम (IV), नागोया, जापान की कार्यवाही में, 11-17 जुलाई 2021। [गूगल शास्त्री]
  10. लॉलेट, सी.; कामेज़ाकी, एम.; सुगानो, एस। ड्राइवर की तंद्रा क्लासिफायरियर एक सिंगल कैमरा का उपयोग करके एक पलक, फेस कंटूर और चेस्ट मूवमेंट फ़ीचर वेक्टर जीआरयू-आधारित मॉडल का उपयोग करके मास्क-पहनने वाली स्थितियों के लिए मजबूत। 2022 IEEE इंटेलिजेंट व्हीकल्स सिम्पोजियम (IV), आचेन, जर्मनी की कार्यवाही में, 4–9 जून 2022। [गूगल शास्त्री]
  11. चेन, एम.; Hauptmann, ए Mosift: निगरानी वीडियो में मानव क्रियाओं को पहचानना। 2009. ऑनलाइन उपलब्ध:https://kilthub.cmu.edu/articles/journal_contribution/MoSIFT_Recognizing_Human_Actions_in_Surveillance_Videos/6607523(29 जून 2022 को एक्सेस किया गया)।
  12. ली, बी. 3डी पॉइंट क्लाउड में वाहन का पता लगाने के लिए पूरी तरह से कन्वेन्शनल नेटवर्क। इंटेलिजेंट रोबोट्स एंड सिस्टम्स (IROS) पर 2017 IEEE/RSJ इंटरनेशनल कॉन्फ्रेंस की कार्यवाही में, वैंकूवर, BC, कनाडा, 24-28 सितंबर 2017. [गूगल शास्त्री]
  13. तवारी, ए.; चेन, केएच; त्रिवेदी, एमएम ड्राइवर कहां देख रहा है: मजबूत गेज जोन अनुमान के लिए सिर, आंख और आईरिस का विश्लेषण। इंटेलिजेंट ट्रांसपोर्टेशन सिस्टम (ITSC) पर 17वें अंतर्राष्ट्रीय IEEE सम्मेलन की कार्यवाही में, क़िंगदाओ, चीन, 8-11 अक्टूबर 2014; पीपी. 988-994। [गूगल शास्त्री]
  14. फ्रिडमैन, एल.; टोयोडा, एच.; सीमैन, एस.; सेपेल्ट, बी.; एंजेल, एल।; ली, जे.; मेहलर, बी.; रीमर, बी. छह सेकंड के ड्राइवर की नज़र से क्या अनुमान लगाया जा सकता है? कंप्यूटिंग सिस्टम में मानव कारकों की कार्यवाही में, डेनवर, सीओ, यूएसए, 6-11 मई 2017; पीपी. 2805-2813. [गूगल शास्त्री]
  15. फ्रिडमैन, एल.; ली, जे.; रीमर, बी.; विक्टर, टी. 'उल्लू' और 'छिपकली': पैटर्न्स ऑफ़ हेड पोज़ एंड आई पोज़ इन ड्राइवर गेज़ वर्गीकरण। आईईटी कम्प्यूट। विस.2016,10 , 308–314। [गूगल शास्त्री] [क्रॉसरेफ़][हरा संस्करण]
  16. चुआंग, एमसी; बाला, आर.; बर्नाल, ईए; पॉल, पी.; बरी, ए। स्मार्टफोन कैमरे का उपयोग करके वाहन चालकों की टकटकी की दिशा का अनुमान लगाना। कंप्यूटर विजन और पैटर्न पहचान कार्यशालाओं पर 2014 आईईईई सम्मेलन की कार्यवाही में, कोलंबस, ओएच, यूएसए, 23-28 जून 2014; पीपी. 165-170. [गूगल शास्त्री]
  17. नकवी, ए.; अरसलान, एम.; बाचुलुउन, जी.; यूं, एस.; एनआईआर कैमरा सेंसर का उपयोग करने वाले ऑटोमोबाइल ड्राइवरों के लिए पार्क, आर। डीप लर्निंग-आधारित गेज डिटेक्शन सिस्टम।सेंसर2018,18, 456. [गूगल शास्त्री] [क्रॉसरेफ़] [PubMed][हरा संस्करण]
  18. लियू, जेड.; लुओ, पी.; वांग, एक्स.; टैंग, एक्स। डीप लर्निंग फेस एट्रिब्यूट्स इन द वाइल्ड। कंप्यूटर विजन (आईसीसीवी) पर 2015 आईईईई अंतर्राष्ट्रीय सम्मेलन की कार्यवाही में, सैंटियागो, चिली, 7-13 दिसंबर 2015; पीपी। 3730-3738। [गूगल शास्त्री]
  19. मार्टिन, एससी विजन आधारित, इंटेलिजेंट वाहनों के लिए मल्टी-क्यू ड्राइवर मॉडल। पीएच.डी. शोध प्रबंध, कैलिफोर्निया विश्वविद्यालय, सैन डिएगो, सीए, यूएसए, 2016। [गूगल शास्त्री]
  20. बर्गोस-आर्टिज़ू, एक्स.; पेरोना, पी.; डॉलर, पी. रोबस्ट के तहत रोबस्ट लैंडमार्क अनुमान का सामना करते हैं। कंप्यूटर विजन पर 2013 IEEE अंतर्राष्ट्रीय सम्मेलन की कार्यवाही में, सिडनी, ऑस्ट्रेलिया, 1-8 दिसंबर 2013। [गूगल शास्त्री]
  21. तैयबनपिस, आईआर; चोई, एमके; क्वोन, एस। ट्रांसफर लर्निंग द्वारा ड्राइवर्स गेज़ ज़ोन का अनुमान। उपभोक्ता इलेक्ट्रॉनिक्स (आईसीसीई) पर 2018 आईईईई अंतर्राष्ट्रीय सम्मेलन की कार्यवाही में, लास वेगास, एनवी, यूएसए, 12-14 जनवरी 2018; पीपी. 1-5. [गूगल शास्त्री]
  22. शान, एक्स.; वांग, जेड.; लियू, एक्स.; लिन, एम.; झाओ, एल.; वांग, जे.; वैंग, जी। कंप्यूटर विजन के आधार पर ड्राइवर गेज़ क्षेत्र का अनुमान। मापने प्रौद्योगिकी और मेक्ट्रोनिक्स स्वचालन (आईसीएमटीएमए), फुकेत, ​​​​थाईलैंड की कार्यवाही में, 28-29 फरवरी 2020; पीपी. 357-360। [गूगल शास्त्री]
  23. वोरा, एस.; रंगेश, ए.; त्रिवेदी, एमएम ड्राइवर गेज़ ज़ोन एस्टीमेशन यूजिंग कन्वेन्शनल न्यूरल नेटवर्क्स: ए जनरल फ्रेमवर्क एंड एब्लेटिव एनालिसिस। आईईईई ट्रांस। बुद्धि। ट्रांसप।2018,3 , 254-265। [गूगल शास्त्री] [क्रॉसरेफ़]
  24. श्वेहर, जे.; विलर्ट, वी. डायनेमिक ऑटोमोटिव दृश्यों में ड्राइवर की टकटकी की भविष्यवाणी। इंटेलिजेंट ट्रांसपोर्टेशन सिस्टम (आईटीएससी), योकोहामा, जापान, 16-19 अक्टूबर 2017 पर 2017 आईईईई 20 वें अंतर्राष्ट्रीय सम्मेलन की कार्यवाही में; पीपी. 1-8. [गूगल शास्त्री]
  25. गुआस्कोनी, एस.; पोर्टा, एम.; रेस्टा, सी.; Rottenbacher, C. ड्राइवर के टकटकी विश्लेषण के लिए एक आंख ट्रैकिंग प्रणाली का कम लागत वाला कार्यान्वयन। मानव प्रणाली इंटरैक्शन (एचएसआई) पर 10वें अंतर्राष्ट्रीय सम्मेलन की कार्यवाही में, उल्सान, कोरिया, 17-19 जुलाई 2017; पीपी 264-269। [गूगल शास्त्री]
  26. वांग, वाई.; युआन, जी.; एमआई, जेड।; पेंग, जे.; डिंग, एक्स.; लिआंग, जेड.; फू, एक्स। आरजीबी-डी कैमरे का उपयोग करते हुए निरंतर चालक के टकटकी क्षेत्र का आकलन।सेंसर2019,19, 1287. [गूगल शास्त्री] [क्रॉसरेफ़] [PubMed][हरा संस्करण]
  27. वांग, वाई.; झाओ, टी.; डिंग, एक्स.; बियान, जे.; फू, एक्स। ड्राइवर ध्यान अध्ययन के लिए हेड पोज़-फ्री आई गेज़ प्रेडिक्शन। बिग डेटा और स्मार्ट कंप्यूटिंग (बिगकॉम्प) पर 2017 आईईईई अंतर्राष्ट्रीय सम्मेलन की कार्यवाही में, जेजू, कोरिया, 13-16 फरवरी 2017; पीपी 42-46। [गूगल शास्त्री]
  28. झा, एस.; Busso, C. घने वर्गीकरण का उपयोग करते हुए चालक के टकटकी क्षेत्र का संभाव्य अनुमान। इंटेलिजेंट ट्रांसपोर्टेशन सिस्टम्स (ITSC) पर 21वें अंतर्राष्ट्रीय सम्मेलन की कार्यवाही में, माउ, HI, यूएसए, 4–7 नवंबर 2018; पीपी. 697–702। [गूगल शास्त्री]
  29. यूएन, के.; मार्टिन, एस.; त्रिवेदी, एमएम एक वाहन में चेहरों को देखते हुए: एक गहन सीएनएन आधारित दृष्टिकोण और मूल्यांकन। इंटेलिजेंट ट्रांसपोर्टेशन सिस्टम (आईटीएससी) पर आईईईई 19वें अंतर्राष्ट्रीय सम्मेलन की कार्यवाही में, रियो डी जनेरियो, ब्राजील, 1-4 नवंबर 2016; पीपी. 649-654। [गूगल शास्त्री]
  30. झोपड़ी।; झा, एस.; बुसो, सी. रोबस्ट ड्राइवर हेड पॉज़ एस्टीमेशन इन नेचुरलिस्टिक कंडीशंस फ्रॉम पॉइंट-क्लाउड डेटा। 2020 IEEE इंटेलिजेंट व्हीकल्स सिम्पोजियम (IV), लास वेगास, NV, यूएसए की कार्यवाही में, 19 अक्टूबर-13 नवंबर 2020; पीपी. 1176-1182. [गूगल शास्त्री]
  31. रंगेश, ए.; झांग, बी.; त्रिवेदी, एम. ड्राइवर गेज़ एस्टीमेशन इन द रियल वर्ल्ड: ओवरकमिंग द आईग्लास चैलेंज। 2020 IEEE इंटेलिजेंट व्हीकल्स सिम्पोजियम (IV), लास वेगास, NV, यूएसए की कार्यवाही में, 19 अक्टूबर-13 नवंबर 2020; पीपी. 1054-1059। [गूगल शास्त्री]
  32. दारी, एस.; कादरीलेव, एन।; Hüllermeier, E. वाहन संकेतों के साथ एक तंत्रिका नेटवर्क-आधारित चालक टकटकी वर्गीकरण प्रणाली। न्यूरल नेटवर्क्स (IJCNN) पर 2020 के अंतर्राष्ट्रीय संयुक्त सम्मेलन की कार्यवाही में, ग्लासगो, यूके, 19–24 जुलाई 2020; पीपी. 1-7. [गूगल शास्त्री]
  33. रुइज़, एन.; चोंग, ई.; रेहग, जेएम फाइन-ग्रेन्ड हेड बिना की-पॉइंट्स के अनुमान लगाते हैं। कंप्यूटर विजन और पैटर्न पहचान कार्यशालाओं (सीवीपीआरडब्ल्यू) पर 2018 आईईईई/सीवीएफ सम्मेलन की कार्यवाही में, साल्ट लेक सिटी, यूटी, यूएसए, 18-22 जून 2018; पीपी. 2074-2083. [गूगल शास्त्री]
  34. यू, जे.; पार्क, एस.; ली, एस.; Jeon, M. कंडीशन-एडेप्टिव रिप्रेजेंटेशन लर्निंग फ्रेमवर्क का उपयोग करके ड्राइवर उनींदापन का पता लगाना। आईईईई ट्रांस। बुद्धि। ट्रांसप। सिस्ट।2018,20 , 4206-4218। [गूगल शास्त्री] [क्रॉसरेफ़][हरा संस्करण]
  35. हुइन्ह, एक्सपी; पार्क, एस.एम.; किम, वाईजी 3डी डीप न्यूरल नेटवर्क और सेमी-पर्यवेक्षित ग्रेडिएंट बूस्टिंग मशीन का उपयोग करके ड्राइवर के उनींदापन का पता लगाना। मेंकंप्यूटर विजन पर एशियाई सम्मेलन ; स्प्रिंगर: चाम, स्विट्जरलैंड, 2016। [गूगल शास्त्री]
  36. विल्सन, पीआई; फर्नांडीज, जे। हार क्लासिफायर का उपयोग करके चेहरे की विशेषता का पता लगाना। जे. कम्प्यूट. विज्ञान कोल।2006,21 , 127-133. [गूगल शास्त्री]
  37. डेनिस, ओ.; ब्यूनो, जी.; सालिडो, जे.; ला टोरे, एफडी ओरिएंटेड ग्रेडिएंट के हिस्टोग्राम का उपयोग करके फेस रिकग्निशन। पैटर्न पहचान। लेट.2011,32 , 1598-1603। [गूगल शास्त्री] [क्रॉसरेफ़]
  38. मिनेई, एस.; लुओ, पी.; लिन, जेड।; बॉयर, के. गोइंग डीपर इनटू फेस डिटेक्शन: ए सर्वे।arXiv2021 , arXiv:2103.14983। [गूगल शास्त्री]
  39. झांग, एस.; झू, एक्स.; लेई, जेड।; शि, एच.; वांग, एक्स.; ली, एसजेड एस3एफडी: सिंगल शॉट स्केल-इनवेरिएंट फेस डिटेक्टर। कंप्यूटर विजन (आईसीसीवी) पर 2017 आईईईई अंतर्राष्ट्रीय सम्मेलन की कार्यवाही में, वेनिस, इटली, 22-29 अक्टूबर 2017; पीपी. 192–201. [गूगल शास्त्री]
  40. विटन, आईएच; फ्रैंक, ई.; हॉल, एमए; पाल, मुख्य न्यायाधीशडेटा माइनिंग: प्रैक्टिकल मशीन लर्निंग टूल्स और तकनीक ; मॉर्गन कॉफ़मैन: बर्लिंगटन, एमए, यूएसए, 2016। [गूगल शास्त्री]
  41. हिंटन, जीई; सलाखुतदीनोव, आरआर तंत्रिका नेटवर्क के साथ डेटा की आयामीता को कम करना।विज्ञान2006,313 , 504-507। [गूगल शास्त्री] [क्रॉसरेफ़] [PubMed][हरा संस्करण]
  42. लेकुन, वाई.; बेंगियो, वाई.; हिंटन, जी। डीप लर्निंग।प्रकृति2015,521 , 436-444। [गूगल शास्त्री] [क्रॉसरेफ़]
  43. ट्रॅन, डी.; बोरदेव, एल.; फर्गस, आर.; टोरेसानी, एल.; पलुरी, एम. 3डी कनवल्शनल नेटवर्क के साथ लर्निंग्सस्पैटिओटेम्पोरल फीचर्स। कंप्यूटर विजन (आईसीसीवी) पर 2015 आईईईई अंतर्राष्ट्रीय सम्मेलन की कार्यवाही में, सैंटियागो, चिली, 7-13 दिसंबर 2015। [गूगल शास्त्री]
  44. खान, एमक्यू; ली, एस। ड्राइविंग निगरानी और सहायता प्रणालियों का एक व्यापक सर्वेक्षण।सेंसर2019,19, 2574. [गूगल शास्त्री] [क्रॉसरेफ़] [PubMed][हरा संस्करण]
आकृति 1। बाएं: चालक का चेहरा सामने की ओर है और कैमरे से काफी दूर है। मध्य: चालक का चेहरा सामने की ओर हो और कैमरे से बीच की दूरी हो। दाएं: चालक का चेहरा सामने की ओर है और कैमरे से थोड़ी दूरी है।
आकृति 1। बाएं: चालक का चेहरा सामने की ओर है और कैमरे से काफी दूर है। मध्य: चालक का चेहरा सामने की ओर हो और कैमरे से बीच की दूरी हो। दाएं: चालक का चेहरा सामने की ओर है और कैमरे से थोड़ी दूरी है।
चित्र 2।द्वि-आयामी सीएनएन नेटवर्क आर्किटेक्चर एक चैनल (1) छवि इनपुट के साथ छह अलग-अलग प्रस्तावित मानक ड्राइविंग गेज क्षेत्रों की भविष्यवाणी करने के लिए प्रयोग किया जाता है।
चित्र 2।द्वि-आयामी सीएनएन नेटवर्क आर्किटेक्चर एक चैनल (1) छवि इनपुट के साथ छह अलग-अलग प्रस्तावित मानक ड्राइविंग गेज क्षेत्रों की भविष्यवाणी करने के लिए प्रयोग किया जाता है।
चित्र तीन।थ्री-डायमेंशनल सीएनएन आर्किटेक्चर एक चैनल (1) फ्रेम इनपुट के अनुक्रम के साथ छह अलग-अलग प्रस्तावित मानक ड्राइविंग गेज क्षेत्रों की भविष्यवाणी करने के लिए प्रयोग किया जाता है।
चित्र तीन।थ्री-डायमेंशनल सीएनएन आर्किटेक्चर एक चैनल (1) फ्रेम इनपुट के अनुक्रम के साथ छह अलग-अलग प्रस्तावित मानक ड्राइविंग गेज क्षेत्रों की भविष्यवाणी करने के लिए प्रयोग किया जाता है।
चित्रा 4. प्रयोगात्मक वातावरण की स्थापना। डेटा केवल एक कैमरे का उपयोग करके एकत्र किया जाता है।
चित्रा 4. प्रयोगात्मक वातावरण की स्थापना। डेटा केवल एक कैमरे का उपयोग करके एकत्र किया जाता है।
चित्रा 5. ऊपर से नीचे तक की पंक्तियाँ: चालक का चेहरा पीछे के शीशे की ओर, चालक का चेहरा नाविक की ओर, चालक का चेहरा गति-मीटर के सामने। कॉलम बाएं से दाएं: कैमरे से थोड़ी दूरी के साथ चालक का चेहरा सामने की ओर, कैमरे से मध्य दूरी के साथ चालक का चेहरा सामने की ओर, कैमरे से थोड़ी दूरी के साथ चालक का चेहरा सामने की ओर।
चित्रा 5. ऊपर से नीचे तक की पंक्तियाँ: चालक का चेहरा पीछे के शीशे की ओर, चालक का चेहरा नाविक की ओर, चालक का चेहरा गति-मीटर के सामने। कॉलम बाएं से दाएं: कैमरे से थोड़ी दूरी के साथ चालक का चेहरा सामने की ओर, कैमरे से मध्य दूरी के साथ चालक का चेहरा सामने की ओर, कैमरे से थोड़ी दूरी के साथ चालक का चेहरा सामने की ओर।
चित्र 6.दूर तक कैमरे का सामना करने वाले वीडियो के लिए दोनों मॉडलों में नेटवर्क द्वारा सफलतापूर्वक वर्गीकृत लेबल का प्रतिशत।
चित्र 6.दूर तक कैमरे का सामना करने वाले वीडियो के लिए दोनों मॉडलों में नेटवर्क द्वारा सफलतापूर्वक वर्गीकृत लेबल का प्रतिशत।
चित्र 7.मध्यम दूरी पर कैमरे का सामना करने वाले वीडियो के लिए दोनों मॉडलों में नेटवर्क द्वारा सफलतापूर्वक वर्गीकृत लेबल का प्रतिशत।
चित्र 7.मध्यम दूरी पर कैमरे का सामना करने वाले वीडियो के लिए दोनों मॉडलों में नेटवर्क द्वारा सफलतापूर्वक वर्गीकृत लेबल का प्रतिशत।
आंकड़ा 8।निकट दूरी पर कैमरे का सामना करने वाले वीडियो के लिए दोनों मॉडलों में नेटवर्क द्वारा सफलतापूर्वक वर्गीकृत लेबल का प्रतिशत।
आंकड़ा 8।निकट दूरी पर कैमरे का सामना करने वाले वीडियो के लिए दोनों मॉडलों में नेटवर्क द्वारा सफलतापूर्वक वर्गीकृत लेबल का प्रतिशत।
चित्र 9.उन स्थितियों के उदाहरण जब 2डी सीएनएन के लिए गलत वर्गीकरण हो सकता है।
चित्र 9.उन स्थितियों के उदाहरण जब 2डी सीएनएन के लिए गलत वर्गीकरण हो सकता है।
तालिका एक। हमारे नेटवर्क में शामिल लेबल। प्रत्येक लेबल छह मानक ड्राइविंग टकटकी क्षेत्रों में से एक की ओर एक प्रमुख दिशा का प्रतिनिधित्व करता है।
तालिका एक। हमारे नेटवर्क में शामिल लेबल। प्रत्येक लेबल छह मानक ड्राइविंग टकटकी क्षेत्रों में से एक की ओर एक प्रमुख दिशा का प्रतिनिधित्व करता है।
लेबलगतिलेबलगति
बी बीपीछे के शीशे को निहारेंसीमांत बलसामने घूरना
डालूँगाबाईं खिड़की पर घूरेंआरआरदाहिनी खिड़की पर घूरें
एनएननेविगेटर को घूरेंएसएसस्पीड मीटर पर घूरें
प्रकाशक का नोट:एमडीपीआई प्रकाशित नक्शों और संस्थागत संबद्धता में क्षेत्राधिकार संबंधी दावों के संबंध में तटस्थ रहता है।
वापस शीर्ष परऊपर