تعرف علي كيفية استعادة "الأبعاد المفقودة" للصور والفيديو المزيد في عالم التكنولوجيا

طور باحثو (معهد ماساتشوستس للتكنولوجيا)، نموذجًا يستعيد البيانات القيمة المفقودة من الصور ومقاطع الفيديو التي انكمشت إلى أبعاد أقل.

يمكن استخدام النموذج لإعادة إنشاء الفيديو من الصور غير واضحة الحركة، أو من أنواع جديدة من الكاميرات التي تلتقط حركة الشخص حول الزوايا ولكن فقط كخطوط غامضة أحادية البعد. في حين أن هناك حاجة إلى مزيد من الاختبارات؛ حيث يعتقد الباحثون أن هذه المقاربة يمكن أن تُستخدم يومًا ما لتحويل الصور الطبية ثنائية الأبعاد إلى عمليات مسح للجسم ثلاثية الأبعاد المفيدة، لكنها أغلى والتي قد تفيد في التصوير الطبي في الدول الفقيرة.

يقول “جها بالاكريشنان” وهو طالب دراسات عليا في مختبر علوم الحاسوب والذكاء الاصطناعي: “في كل هذه الحالات، يكون للبيانات المرئية بعد واحد، ولكن إذا استردنا هذا البعد المفقود، فيمكن أن يحتوي على الكثير من التطبيقات المهمة.”

وغالبًا ما تتحول البيانات المرئية التي تم التقاطها بيانات ذات أبعاد متعددة من الزمان والمكان إلى بُعد واحد أو بعدين، ويطلق عليها “الإسقاطات”.

على سبيل المثال، تقوم الأشعة السينية بتحطيم البيانات ثلاثية الأبعاد حول الهياكل التشريحية إلى صورة مسطحة، أو إذا كنت تريد أخذ لقطة طويلة للنجوم تتنقل عبر السماء: ستظهر النجوم التي يتغير وضعها بمرور الوقت، كخطوط غير واضحة في الصورة الثابتة.

وقد تم اختراع “كاميرات الزاوية” مؤخرًا في معهد (ماساتشوستس للتكنولوجيا)، تلك الكاميرات تكتشف تحريك الأشخاص حول الزوايا. قد يكون ذلك مفيدًا، على سبيل المثال، لإيجاد رجال الإطفاء لأشخاص في المباني المحترقة. وفي الوقت الحالي، ينتجون فقط إسقاطات تشبه الخطوط غير الواضحة والخطوط المتعرجة، والتي تتوافق مع مسار الشخص وسرعته، لكن هذه الكاميرات ليست سهلة الاستخدام تمامًا.

وابتكر الباحثون أيضًا نموذج “الإلغاء البصري” الذي يستخدم شبكة عصبية “لتعلم” الأنماط التي تتوافق مع الإسقاطات منخفضة الأبعاد مع صورهم ومقاطع الفيديو الأصلية عالية الأبعاد. ومن المتوقع، أن يستخدم هذا النموذج ما تعلمته لإعادة إنشاء جميع البيانات الأصلية من الإسقاط.

خلال التجارب، قام النموذج بتركيب إطارات فيديو دقيقة تُظهر الأشخاص الذين يمشون، من خلال استخراج المعلومات من خطوط أحادية البعد تشبه تلك التي تنتجها كاميرات الزاوية. واستعاد النموذج أيضًا إطارات الفيديو الغير واضحة، من مجموعة البيانات (Moving MNIST) الشهيرة.

يذكر أن الباحثون هم: جها بالاكريشنان، إيمي تشاو طالبة دراسات عليا في قسم الهندسة الكهربائية وعلوم الكمبيوتر، الأساتذ جون غوتاج، وفريدو دوراند، وويليام تي فريمان، وأدريان دالكا عضو هيئة تدريس في الأشعة في كلية الطب بجامعة هارفارد.

ويقول “بالاكريشنان”: “إن العمل بدأ بسبب “مشكلة انعكاس باردة” لإعادة تنشيط الحركة التي تسبب ضبابية الحركة في التصوير الفوتوغرافي ذي التعرض الطويل. في بكسلات العرض، توجد بعض الأدلة حول المصدر ذي الأبعاد العالية.

على سبيل المثال، تقوم الكاميرات الرقمية التي تلتقط لقطات طويلة التعرض بتجميع الفوتونات بشكل أساسي على مدى فترة زمنية لكل بكسل، وعند التقاط حركة كائن ما بمرور الوقت، ستحصل الكاميرا على متوسط قيمة وحدات البكسل التي تلتقط الحركة. ثم، يتم تطبيق هذه القيم المتوسطة على ارتفاعات وعرض متساويين للصورة الثابتة، مما يؤدي إلى إنشاء خطوط ضبابية للتوقيع بمسار الكائن. ومن خلال حساب بعض الاختلافات في كثافة البكسل، يمكن إعادة إنشاء الحركة من الناحية النظرية.

وقد أدرك الباحثون أن هذه المشكلة ذات صلة في العديد من المجالات: الأشعة السينية، على سبيل المثال، الارتفاع والعرض، والمعلومات العميقة للتركيبات التشريحية، لكنها تستخدم تقنية مشابهة لمتوسط البيكسل لطي العمق في صورة ثنائية الأبعاد.

تلتقط كاميرات الركن التي ابتكرها فريمان ودوراند والباحثون الآخرون في عام 2017، إشارات الضوء المنعكسة حول مشهد مخفي يحمل معلومات ثنائية الأبعاد عن بُعد الشخص عن الجدران والأشياء، ثم تنهار تقنية قياس البيكسل فتختفي البيانات في فيديو أحادي البعد.

لذا صمم الباحثون نموذجًا عامًا، استنادًا إلى شبكة عصبية تلافيفية (CNN)، وهو عبارة عن نموذج للتعلم الآلي الذي أصبح مركزًا قويًا لمهام معالجة الصور؛ حيث يلتقط أدلة حول أي بعد مفقود في البيكسلات المتوسطة.

وأثناء التدريب، قام الباحثون بتغذية آلاف أزواج (CNN) من التوقعات ومصادرها عالية الأبعاد، والتي تسمى “الإشارات”. وتتعامل (CNN) مع أنماط البكسل في الإسقاطات التي تطابق تلك الموجودة في الإشارات.

إن تشغيل (CNN) يتطلب إطار يسمى “الكود التلقائي المتغير”، وهو الذي يقيم مدى مطابقة مخرجات (CNN) لمدخلاته عبر بعض الاحتمالات الإحصائية. نتيجة لذلك يتعلم النموذج “مساحة” لجميع الإشارات المحتملة التي يمكن أن تنتج إسقاطًا معينًا، مما يخلق نوعًا من المخطط لكيفية الانتقال من الإسقاط إلى جميع إشارات المطابقة الممكنة.

وعندما تظهر الإسقاطات غير المرئية سابقًا، يلاحظ النموذج أنماط البكسل ويتبع المخططات لجميع الإشارات المحتملة التي يمكن أن تنتج هذا الإسقاط. ثم، يقوم بتجميع الصور الجديدة التي تجمع بين جميع البيانات من الإسقاط وجميع البيانات من الإشارة، مما يعيد إشارة عالية الأبعاد.

وقد قام الباحثون بتجربة جديدة، وهي جمع مجموعة من 35 مقطع فيديو من 30 شخصًا يمشون في منطقة محددة. لقد انهارت كل الإطارات في الإسقاطات التي استخدموها لتدريب واختبار النموذج. ومن خلال مجموعة من ستة إسقاطات غير مرئية، قام النموذج بإعادة إنشاء 24 إطارًا من مشية الشخص، وصولًا إلى موضع أرجلهم وحجم الشخص أثناء السير باتجاه الكاميرا أو بعيدًا عنها.

يذكر أن الباحثون لم يختبروا نموذجهم على الصور الطبية حتي الآن، لكنهم يتعاونون مع زملاء بجامعة “كورنيل” لاستعادة المعلومات التشريحية ثلاثية الأبعاد من الصور الطبية ثنائية الأبعاد، مثل الأشعة السينية دون أي تكاليف إضافية، والتي يمكن أن تتيح إجراء تصوير طبي أكثر تفصيلاً في الدول الفقيرة.

ويفضل الأطباء في الغالب عمليات المسح ثلاثي الأبعاد، مثل تلك التي تم التقاطها باستخدام الأشعة المقطعية، لأنها تحتوي على معلومات طبية أكثر فائدة بكثير، لكن الفحص بالأشعة المقطعية يصعب الحصول عليه بشكل عام.

بعد قراءة الموضوع يمكنك معرفة المزيد عن الكلمات الآتية: