وی ایکس
آگاه-شتاب
لاماری ایما/ آرین موتور
x
کاریزما
فونیکس
servatino
فلای تودی
۲۳ / ارديبهشت / ۱۴۰۴ ۱۶:۲۶

استاندارد جدید OpenAI برای سنجش هوش مصنوعی در پزشکی

استاندارد جدید OpenAI برای سنجش هوش مصنوعی در پزشکی

OpenAI با معرفی مدل جدید HealthBench گامی نو در ارزیابی عملکرد مدل‌های هوش مصنوعی در حوزه سلامت برداشته است. این مدل با همکاری ۲۶۲ پزشک از ۶۰ کشور و بر پایه ۵ هزار گفت‌وگوی واقعی ساخته شده و می‌تواند عملکرد ابزارهای هوش مصنوعی را در پاسخ به سؤالات پزشکی به‌صورت دقیق و با معیارهای تخصصی بسنجد. HealthBench نه‌تنها رقابتی جدی میان مدل‌های پیشرفته ایجاد کرده، بلکه به ابزاری راهبردی برای اعتمادسازی در حوزه سلامت دیجیتال تبدیل شده است.

کد خبر: ۲۰۵۷۰۰۷
آرین موتور

به گزارش اقتصادآنلاین، OpenAI با رونمایی از HealthBench در تلاش است تا خلأ مهمی در مسیر استفاده از هوش مصنوعی در مراقبت‌های بهداشتی را پر کند: نبود یک معیار دقیق و تخصصی برای سنجش عملکرد مدل‌ها در حوزه‌ای حیاتی مانند سلامت. بر اساس اطلاعیه رسمی این شرکت، HealthBench حاصل همکاری گسترده با پزشکان از سراسر جهان است که با تحلیل ۵ هزار مکالمه واقعی، معیار‌هایی برای ارزیابی پاسخ‌های مدل‌های زبانی هوش مصنوعی تدوین کرده‌اند.

این معیار‌ها نه‌تنها توسط پزشکان طراحی شده‌اند، بلکه هر یک وزن خاصی در ارزیابی نهایی دارند؛ به‌عبارتی، سنجش عملکرد بر اساس فهم انسانی از کیفیت پاسخ صورت می‌گیرد، نه صرفاً محاسبات ماشینی.

مدل‌ها زیر ذره‌بین، OpenAI از خودش هم عبور کرد

بر اساس نتایج اولیه منتشرشده از HealthBench، مدل o۳ متعلق به OpenAI با کسب امتیاز ۶۰ درصد بهترین عملکرد را در میان مدل‌های فعلی داشته است. پس از آن، مدل Grok که توسط تیم ایلان ماسک توسعه یافته، با امتیاز ۵۴ درصد و مدل Gemini ۲.۵ Pro از گوگل با ۵۲ درصد در رتبه‌های بعدی قرار گرفته‌اند.

این نتایج نه‌تنها آغاز رقابتی نو در حوزه مدل‌های زبانی کاربردی در سلامت است، بلکه نشان‌دهنده آن است که حتی مدل‌های پیشرفته نیز هنوز راه زیادی تا رسیدن به دقت کلینیکی دارند.

از سقوط سالمند تا ارزیابی نجات جان

OpenAI در پست وبلاگ خود، مثالی واقعی از کارکرد HealthBench را ارائه کرده است. در این سناریو، فردی با شرایط اورژانسی مواجه می‌شود: همسایه ۷۰ ساله‌ای روی زمین افتاده، نفس می‌کشد، اما واکنشی ندارد.

کاربر از مدل هوش مصنوعی می‌پرسد باید چه کاری انجام دهد. مدل، مراحل اقدام از جمله تماس با اورژانس، بررسی تنفس و باز نگه‌داشتن راه هوا را ارائه می‌دهد. سپس HealthBench این پاسخ را بررسی می‌کند و بر اساس شاخص‌های پزشکی، به آن نمره ۷۷ درصد می‌دهد. این عدد نشان می‌دهد که پاسخ درست و مفید بوده، اما همچنان جای بهبود دارد.

این قابلیت HealthBench، یعنی ارزیابی دقیق پاسخ‌ها در موقعیت‌های واقعی، آن را از سایر مدل‌های ارزیابی مبتنی‌بر آزمون‌های مصنوعی متمایز می‌کند.

از مغز تا چشم، از انگلیسی تا ۴۹ زبان

HealthBench تنها یک ابزار تخصصی برای زبان انگلیسی نیست. این مدل در حال حاضر از ۴۹ زبان مختلف پشتیبانی می‌کند و در پایگاه داده خود اطلاعات مربوط به ۲۶ تخصص پزشکی شامل جراحی مغز و اعصاب، قلب، چشم‌پزشکی و... را گنجانده است. چنین دامنه‌ای از تخصص و زبان، HealthBench را به یک استاندارد جهانی برای اعتبارسنجی مدل‌های پزشکی تبدیل می‌کند.

چرا HealthBench مهم است؟ 

در شرایطی که استفاده از هوش مصنوعی در مشاوره‌های اولیه پزشکی، سلامت روان، برنامه‌ریزی درمان و حتی پشتیبانی اورژانسی در حال گسترش است، نبود سنجش دقیق عملکرد مدل‌ها در موقعیت‌های حساس یک خلأ جدی محسوب می‌شد. HealthBench این شکاف را با روش ارزیابی انسانی، اما ساختاریافته پر کرده و می‌تواند ابزاری کلیدی برای شرکت‌های توسعه‌دهنده، سازمان‌های بهداشتی و حتی قانون‌گذاران حوزه سلامت دیجیتال باشد.

ارسال نظرات
کیان طلا
x