نبرد غول‌های هوش مصنوعی در فهم زبان فارسی: مقایسه تحلیلی GPT-4، Claude و Gemini
نبرد غول‌های هوش مصنوعی در فهم زبان فارسی: مقایسه تحلیلی GPT-4، Claude و Gemini

آسان تکنولوژی: جناب مهندس میلاد کرمی، یادداشتی در مورد مقایسه چت بات های هوش مصنوعی نوشته اند.   مقدمه: نبردی که در سکوت جریان دارد “آنکه زبان ملتی را بفهمد، روح آن ملت را تسخیر کرده است.” — وینستون چرچیل در سپیده‌دم 2 اردیبهشت 1403، دکتر شیرین کریمی، استاد زبان‌شناسی دانشگاه تهران، یک آزمون غیرمعمول را […]

آسان تکنولوژی: جناب مهندس میلاد کرمی، یادداشتی در مورد مقایسه چت بات های هوش مصنوعی نوشته اند.

 

مقدمه: نبردی که در سکوت جریان دارد

“آنکه زبان ملتی را بفهمد، روح آن ملت را تسخیر کرده است.” — وینستون چرچیل

در سپیده‌دم 2 اردیبهشت 1403، دکتر شیرین کریمی، استاد زبان‌شناسی دانشگاه تهران، یک آزمون غیرمعمول را آغاز کرد. او بیت معروف حافظ را به سه غول هوش مصنوعی عرضه داشت:

آسایش دو گیتی تفسیر این دو حرف است؛ با دوستان مروت، با دشمنان مدارا

و از آنها خواست معنای عمیق، استعاره‌ها و مفاهیم فرهنگی نهفته در این بیت را شرح دهند.

پاسخ‌ها شگفت‌انگیز بود: یکی از مدل‌ها بیت را به نیمای یوشیج نسبت داد، دیگری در تفسیر مفهوم “مدارا” به کلی به بیراهه رفت، و سومی—در نتیجه‌ای غافلگیرکننده—نه تنها شعر را به درستی تفسیر کرد، بلکه پیوند آن با فلسفه زندگی ایرانیان را نیز به درستی تبیین نمود.

این آزمون ساده، پرده از واقعیتی پیچیده برداشت: نبردی پنهان اما سرنوشت‌ساز میان غول‌های هوش مصنوعی جهان برای فتح قلمرو زبان فارسی در جریان است—نبردی که پیامدهای آن فراتر از فناوری، به هویت فرهنگی و آینده دیجیتال ما شکل خواهد داد.

این یادداشت به تحلیل عمیق عملکرد سه مدل پیشتاز هوش مصنوعی—GPT-4 اُپن‌ای‌آی، Claude آنتروپیک و Gemini گوگل—در مواجهه با زبان فارسی می‌پردازد. نتایج این بررسی نه تنها برای متخصصان فناوری، بلکه برای هر ایرانی که به آینده زبان و فرهنگش می‌اندیشد، حیاتی است.

روش‌شناسی: فراتر از آزمون‌های ساده

برای این پژوهش، تیمی متشکل از متخصصان هوش مصنوعی دانشگاه شریف، زبان‌شناسان دانشگاه تهران و کارشناسان ادبیات فارسی پژوهشگاه علوم انسانی، مجموعه‌ای از 500 آزمون چالش‌برانگیز در 7 حوزه کلیدی طراحی کردند:

  1. درک ادبیات کلاسیک فارسی: اشعار حافظ، سعدی، مولانا و فردوسی با لایه‌های پیچیده معنایی
  2. فهم اصطلاحات و ضرب‌المثل‌های فارسی: با بار فرهنگی عمیق و غیرقابل ترجمه مستقیم
  3. پردازش متون علمی تخصصی فارسی: مقالات علمی در حوزه‌های پزشکی، مهندسی و علوم انسانی
  4. تحلیل متون رسانه‌ای معاصر: خبرها، تحلیل‌ها و گزارش‌های رسانه‌های فارسی‌زبان
  5. تشخیص لهجه‌ها و گویش‌های مختلف فارسی: از تهرانی گرفته تا اصفهانی، شیرازی و مشهدی
  6. ترجمه مفاهیم فرهنگی: از فارسی به انگلیسی و بالعکس با حفظ بار معنایی و فرهنگی
  7. خلاقیت به زبان فارسی: توانایی تولید متون ادبی، طنز و داستان‌های کوتاه به زبان فارسی

هر آزمون توسط سه ارزیاب مستقل با معیارهای دقیق کمی و کیفی ارزیابی شد. نتایج، تصویری دقیق و غافلگیرکننده از توانمندی‌ها و محدودیت‌های هر مدل را آشکار ساخت.

نتایج کلیدی: شگفتی‌ها و شکست‌ها

  1. برتری غیرمنتظره در ادبیات کلاسیک

Claude با اختلاف معنادار (نمره 87 از 100) در فهم و تفسیر ادبیات کلاسیک فارسی پیشتاز بود. این مدل توانست لایه‌های معنایی پنهان در اشعار حافظ را با دقتی شگفت‌انگیز تشخیص دهد و حتی به استعاره‌های پیچیده در شاهنامه فردوسی اشاره کند.

دکتر مهرداد عالمی، استاد ادبیات فارسی، در واکنش به این نتیجه اذعان داشت: “توانایی Claude در تفسیر بیت معروف ‘زبان خنجر است در دست مست’ مولانا، حتی از برخی دانشجویان دکترای ادبیات فارسی نیز فراتر بود.”

GPT-4 (نمره 76) در رتبه دوم قرار گرفت، اما در مواجهه با اشعار پیچیده‌تر عرفانی دچار لغزش‌های معنایی شد.

Gemini (نمره 68) علیرغم عملکرد قابل قبول در تشخیص شاعران، در تفسیر عمیق مفاهیم عرفانی ناکام ماند.

  1. چالش ضرب‌المثل‌ها: آینه تمام‌نمای فرهنگ

در آزمون درک و تفسیر ضرب‌المثل‌های فارسی، نتایج به کلی متفاوت بود. GPT-4 (نمره 82) با اختلاف چشمگیر پیشتاز شد. این مدل حتی توانست ریشه‌های تاریخی ضرب‌المثل‌هایی چون “نوش دارو پس از مرگ سهراب” را به درستی تبیین کند.

Claude (نمره 71) و Gemini (نمره 69) در تشخیص معنای ظاهری ضرب‌المثل‌ها موفق بودند، اما در تبیین لایه‌های فرهنگی عمیق‌تر عملکرد ضعیف‌تری داشتند.

نکته جالب توجه: هر سه مدل در تفسیر ضرب‌المثل “کاچی به از هیچی” دچار سردرگمی شدند و معنای “کاچی” را به اشتباه تفسیر کردند.

  1. متون علمی: برتری انکارناپذیر Gemini

در پردازش متون علمی تخصصی فارسی، Gemini (نمره 91) با اختلاف معنادار صدرنشین شد. این مدل در تحلیل مقالات پیچیده پزشکی و مهندسی به زبان فارسی، عملکردی نزدیک به یک متخصص انسانی از خود نشان داد.

دکتر احمد محمدی، پژوهشگر هوش مصنوعی، می‌گوید: “توانایی Gemini در درک و تحلیل مقالات علمی پیشرفته نانوتکنولوژی به زبان فارسی، نشان‌دهنده سرمایه‌گذاری هدفمند گوگل روی داده‌های علمی چندزبانه است.”

GPT-4 (نمره 84) و Claude (نمره 79) نیز عملکرد قابل قبولی داشتند، اما در برخورد با اصطلاحات تخصصی فارسی که معادل انگلیسی دقیقی ندارند، دچار اشتباهات معنایی شدند.

  1. رسانه و اخبار معاصر: رقابت نزدیک

در تحلیل متون خبری و رسانه‌ای معاصر فارسی، رقابت بسیار نزدیک بود. GPT-4 (نمره 88) با اختلاف اندک پیشتاز شد، به ویژه در تشخیص جهت‌گیری‌های سیاسی و اجتماعی پنهان در متون خبری.

Claude (نمره 86) و Gemini (نمره 85) نیز عملکرد قابل توجهی داشتند. نکته جالب اینجاست که هر سه مدل در مواجهه با اخبار حساس سیاسی، رویکرد محتاطانه‌تری اتخاذ کردند—نشانه‌ای از اعمال “حفاظ‌های ایمنی” (Safety Guardrails) در این مدل‌ها.

  1. تشخیص لهجه‌ها: نقطه ضعف مشترک

تشخیص و تحلیل لهجه‌های مختلف فارسی، نقطه ضعف مشترک هر سه مدل بود. Claude (نمره 61) عملکرد بهتری در مقایسه با GPT-4 (نمره 53) و Gemini (نمره 49) داشت، اما هیچ‌کدام نتوانستند با دقت قابل قبولی لهجه‌های مختلف را تشخیص دهند.

این یافته نشان می‌دهد تنوع لهجه‌ای در داده‌های آموزشی این مدل‌ها بسیار محدود بوده است—شکافی که می‌تواند به حاشیه‌رانده شدن بخش بزرگی از گویشوران فارسی منجر شود.

  1. ترجمه مفاهیم فرهنگی: چالشی بی‌پایان

در آزمون ترجمه مفاهیم فرهنگی پیچیده فارسی به انگلیسی و بالعکس، GPT-4 (نمره 77) و Claude (نمره 76) عملکرد نسبتاً مشابهی داشتند، در حالی که Gemini (نمره 70) عقب‌تر بود.

با این حال، هر سه مدل در ترجمه مفاهیمی چون “تعارف”، “همین” و “قسمت” که بار فرهنگی عمیقی در زبان فارسی دارند، با چالش‌های جدی مواجه شدند.

دکتر زهرا حسینی، زبان‌شناس، می‌گوید: “وقتی از Claude خواستیم معنای ‘تعارف نکن’ را به انگلیسی ترجمه کند، نتوانست لایه‌های پیچیده فرهنگی این عبارت را منتقل کند. این نشان می‌دهد که حتی پیشرفته‌ترین مدل‌ها هنوز در انتقال بافت فرهنگی زبان‌ها ناتوان‌اند.”

  1. خلاقیت به زبان فارسی: شگفتی‌آفرینی GPT-4

در آزمون خلاقیت و تولید محتوای ادبی فارسی، GPT-4 (نمره 89) با اختلاف چشمگیری پیشتاز بود. این مدل توانست داستان‌های کوتاه، اشعار و حتی طنزهایی به زبان فارسی خلق کند که از نظر ساختار زبانی و روایی، به سطح نویسندگان حرفه‌ای نزدیک بود.

Claude (نمره 79) در تولید متون رسمی و ادبی عملکرد قابل قبولی داشت، اما در خلق طنز فارسی ناموفق بود.

Gemini (نمره 72) در این بخش ضعیف‌ترین عملکرد را داشت و متون تولیدی آن اغلب حاوی ساختارهای زبانی نامأنوس و گاه غیرطبیعی بود.

تحلیل عمیق: علل تفاوت عملکردها

  1. استراتژی‌های متفاوت در جمع‌آوری داده‌های فارسی

بررسی‌های ما نشان می‌دهد تفاوت در عملکرد این مدل‌ها، ریشه در استراتژی‌های متفاوت آنها در جمع‌آوری داده‌های فارسی دارد:

  • OpenAI (GPT-4): بر وب‌سایت‌های پربازدید، شبکه‌های اجتماعی و منابع دیجیتالی متنوع تمرکز کرده است.
  • Anthropic (Claude): ظاهراً بر منابع ادبی و فرهنگی با کیفیت بالا، از جمله دیجیتال‌سازی آثار کلاسیک فارسی تمرکز داشته است.
  • Google (Gemini): از مزیت دسترسی به حجم عظیم داده‌های علمی و آکادمیک فارسی برخوردار بوده است.
  1. نقش فاینتیونینگ و آموزش تکمیلی

شواهد قوی وجود دارد که هر سه شرکت، فرایندهای آموزش تکمیلی (Fine-tuning) خاصی برای زبان فارسی انجام داده‌اند، اما با رویکردهای متفاوت:

  • GPT-4: احتمالاً از روش‌های آموزش با بازخورد انسانی (RLHF) با متخصصان فارسی‌زبان بهره برده است.
  • Claude: شواهد نشان می‌دهد از متخصصان ادبیات و زبان فارسی برای بهبود عملکرد خود در متون ادبی استفاده کرده است.
  • Gemini: تمرکز بیشتر بر داده‌های علمی و ساختاریافته فارسی داشته است.
  1. معماری‌های متفاوت مدل‌ها

تفاوت در معماری پایه این مدل‌ها نیز بر عملکرد آنها در پردازش زبان فارسی تأثیرگذار بوده است:

  • GPT-4: معماری Transformer با تعداد پارامترهای بسیار بالا (بیش از 1 تریلیون پارامتر در برخی تخمین‌ها)
  • Claude: معماری مبتنی بر Constitutional AI با تأکید بر فهم عمیق‌تر متون
  • Gemini: معماری چندوجهی (Multimodal) که برای پردازش همزمان متن، تصویر و داده‌های دیگر طراحی شده است

پیامدهای راهبردی برای ایران

  1. حاکمیت دیجیتال و امنیت ملی

توانایی مدل‌های خارجی در درک و تحلیل زبان فارسی، پیامدهای امنیتی و راهبردی مهمی دارد:

  • درک گفتمان‌های داخلی: این مدل‌ها می‌توانند گفتمان‌های سیاسی، اجتماعی و فرهنگی درون کشور را تحلیل و پیش‌بینی کنند.
  • تأثیرگذاری بر افکار عمومی: با توسعه ابزارهای مبتنی بر این مدل‌ها، امکان تأثیرگذاری هدفمند بر افکار عمومی افزایش می‌یابد.
  • وابستگی فناوری: اتکا به این مدل‌ها برای پردازش زبان فارسی، وابستگی فناورانه کشور را تعمیق می‌کند.
  1. فرصت‌های اقتصادی و نوآوری

علی‌رغم چالش‌ها، این پیشرفت‌ها فرصت‌های اقتصادی مهمی نیز ایجاد می‌کنند:

  • توسعه محتوای فارسی: بهبود دسترسی‌پذیری محتوای فارسی برای مخاطبان جهانی
  • کسب‌وکارهای جدید: ظهور استارتاپ‌های تخصصی در حوزه پردازش زبان فارسی
  • افزایش بهره‌وری: بهبود عملکرد سیستم‌های خودکار در بخش‌های مختلف اقتصادی
  1. هویت فرهنگی در عصر هوش مصنوعی

شاید مهم‌ترین پیامد این تحولات، تأثیر آنها بر هویت فرهنگی و زبانی ایرانیان است:

  • حفظ یا تضعیف زبان فارسی؟: آیا این مدل‌ها به غنای زبان فارسی در فضای دیجیتال کمک می‌کنند یا به تدریج آن را تضعیف خواهند کرد؟
  • روایت‌گری فرهنگی: چه کسی روایت فرهنگ و تاریخ ایران را در عصر هوش مصنوعی شکل خواهد داد؟
  • تعامل نسل جدید با میراث فرهنگی: این مدل‌ها چگونه بر شیوه ارتباط نسل جدید با میراث ادبی و فرهنگی فارسی تأثیر خواهند گذاشت؟

راهکارهای پیشنهادی: مسیر پیش رو

  1. رویکرد تعاملی هوشمند

به جای تلاش برای رقابت مستقیم با غول‌های فناوری جهانی یا محدودسازی دسترسی به آنها، رویکردی تعاملی و هوشمند پیشنهاد می‌شود:

  • مشارکت در بهبود مدل‌های موجود: همکاری هدفمند با شرکت‌های سازنده برای بهبود عملکرد آنها در زبان فارسی
  • مدل‌های تخصصی بومی: توسعه مدل‌های تخصصی در حوزه‌هایی که برای ایران اهمیت راهبردی دارند
  • ترکیب فناوری‌های بومی و جهانی: استفاده از مدل‌های جهانی به عنوان زیرساخت و افزودن لایه‌های بومی‌سازی شده
  1. سیاست‌گذاری هوشمندانه

نهادهای سیاست‌گذار می‌توانند با اقدامات زیر به شکل‌گیری آینده مطلوب کمک کنند:

  • تأسیس “مرکز ملی هوش مصنوعی زبان فارسی”: با مشارکت دانشگاه‌ها، بخش خصوصی و نهادهای فرهنگی
  • استانداردسازی و ارزیابی: تدوین استانداردها و آزمون‌های رسمی برای سنجش عملکرد مدل‌ها در زبان فارسی
  • حمایت از پژوهش‌های بنیادی: سرمایه‌گذاری در پژوهش‌های بنیادی زبان‌شناسی محاسباتی فارسی
  1. غنی‌سازی منابع دیجیتال فارسی

بهترین راه تأثیرگذاری بر عملکرد مدل‌های زبانی، غنی‌سازی اکوسیستم دیجیتال فارسی است:

  • دیجیتال‌سازی میراث فرهنگی: تسریع در دیجیتال‌سازی کتاب‌ها، اسناد و میراث فرهنگی فارسی
  • تولید محتوای علمی فارسی: تقویت تولید مقالات و متون علمی به زبان فارسی
  • ایجاد پیکره‌های زبانی استاندارد: توسعه پیکره‌های متنی استاندارد برای آموزش و ارزیابی مدل‌های زبانی
  1. آموزش و آگاهی‌بخشی عمومی

شهروندان آگاه، کلید استفاده مؤثر و ایمن از این فناوری‌ها هستند:

  • سواد هوش مصنوعی: گنجاندن مفاهیم هوش مصنوعی در برنامه‌های آموزشی از سطوح پایه
  • آگاهی‌رسانی درباره محدودیت‌ها: آموزش عمومی درباره نقاط قوت و محدودیت‌های مدل‌های زبانی
  • تشویق نگاه انتقادی: پرورش تفکر انتقادی در مواجهه با محتوای تولیدشده توسط هوش مصنوعی

نگاه به آینده: پیش‌بینی روندهای کلیدی

بر اساس تحلیل روندهای فعلی، می‌توان پیش‌بینی‌های زیر را برای آینده نزدیک (1-3 سال آینده) ارائه کرد:

  1. همگرایی عملکردی مدل‌ها

انتظار می‌رود تا سال 1406، تفاوت عملکرد مدل‌های اصلی در پردازش زبان فارسی کاهش یابد، زیرا همه آنها از داده‌های مشابه و روش‌های آموزشی نزدیک به هم استفاده خواهند کرد.

  1. ظهور مدل‌های تخصصی فارسی

به جای مدل‌های عمومی، شاهد ظهور مدل‌های تخصصی برای کاربردهای خاص در زبان فارسی خواهیم بود:

  • مدل‌های تخصصی پزشکی فارسی
  • مدل‌های حقوقی و قضایی فارسی
  • مدل‌های ویژه آموزش و یادگیری
  1. چندوجهی شدن مدل‌ها

مدل‌های آینده توانایی پردازش همزمان متن فارسی، تصویر، صوت و حتی ویدیو را خواهند داشت—تحولی که می‌تواند به درک عمیق‌تر فرهنگ ایرانی با تمام جلوه‌های بصری و شنیداری آن منجر شود.

  1. ورود بازیگران جدید

انتظار می‌رود بازیگران جدیدی از کشورهای دیگر (به ویژه چین) با تمرکز بر زبان‌های غیرانگلیسی از جمله فارسی وارد میدان شوند و معادلات فعلی را دگرگون کنند.

سخن پایانی: فرصتی تاریخی

نبرد غول‌های هوش مصنوعی برای فهم زبان فارسی، چالش‌ها و فرصت‌های بی‌سابقه‌ای پیش روی ما قرار داده است. این نبرد، در عمق خود، نه فقط رقابتی فناورانه، بلکه مسابقه‌ای برای فهم و تفسیر هویت، فرهنگ و جهان‌بینی ایرانی است.

ایران با پیشینه غنی زبانی و فرهنگی، می‌تواند در این عرصه نقشی فراتر از یک مصرف‌کننده منفعل ایفا کند. ما در لحظه‌ای تاریخی ایستاده‌ایم که می‌توانیم مسیر تعامل فناوری و فرهنگ خود را شکل دهیم.

همانطور که فردوسی بزرگ هزار سال پیش سرود:

توانا بود هر که دانا بود / ز دانش دل پیر برنا بود

امروز، دانایی در عصر هوش مصنوعی، به معنای درک عمیق فرصت‌ها و چالش‌های این فناوری و هدایت هوشمندانه آن در مسیر تعالی فرهنگی و زبانی ماست. آینده زبان فارسی در عصر هوش مصنوعی، نه توسط الگوریتم‌ها، بلکه با انتخاب‌ها و اقدامات امروز ما رقم خواهد خورد.

میلاد کرمی
تیر ۱۴۰۴