What is computational linguistic?کمپیوٹیشنل لسانیات کیا ہے؟

by Professor Shalom Lappin

جب میرے بچے بہت چھوٹے تھے اور انھوں نے زندگی گزارنے کے لیے میں کیا کرتا ہوں اس میں کچھ دلچسپی لی، تو وہ کبھی کبھار مجھ سے یہ بتانے کے لیے کہتے کہ کمپیوٹیشنل لسانیات کیا ہے، اور انھیں اندازہ لگائیں کہ کمپیوٹیشنل لسانیات کیا کرتے ہیں۔ تعلیمی زبان کے ساتھ جواب دینے کی میری ابتدائی کوششوں کو مکمل طور پر غیر معلوماتی قرار دے کر مسترد کر دینے کے بعد، میں نے اپنے آپ کو پریشان کن روشن بچوں کے سخت سامعین کا سامنا پایا، جو بہت اچھے سوالات کے واضح، قابل فہم جوابات پر بالکل بجا طور پر اصرار کرتے تھے۔

ایک عام گفتگو کچھ اس طرح ہوگی:

بچے: تو بتاؤ، بابا آپ واقعی کام پر کیا کرتے ہیں؟

میں: ہم اس بات کے عین مطابق ماڈل بنانے کی کوشش کرتے ہیں کہ قدرتی زبانیں (جیسے کہ آپ بولتے ہیں) کیسے کام کرتی ہیں۔ ہم ان ماڈلز کو کمپیوٹر پروگرام لکھنے کے لیے استعمال کر کے جانچتے ہیں جو کسی زبان کے بعض پہلوؤں کا خود بخود تجزیہ کر سکتے ہیں۔

بچے: تو آپ کمپیوٹر کو بات کرنا سکھاتے ہیں، جیسا کہ وہ اسٹار ٹریک پر کرتے ہیں؟

میں: ترتیب دیں، لیکن بالکل نہیں۔

بچے: زبان کا قطعی نمونہ کیا ہے؟

میں: یہ ایک ایسا نظریہ ہے جو لسانی خصوصیات کے ایک سیٹ کی واضح کافی وضاحت دیتا ہے تاکہ ہم اسے کمپیوٹر پروگرام میں ترجمہ کر سکیں جو ان خصوصیات کو حقیقی زبان کے ڈیٹا میں پہچانتا ہے۔

بچے: ہاں ٹھیک ہے۔ تو آپ گوگل کے لیے کام کیوں نہیں کرتے اور زیادہ پیسہ کماتے ہیں؟

میں: اچھا سوال ہے۔ اب کیا آپ ہمارے موجودہ گرامر پارسر کو دیکھنا چاہتے ہیں؟

بچے: شکریہ والد، لیکن ہم اس وقت کافی مصروف ہیں۔ ویسے، ہم آپ کو سکھا سکتے ہیں کہ اپنے سمارٹ فون کو صحیح طریقے سے کیسے ترتیب دیا جائے، اور اس مسئلے کو کیسے حل کیا جائے جو آپ کو اپنے کمپیوٹر گرافکس کے ساتھ درپیش ہے۔ لیکن یہ آپ کو خرچ کرے گا.

میرے بچے کمپیوٹیشنل لسانیات کے ایک سیدھے سادے، غیر تکنیکی اکاؤنٹ کا مطالبہ کرنے میں حق بجانب تھے جو سائنسی نظم و ضبط کے طور پر اس کی اہم خصوصیات کو درست طریقے سے پکڑتا ہے، جبکہ غیر ماہرین کے لیے قابل رسائی رہے۔ مجھے ایک فراہم کرنے کی اپنی سابقہ کوششوں کی کمی کو دور کرنے کی کوشش کرنے دیں۔

کمپیوٹیشنل لسانیات (سی ایل) کو لسانیات اور کمپیوٹر سائنس کے تقاطع میں قدرتی زبان کے مطالعہ کے طور پر سمجھا جا سکتا ہے۔ یہ نسبتاً نوجوان سائنسی شعبہ ہے جو نظریاتی لسانیات، ریاضیاتی لسانیات، مصنوعی ذہانت، اور سافٹ ویئر انجینئرنگ کے انضمام سے تیار ہوا ہے۔

تحقیق کے ایک اچھی طرح سے متعین ڈومین کے طور پر CL کی شناخت کرنا مشکل ہونے کی ایک وجہ یہ ہے کہ اسے دو الگ، لیکن واضح طور پر متعلقہ سمتوں میں جانس کی طرح کا سامنا ہے۔ ان میں سے ایک انجینئرنگ اور ٹیکنالوجی کا چہرہ ہے۔

اس کے انجینئرنگ پہلو میں، CL قدرتی زبان کی پروسیسنگ (NLP) پر توجہ مرکوز کرتا ہے۔ یہ ایسے نظاموں کو تیار کرنے کی کوشش کرتا ہے جو انسانی کمپیوٹر کے تعامل کو آسان بناتا ہے، اور عملی لسانی کاموں کی ایک حد کو خودکار کرتا ہے۔ ان کاموں میں (دوسروں کے درمیان) مشینی ترجمہ، متن کا خلاصہ، تقریر کی شناخت اور جنریشن، معلومات کو نکالنا اور بازیافت کرنا، اور متن کا جذباتی تجزیہ شامل ہیں۔ پچھلی چند دہائیوں میں NLP صنعتی تحقیق اور ترقی کے ایک بڑے شعبے میں پروان چڑھا ہے، جس میں بڑی انفارمیشن ٹیکنالوجی کمپنیاں جیسے گوگل، آئی بی ایم، مائیکروسافٹ، اور فیس بک نے زیادہ بہتر زبان کی ٹیکنالوجی کی تخلیق میں بڑھتی ہوئی رقم اور تحقیقی کوششوں کی سرمایہ کاری کی ہے۔ ان کاموں کے لیے وقف کردہ چھوٹے سٹارٹ اپس کی ایک بڑی تعداد بھی اب صنعتی تحقیق کے منظر نامے کو آباد کر رہی ہے۔ نتیجتاً CL/NLP لسانیات اور متعلقہ شعبوں میں ڈگریاں رکھنے والے لوگوں کے لیے جاب مارکیٹ کا ایک اہم حصہ بن گیا ہے۔

سی ایل کا دوسرا چہرہ سائنسی ہے۔ اس سمت کو دیکھتے ہوئے، CL قدرتی زبانوں کو رسمی مشترکہ نظام کے طور پر ماڈل بنانے کی کوشش کرتا ہے۔ یہ ان طریقہ کار کو سمجھنے کی کوشش کرتا ہے جن کے ذریعے انسان سیکھ سکتے ہیں اور ان نظاموں کی نمائندگی کرتے ہیں، انسانی دماغ کے پروسیسنگ وسائل اور انسانی سیکھنے والوں کے لیے دستیاب لسانی ڈیٹا کو دیکھتے ہوئے۔ اس میں، CL نظریاتی لسانیات اور علمی سائنس کے بہت سے تحقیقی مقاصد کا اشتراک کرتا ہے۔

تو CL کے دو پہلوؤں کے درمیان کیا تعلق ہے؟ اچھی انجینئرنگ کرنے کے لیے ضروری ہے کہ دنیا کے اس علاقے کے بارے میں ٹھوس سائنسی اکاؤنٹ ہونا ضروری ہے جسے کوئی ٹیکنالوجی کے ذریعے استعمال کرنا چاہتا ہے۔ ایک پیچیدہ انجینئرنگ کام جیسے کہ دومکیت پر خلائی جہاز کو لینڈ کرنا اس کام کو لاگو کرنے میں شامل جسمانی عمل اور مواد کی ایک اچھی تھیوری کی ضرورت ہے۔ اس کے برعکس، انجینئرنگ کا کام اکثر اہم سائنسی بصیرت پیدا کرتا ہے۔

CL اور NLP میں صورتحال مختلف نہیں ہے۔ زبان کی ٹیکنالوجی کے ایک ٹکڑے کو بنانے کے لیے جو ان پٹ کی ایک بڑی رینج پر قابل اعتماد طریقے سے کام کرتا ہے، کسی کو زبان کی خصوصیات کی وضاحت اور ماڈل بنانے کے قابل ہونا چاہیے جن کی شناخت کرنے اور اس میں ترمیم کرنے کے لیے ایپلی کیشن کو ڈیزائن کیا گیا ہے۔
مشینی ترجمہ پر غور کریں۔ 1950 کی دہائی میں، جب کمپیوٹر پہلی بار تحقیقی ٹولز کے طور پر اپنی ظاہری شکل بنا رہے تھے، تو یہ سوچا جاتا تھا کہ اعلیٰ معیار، وسیع کوریج مشینی ترجمہ زبان کے جوڑوں کے درمیان لغوی نقشہ جات کی وضاحت کرنے والی بڑی الیکٹرانک لغات کے ساتھ حاصل کیا جا سکتا ہے، اور ترجمہ شدہ جملوں کی تعمیر کے لیے سادہ اصول۔ مطلوبہ زبان. یہ فوری طور پر دریافت کیا گیا کہ اس حکمت عملی نے خراب پیداوار پیدا کی، اس میں سے زیادہ تر ناقابل فہم ہے۔

ان دنوں سے مشینی ترجمہ کے نظام میں کافی بہتری آئی ہے، لیکن وہ اب بھی معیار کے لحاظ سے انتہائی متغیر ہیں۔ درمیانی سالوں میں ہونے والی کچھ پیش رفت زبان کی رسمی نحوی اور معنوی خصوصیات کے تفصیلی مطالعہ کی وجہ سے ہوئی ہے۔

زیادہ نمایاں طور پر، طاقتور شماریاتی سیکھنے اور ماڈلنگ کی تکنیکوں کے استعمال نے ماخذ اور ہدف کی زبانوں کے درمیان خط و کتابت پر مشتمل ڈیٹا کی بڑی مقدار کا تجزیہ کرنا ممکن بنایا ہے۔ علمی سائنس دانوں نے انسانی سیکھنے اور ادراک کے مختلف پہلوؤں کے حساب سے ان میں سے کچھ ماڈلز کو نتیجہ خیز طور پر لاگو کیا ہے۔ یہ ایک ایسا معاملہ ہے جس میں مشین لرننگ کے لیے تیار کیے گئے انجینئرنگ طریقوں نے اس طریقے کے بارے میں دلچسپ اور اہم بصیرت پیدا کی ہے جس میں انسان اپنی زبانوں کا علم حاصل کر سکتا ہے اور اس کی نمائندگی کر سکتا ہے۔ لہذا CL کے دو پہلو ایک دوسرے کو مطلع کرتے ہیں۔

آخر میں، اس بات پر زور دینے کے قابل ہے کہ CL سائنس، سماجی اور کمپیوٹیشنل، اور ہیومینٹیز دونوں کے درمیان بین الضابطہ تحقیق کا ایک نمونہ پیش کرتا ہے۔ CL روایتی لسانی نظریہ کی بصیرت اور ڈیٹا پر کمپیوٹیشنل اور ریاضیاتی طریقوں کا اطلاق کرتا ہے۔ یہ فطری زبان کے مطالعہ کو اس کی رسمی جہت میں علمی سائنس میں بھی ضم کرتا ہے۔

اگرچہ میں ابھی تک اپنے بچوں کے سوالات کا تسلی بخش جواب دینے میں کامیاب نہیں ہوا ہوں، لیکن مجھے امید ہے کہ میں نے اپنی پہلی کوششوں کے مقابلے میں کچھ پیش رفت کی ہے۔ میں اپنے موجودہ سامعین پر بھی بھروسہ کر رہا ہوں کہ وہ ان کے مطالبات میں کم سخت ہوں۔ میں آخر کار اسے ٹھیک کر سکتا ہوں۔