به گزارش ترفندستان به نقل از کانال تلگرامی
.
شرکت مادر TikTok،یعنی ByteDance، از مدل هوش مصنوعی جدیدی به نام UI-TARS رونمایی کرده است که قادر است بهصورت مستقل از کامپیوتر استفاده کرده و وظایف پیچیده را انجام دهد. این سیستم در دو نسخه با ۷ و ۷۲ میلیارد پارامتر توسعه یافته و با استفاده از پایگاه دادهای شامل حدود ۵۰ میلیارد توکن آموزش دیده است.
UI-TARS در ده مجموعه داده مختلف مورد آزمایش قرار گرفته و عملکرد بهتری نسبت به مدلهای OpenAI GPT-4o، Claude از Anthropic و Gemini از گوگل نشان داده است. توسعهدهندگان تأکید میکنند که این سیستم بهطور مداوم در حال بهبود است و با استفاده از مکانیزم خودتحلیلی و تمرینات مکرر از اشتباهات خود میآموزد.
این فناوری قابل استفاده در کامپیوترها، گوشیهای هوشمند و مرورگرها است و متن، تصاویر و اقدامات کاربر را درک میکند. در رابط کاربری UI-TARS، دو پنجره وجود دارد: در سمت چپ میتوان روند تفکر سیستم را مشاهده کرد و در سمت راست، تعامل آن با فایلها، وبسایتها و برنامهها را دنبال نمود.
در یکی از ویدئوهای نمایشی، از UI-TARS خواسته شد تا بلیطهای پرواز از سیاتل به نیویورک را برای پنجم ماه آینده پیدا کند و پرواز برگشت را برای دهم همان ماه تنظیم نماید و نتایج را بر اساس قیمت مرتب کند. سیستم به وبسایت Delta Airlines مراجعه کرده، شهرهای مبدا و مقصد را وارد کرده، تاریخها را تعیین نموده و فیلترها را اعمال کرده و هر مرحله را توضیح داده است.
در آزمایش دیگری، از UI-TARS خواسته شد تا افزونه autoDocstring را در ویرایشگر VS Code نصب کند. سیستم منتظر ماند تا ویرایشگر بهطور کامل بارگذاری شود، بخش افزونهها را پیدا کرد، پس از ناموفق بودن تلاش اول، اقدام را تکرار کرد و نصب را تا پایان نظارت نمود.
در آزمون VisualWebBench، که عملکرد مدلها در تعامل با عناصر وبسایتها را ارزیابی میکند، نسخه ۷۲ میلیارد پارامتری UI-TARS امتیاز ۸۲.۸٪ را کسب کرد که بالاتر از GPT-4o (با ۷۸.۵٪) و Claude 3.5 (با ۷۸.۲٪) است. این سیستم متن را بهدقت تشخیص داده و کیفیت وبسایتها را ارزیابی میکند.
در بنچمارک WebSRC، که میزان درک مدل از محتوا و ساختار وبسایتها را ارزیابی میکند، نسخه ۷ میلیارد پارامتری UI-TARS به امتیاز ۹۳.۶٪ دست یافت. در آزمون ScreenQA-short، که درک مدل از رابطهای کاربری پیچیده موبایل را میسنجد، مدل ۷۲ میلیارد پارامتری نتیجه ۸۸.۶٪ را بهدست آورد و از مدلهای Qwen، Gemini، Claude 3.5 و GPT-4o پیشی گرفت.
UI-TARS همچنین در آزمونهای ScreenSpot Pro و ScreenSpot v2، که توانایی برنامه در شناسایی و تشخیص عناصر رابط گرافیکی را ارزیابی میکنند، موفق عمل کرد. توسعهدهندگان همچنین برنامهریزی اقدامات پیچیده در گوشیهای هوشمند را با استفاده از آزمونهای OSWorld و AndroidWorld، شامل ۱۱۶ وظیفه نرمافزاری در ۲۰ برنامه، بررسی کردند.
برای آموزش مدل، محققان پایگاه داده بزرگی از اسکرینشاتها با اطلاعات دقیق درباره عناصر رابط کاربری، از جمله نوع، توضیحات، مختصات، عملکردها و محتوای متنی آنها از منابع مختلف جمعآوری کردند. این امر به سیستم امکان تحلیل دقیق آنچه در صفحه نمایش میگذرد را میدهد.
این فناوری همچنین تغییرات بین دو اسکرینشات متوالی را ردیابی میکند تا اقدامات انجامشده مانند فشار دادن کلیدها یا کلیکهای ماوس را تشخیص دهد. با استفاده از تکنولوژی set-of-mark، سیستم نواحی مورد نیاز تصویر را با حروف یا اعداد علامتگذاری میکند تا جهتیابی آسانتر شود.
UI-TARS دارای دو نوع حافظه است: کوتاهمدت و بلندمدت. این ویژگی به سیستم امکان میدهد نه تنها وظایف جاری را حل کند، بلکه از تجربیات گذشته برای تصمیمگیریهای بهتر در آینده استفاده نماید. این سیستم تفکر سریع و شهودی را با تحلیل دقیق و آهسته ترکیب میکند.
توسعهدهندگان توجه ویژهای به این نکته داشتهاند که مدل هدف اصلی را از دست ندهد و بتواند با روش آزمون و خطا یاد بگیرد. سیستم فرضیههایی را مطرح میکند، آنها را بررسی کرده و نتایج را تحلیل میکند قبل از اینکه وظیفه را به پایان برساند. برای این منظور، در پایگاه داده آموزشی مثالهایی از نحوه اصلاح اشتباهات و بازیابی پس از خطاها اضافه شده است.
در مقایسه با سیستمهای دیگر، UI-TARS نتایج یکنواختتری را در کار با دستگاههای مختلف نشان میدهد. Claude Computer Use در وظایف مرورگر عملکرد خوبی دارد، اما در پلتفرمهای موبایل عقب میماند، در حالی که این هوش مصنوعی در هر دو مورد بهطور یکسان مؤثر است.