هوش مصنوعی جدید ByteDance: UI-TARS، دستیار دیجیتالی که مانند انسان با کامپیوتر کار می‌کند تبلیغات در ترفندستان
+ ارسال تاپیک جدید
نمایش نتایج: از 1 به 1 از 1

موضوع: هوش مصنوعی جدید ByteDance: UI-TARS، دستیار دیجیتالی که مانند انسان با کامپیوتر کار می‌کند

  1. #1
    تاریخ عضویت
    Jan 2014
    پست‌ها
    18,338

    360-Internet-Security Cyberfox Windows-10 Irancell
    نوع و سرعت اینترنت: بیش از Wireless-2 Mb/S
    سپاس (اهدایی)
    19292
    سپاس (دریافتی)
    19442
    نوشته ‌های وبلاگ
    38

    پیش فرض هوش مصنوعی جدید ByteDance: UI-TARS، دستیار دیجیتالی که مانند انسان با کامپیوتر کار می‌کند

    photo_2025-01-24_07-00-23-jpg

    به گزارش ترفندستان به نقل از کانال تلگرامی
    .
    شرکت مادر TikTok،یعنی ByteDance، از مدل هوش مصنوعی جدیدی به نام UI-TARS رونمایی کرده است که قادر است به‌صورت مستقل از کامپیوتر استفاده کرده و وظایف پیچیده را انجام دهد. این سیستم در دو نسخه با ۷ و ۷۲ میلیارد پارامتر توسعه یافته و با استفاده از پایگاه داده‌ای شامل حدود ۵۰ میلیارد توکن آموزش دیده است.


    UI-TARS در ده مجموعه داده مختلف مورد آزمایش قرار گرفته و عملکرد بهتری نسبت به مدل‌های OpenAI GPT-4o، Claude از Anthropic و Gemini از گوگل نشان داده است. توسعه‌دهندگان تأکید می‌کنند که این سیستم به‌طور مداوم در حال بهبود است و با استفاده از مکانیزم خودتحلیلی و تمرینات مکرر از اشتباهات خود می‌آموزد.


    این فناوری قابل استفاده در کامپیوترها، گوشی‌های هوشمند و مرورگرها است و متن، تصاویر و اقدامات کاربر را درک می‌کند. در رابط کاربری UI-TARS، دو پنجره وجود دارد: در سمت چپ می‌توان روند تفکر سیستم را مشاهده کرد و در سمت راست، تعامل آن با فایل‌ها، وب‌سایت‌ها و برنامه‌ها را دنبال نمود.


    در یکی از ویدئوهای نمایشی، از UI-TARS خواسته شد تا بلیط‌های پرواز از سیاتل به نیویورک را برای پنجم ماه آینده پیدا کند و پرواز برگشت را برای دهم همان ماه تنظیم نماید و نتایج را بر اساس قیمت مرتب کند. سیستم به وب‌سایت Delta Airlines مراجعه کرده، شهرهای مبدا و مقصد را وارد کرده، تاریخ‌ها را تعیین نموده و فیلترها را اعمال کرده و هر مرحله را توضیح داده است.


    در آزمایش دیگری، از UI-TARS خواسته شد تا افزونه autoDocstring را در ویرایشگر VS Code نصب کند. سیستم منتظر ماند تا ویرایشگر به‌طور کامل بارگذاری شود، بخش افزونه‌ها را پیدا کرد، پس از ناموفق بودن تلاش اول، اقدام را تکرار کرد و نصب را تا پایان نظارت نمود.
    در آزمون VisualWebBench، که عملکرد مدل‌ها در تعامل با عناصر وب‌سایت‌ها را ارزیابی می‌کند، نسخه ۷۲ میلیارد پارامتری UI-TARS امتیاز ۸۲.۸٪ را کسب کرد که بالاتر از GPT-4o (با ۷۸.۵٪) و Claude 3.5 (با ۷۸.۲٪) است. این سیستم متن را به‌دقت تشخیص داده و کیفیت وب‌سایت‌ها را ارزیابی می‌کند.


    در بنچمارک WebSRC، که میزان درک مدل از محتوا و ساختار وب‌سایت‌ها را ارزیابی می‌کند، نسخه ۷ میلیارد پارامتری UI-TARS به امتیاز ۹۳.۶٪ دست یافت. در آزمون ScreenQA-short، که درک مدل از رابط‌های کاربری پیچیده موبایل را می‌سنجد، مدل ۷۲ میلیارد پارامتری نتیجه ۸۸.۶٪ را به‌دست آورد و از مدل‌های Qwen، Gemini، Claude 3.5 و GPT-4o پیشی گرفت.


    UI-TARS همچنین در آزمون‌های ScreenSpot Pro و ScreenSpot v2، که توانایی برنامه در شناسایی و تشخیص عناصر رابط گرافیکی را ارزیابی می‌کنند، موفق عمل کرد. توسعه‌دهندگان همچنین برنامه‌ریزی اقدامات پیچیده در گوشی‌های هوشمند را با استفاده از آزمون‌های OSWorld و AndroidWorld، شامل ۱۱۶ وظیفه نرم‌افزاری در ۲۰ برنامه، بررسی کردند.


    برای آموزش مدل، محققان پایگاه داده بزرگی از اسکرین‌شات‌ها با اطلاعات دقیق درباره عناصر رابط کاربری، از جمله نوع، توضیحات، مختصات، عملکردها و محتوای متنی آن‌ها از منابع مختلف جمع‌آوری کردند. این امر به سیستم امکان تحلیل دقیق آنچه در صفحه نمایش می‌گذرد را می‌دهد.


    این فناوری همچنین تغییرات بین دو اسکرین‌شات متوالی را ردیابی می‌کند تا اقدامات انجام‌شده مانند فشار دادن کلیدها یا کلیک‌های ماوس را تشخیص دهد. با استفاده از تکنولوژی set-of-mark، سیستم نواحی مورد نیاز تصویر را با حروف یا اعداد علامت‌گذاری می‌کند تا جهت‌یابی آسان‌تر شود.


    UI-TARS دارای دو نوع حافظه است: کوتاه‌مدت و بلندمدت. این ویژگی به سیستم امکان می‌دهد نه تنها وظایف جاری را حل کند، بلکه از تجربیات گذشته برای تصمیم‌گیری‌های بهتر در آینده استفاده نماید. این سیستم تفکر سریع و شهودی را با تحلیل دقیق و آهسته ترکیب می‌کند.


    توسعه‌دهندگان توجه ویژه‌ای به این نکته داشته‌اند که مدل هدف اصلی را از دست ندهد و بتواند با روش آزمون و خطا یاد بگیرد. سیستم فرضیه‌هایی را مطرح می‌کند، آن‌ها را بررسی کرده و نتایج را تحلیل می‌کند قبل از اینکه وظیفه را به پایان برساند. برای این منظور، در پایگاه داده آموزشی مثال‌هایی از نحوه اصلاح اشتباهات و بازیابی پس از خطاها اضافه شده است.


    در مقایسه با سیستم‌های دیگر، UI-TARS نتایج یکنواخت‌تری را در کار با دستگاه‌های مختلف نشان می‌دهد. Claude Computer Use در وظایف مرورگر عملکرد خوبی دارد، اما در پلتفرم‌های موبایل عقب می‌ماند، در حالی که این هوش مصنوعی در هر دو مورد به‌طور یکسان مؤثر است.
    تصاوير کوچک فايل پيوست تصاوير کوچک فايل پيوست photo_2025-01-24_07-00-23-jpg  
+ ارسال تاپیک جدید

اطلاعات موضوع

کاربرانی که در حال مشاهده این موضوع هستند

در حال حاضر 1 کاربر در حال مشاهده این موضوع است. (0 کاربران و 1 مهمان ها)

موضوعات مشابه

  1. استفاده از هوش مصنوعی به عنوان "دستیار" در حوزه شیمی
    توسط hosintt در انجمن تازه‌های علم و فناوری
    پاسخ: 0
    آخرين نوشته: April 11th, 2018, 00:18
  2. پاسخ: 0
    آخرين نوشته: January 23rd, 2017, 15:17

کاربرانی که این تاپیک را مشاهده کرده اند: 2

کلمات کلیدی این موضوع

androidworld،، claude، gemini،، gpt-4o، osworld، pro، qwen،، screenspot، ui-tars، ui-tars،، v2،، آزمایش، آزمون، آزمون‌های، آموزش، آموزشی، آنچه، آن‌ها، آورد، آینده، ارزیابی، است، استفاده، اسکرین‌شات، اسکرین‌شات‌ها، اشتباهات، اصلاح، اصلی، اضافه، اطلاعات، اقدامات، امتیاز، امر، امکان، انجام‌شده، این، اینکه، بازیابی، بتواند، برای، بررسی، برساند، برنامه، برنامه،، برنامه‌ریزی، بزرگی، به‌دست، به‌طور، بگیرد، بین، تحلیل، تشخیص، تعامل، تغییرات، تفکر، توانایی، توسعه‌دهندگان، توضیحات،، جمع‌آوری، جمله، خطا، خطاها، خواسته، داده، درباره، درک، دست، دقیق، دهد، رابط، ردیابی، روش، سمت، سیستم، شامل، شناسایی، صفحه، عمل، عملکرد، عملکردها، عناصر، فرضیه‌هایی، فناوری، قبل، مانند، ماه، متنی، متوالی، مثال‌هایی، محتوای، محققان، مختصات،، مختلف، مدل، مدل،، مدل‌های، مصنوعی، مطرح، منابع، منظور،، موبایل، مورد، موفق، میلیارد، می‌دهد، می‌کند، می‌کند،، می‌کنند،، می‌گذرد، نتایج، نحوه، ندهد، نرم‌افزاری، نسخه، نشان، نصب، نماید، نمایش، نمود، نوع، نوع،، همچنین، هوش، هوشمند، وب‌سایت‌ها، وظایف، وظیفه، ویرایشگر، پارامتری، پایان، پایگاه، پرواز، پلتفرم‌های، پیدا، پیشی، پیچیده، کار، کاربری، کاربری،، کامپیوتر، کرد، کردند، کرده، کرده،، کند، گرافیکی، گرفت، گوشی‌های، یاد، ۱۱۶

نمایش برچسب‌ها

مجوز ‌های ارسال و ویرایش

  • شما نمیتوانید موضوع جدیدی ارسال کنید
  • شما امکان ارسال پاسخ را ندارید
  • شما نمیتوانید فایل پیوست کنید.
  • شما نمیتوانید پست ‌های خود را ویرایش کنید
  •  

اکنون ساعت 16:34 برپایه‌ی ساعت جهانی (GMT +3.5) می‌باشد.

تبلیغات متنی

عضویت در خبرنامه

با عضویت در خبرنامه‌ی سایت، جدیدترین ترفندها، نقد و بررسی‌ها و مطالب مدرسه فناوری به طور خودکار به ایمیل شما ارسال می‌شود. بعد از کلیک بر روی دکمه‌ی «مشترک شوید»، بایستی کد داخل تصویر را وارد کرده، سپس به صندوق ایمیل خود مراجعه کنید و روی لینک تأیید کلیک کنید تا اشتراک شما نهایی شود.

کلیه حقوق مادی و معنوی متعلق به وب سایت ترفندستان است. برداشت مطالب و تصاویر تنها با ذکر نام ترفندستان مجاز است.