دسته بندی موضوعات داغ روز توییتر
Twitter Trending Topic Classification
مشخصات کلی
سال انتشار | 2011 |
کد مقاله | 3255 |
فرمت فایل ترجمه | Word |
تعداد صفحات ترجمه | 9 |
نام مجله | International Conference on Data Mining Workshops |
نشریه | IEEE |
درج جداول و شکل ها در ترجمه | انجام نشده است |
جداول داخل مقاله | ترجمه نشده است |
چکیده فارسی
با افزایش محبوبیت سایت های میکروبلاگ، وارد عصر انفجار اطلاعات شده ایم. در ژوئن سال 2011 هر روزه حدود 200 میلیون توییت تولید می شده است. گرچه توییتر فهرستی از محبوب ترین موضوعاتی که افراد توییت می کنند را با نام موضوعات داغ روز ارائه داده است، درک اینکه این موضوعات داغ روز در چه موردی هستند اغلب دشوار است. از این رو برای بازیابی بهتر اطلاعات، دسته بندی این موضوعات در دسته های عمومی با دقت بالا، الزامی و حائز اهمیت است. برای پرداختن به این مشکل، ما موضوعات داغ توییتر را به 18 دسته عمومی مثل ورزش، سیاست، فناوری و غیره دسته بندی کرده ایم. ما دو رویکرد را برای دسته بندی موضوع در نظر گرفته ایم؛ (1) رویکرد کیف لغات برای دسته بندی متن و (2) دسته بندی مبتنی بر شبکه. در روش دسته بندی مبتنی بر متن، بردارهای کلمه را با تعریف و توییت های موضوعات داغ می سازیم، و از وزن های tf-idf متداول برای دسته بندی موضوعات با استفاده از دسته بندی کننده چند جمله ای بیز ساده استفاده می کنیم. در روش دسته بندی مبتنی بر شبکه، ما 5 موضوع مشابه را برای موضوعی خاص بر اساس تعداد کاربران تاثیرگذار شناسایی می کنیم. از دسته های موضوعات مشابه و تعداد کاربران موثر بین موضوع مورد نظر و موضوعات مشابه آن، برای دسته بندی موضوع مورد نظر با استفاده از یک یادگیرنده درخت تصمیم C5.0 استفاده می شود. آزمایش ها روی پایگاه داده ای از 768 موضوع داغ تصادفی (بیش از 18 دسته) نشان می دهد که دقت دسته بندی تا 65% و 70% می تواند با استفاده از مدلسازی دسته بندی مبتنی بر متن و مبتنی بر شبکه به دست آید.
چکیده لاتین
With the increasing popularity of microblogging sites, we are in the era of information explosion. As of June 2011, about 200 million tweets are being generated every day. Although Twitter provides a list of most popular topics people tweet about known as Trending Topics in real time, it is often hard to understand what these trending topics are about. Therefore, it is important and necessary to classify these topics into general categories with high accuracy for better information retrieval. To address this problem, we classify Twitter Trending Topics into 18 general categories such as sports, politics, technology, etc. We experiment with 2 approaches for topic classification; (i) the well-known Bag-of-Words approach for text classification and (ii) network-based classification. In text-based classification method, we construct word vectors with trending topic definition and tweets, and the commonly used tf-idf weights are used to classify the topics using a Naive Bayes Multinomial classifier. In network-based classification method, we identify top 5 similar topics for a given topic based on the number of common influential users. The categories of the similar topics and the number of common influential users between the given topic and its similar topics are used to classify the given topic using a C5.0 decision tree learner. Experiments on a database of randomly selected 768 trending topics (over 18 classes) show that classification accuracy of up to 65% and 70% can be achieved using text-based and network-based classification modeling respectively.
خرید و دانلود ترجمه این مقاله:
جهت خرید این مقاله ابتدا روی لینک زیر کلیک کنید، به صفحه ای وارد می شوید که باید نام و ایمیل خود را وارد کنید و پس از آن روی دکمه خرید و پرداخت کلیک نمایید، پس از پرداخت بلافاصله به سایت بازگشته و می توانید فایل خود را دانلود کنید، همچنین لینک دانلود به ایمیل شما نیز ارسال خواهد شد.
هیچ دیدگاهی برای این مقاله ثبت نشده است
دیدگاه ها