The Jester joke recommender system

(takes a “long time” to run without cache)

To cite the hyper2 package in publications, please use Hankin (2017). This file creates objects jester and maxjest, which are datasets available in the hyper2 package, and documented at jester.Rd. This file takes quite a long time to run. Goldberg et al present a dataset in which respondents rated a number of jokes. Here, I analyse a small portion of this dataset using the hyper2 package. This document is intended to illustrate an extremely challenging application of the hyper2 package and (without cache) takes a long time to process. Goldberg’s dataset has 24938 lines, one per respondent, and 101 columns, one per joke (the first column shows the number of jokes rated by each respondent); here I use 150 lines and 99 jokes (the 100th joke was not funny).

library("hyper2",quietly=TRUE)
a <- read.csv("jester-data-3.csv",head=FALSE) # File is 150 lines only
a <- as.matrix(a[,-c(1,100)])
a[a==99] <- NA
colnames(a) <- paste("joke",sprintf("%02d",seq_len(ncol(a))),sep="")
a[1,]

## joke01 joke02 joke03 joke04 joke05 joke06 joke07 joke08 joke09 joke10 joke11 
##     NA     NA     NA     NA  -1.65     NA  -0.78   6.89     NA     NA     NA 
## joke12 joke13 joke14 joke15 joke16 joke17 joke18 joke19 joke20 joke21 joke22 
##     NA  -2.57     NA  -1.31  -0.19  -5.97   2.96  -0.29   1.17     NA     NA 
## joke23 joke24 joke25 joke26 joke27 joke28 joke29 joke30 joke31 joke32 joke33 
##     NA     NA     NA     NA   1.55     NA  -2.23     NA   0.15   6.26     NA 
## joke34 joke35 joke36 joke37 joke38 joke39 joke40 joke41 joke42 joke43 joke44 
##     NA   1.26   1.26     NA     NA     NA     NA     NA     NA  -7.52  -5.87 
## joke45 joke46 joke47 joke48 joke49 joke50 joke51 joke52 joke53 joke54 joke55 
##     NA     NA     NA  -8.20     NA   4.42     NA     NA  -3.98     NA     NA 
## joke56 joke57 joke58 joke59 joke60 joke61 joke62 joke63 joke64 joke65 joke66 
##     NA     NA     NA     NA     NA     NA   3.50     NA     NA     NA  -2.14 
## joke67 joke68 joke69 joke70 joke71 joke72 joke73 joke74 joke75 joke76 joke77 
##   2.23  -2.91     NA     NA     NA     NA     NA   1.36     NA     NA     NA 
## joke78 joke79 joke80 joke81 joke82 joke83 joke84 joke85 joke86 joke87 joke88 
##     NA     NA     NA     NA     NA     NA     NA     NA     NA     NA     NA 
## joke89 joke90 joke91 joke92 joke93 joke94 joke95 joke96 joke97 joke98 joke99 
##     NA     NA     NA     NA     NA     NA     NA     NA     NA     NA     NA

Row 1 of a is displayed (most entries are NA, signifying that respondent 1 did not rank that particular joke). It shows that the first respondent rated joke 5 at -1.65, joke 7 at -0.78, and so on. We can perform some summary statistics of a:

plot(rowSums(!is.na(a)),xlab="respondent")

The above plot shows how many jokes each of the 100 respondents rated.

plot(colSums(!is.na(a)),xlab="joke index")

The above shows how many respondents rated each joke. It would make sense to remove the jokes that were not rated:

dim(a)

## [1] 150  99

a <- a[,colSums(!is.na(a))>1]
dim(a)

## [1] 150  91

showing that 91 jokes were rated by at least one respondent. We need to transform the dataset:

f <- function(x){
    x <- x[!is.na(x)]
    x[order(x,decreasing=TRUE)] <- seq_along(x)
    return(x)
}
f(a[1,])

## joke05 joke07 joke08 joke13 joke15 joke16 joke17 joke18 joke19 joke20 joke27 
##     17     15      1     20     16     13     24      5     14     11      7 
## joke29 joke31 joke32 joke35 joke36 joke43 joke44 joke48 joke50 joke53 joke62 
##     19     12      2      9     10     25     23     26      3     22      4 
## joke66 joke67 joke68 joke74 
##     18      6     21      8

Thus we see that this respondent rated joke08 to be the funniest, having rank 1.

jester <- hyper2()
system.time(for(i in seq_len(nrow(a))){jester <- jester + suppfun(f(a[i,]))})

##    user  system elapsed 
##  86.672   0.004  86.685

now

system.time(jester_maxp <- maxp(jester,n=1))

##    user  system elapsed 
## 450.713   0.017 450.789

and

jester_maxp

##    joke01    joke02    joke05    joke07    joke08    joke10    joke11    joke13 
## 0.0142721 0.0102901 0.0083064 0.0066381 0.0046835 0.0029660 0.0108560 0.0046053 
##    joke14    joke15    joke16    joke17    joke18    joke19    joke20    joke21 
## 0.0060708 0.0052905 0.0039085 0.0054085 0.0072811 0.0075848 0.0061164 0.0164536 
##    joke22    joke23    joke24    joke25    joke26    joke27    joke28    joke29 
## 0.0452920 0.0066559 0.0145877 0.0084379 0.0145324 0.0144924 0.0106387 0.0189316 
##    joke31    joke32    joke34    joke35    joke36    joke37    joke38    joke39 
## 0.0126997 0.0148278 0.0129704 0.0201161 0.0206858 0.0050705 0.0158132 0.0117580 
##    joke40    joke41    joke42    joke43    joke44    joke45    joke46    joke47 
## 0.0095482 0.0057543 0.0112886 0.0076484 0.0049313 0.0070510 0.0133170 0.0080456 
##    joke48    joke49    joke50    joke51    joke52    joke53    joke54    joke55 
## 0.0103924 0.0163788 0.0226428 0.0113768 0.0088221 0.0183225 0.0105161 0.0154281 
##    joke56    joke57    joke58    joke59    joke60    joke61    joke62    joke63 
## 0.0131144 0.0049056 0.0054297 0.0107156 0.0071483 0.0159476 0.0159264 0.0132367 
##    joke64    joke65    joke66    joke67    joke68    joke69    joke70    joke71 
## 0.0056238 0.0136612 0.0151708 0.0072858 0.0123883 0.0135191 0.0065216 0.0061823 
##    joke72    joke73    joke74    joke75    joke76    joke77    joke78    joke79 
## 0.0179433 0.0103335 0.0058992 0.0082498 0.0070770 0.0109521 0.0129791 0.0035128 
##    joke80    joke81    joke82    joke83    joke84    joke85    joke86    joke87 
## 0.0170733 0.0098465 0.0140713 0.0060742 0.0050293 0.0121011 0.0044031 0.0082425 
##    joke88    joke89    joke90    joke91    joke92    joke93    joke94    joke95 
## 0.0100608 0.0187794 0.0144153 0.0092535 0.0034314 0.0137550 0.0166613 0.0086769 
##    joke96    joke97    joke98 
## 0.0099800 0.0149985 0.0097164

plot(jester_maxp)

equalp.test(jester,startp=indep(jester_maxp))

## 
##  Constrained support maximization
## 
## data:  jester
## null hypothesis: joke01 = joke02 = joke05 = joke07 = joke08 = joke10 = joke11 = joke13 = joke14 = joke15 = joke16 = joke17 = joke18 = joke19 = joke20 = joke21 = joke22 = joke23 = joke24 = joke25 = joke26 = joke27 = joke28 = joke29 = joke31 = joke32 = joke34 = joke35 = joke36 = joke37 = joke38 = joke39 = joke40 = joke41 = joke42 = joke43 = joke44 = joke45 = joke46 = joke47 = joke48 = joke49 = joke50 = joke51 = joke52 = joke53 = joke54 = joke55 = joke56 = joke57 = joke58 = joke59 = joke60 = joke61 = joke62 = joke63 = joke64 = joke65 = joke66 = joke67 = joke68 = joke69 = joke70 = joke71 = joke72 = joke73 = joke74 = joke75 = joke76 = joke77 = joke78 = joke79 = joke80 = joke81 = joke82 = joke83 = joke84 = joke85 = joke86 = joke87 = joke88 = joke89 = joke90 = joke91 = joke92 = joke93 = joke94 = joke95 = joke96 = joke97 = joke98
## null estimate:
##   joke01   joke02   joke05   joke07   joke08   joke10   joke11   joke13 
## 0.010989 0.010989 0.010989 0.010989 0.010989 0.010989 0.010989 0.010989 
##   joke14   joke15   joke16   joke17   joke18   joke19   joke20   joke21 
## 0.010989 0.010989 0.010989 0.010989 0.010989 0.010989 0.010989 0.010989 
##   joke22   joke23   joke24   joke25   joke26   joke27   joke28   joke29 
## 0.010989 0.010989 0.010989 0.010989 0.010989 0.010989 0.010989 0.010989 
##   joke31   joke32   joke34   joke35   joke36   joke37   joke38   joke39 
## 0.010989 0.010989 0.010989 0.010989 0.010989 0.010989 0.010989 0.010989 
##   joke40   joke41   joke42   joke43   joke44   joke45   joke46   joke47 
## 0.010989 0.010989 0.010989 0.010989 0.010989 0.010989 0.010989 0.010989 
##   joke48   joke49   joke50   joke51   joke52   joke53   joke54   joke55 
## 0.010989 0.010989 0.010989 0.010989 0.010989 0.010989 0.010989 0.010989 
##   joke56   joke57   joke58   joke59   joke60   joke61   joke62   joke63 
## 0.010989 0.010989 0.010989 0.010989 0.010989 0.010989 0.010989 0.010989 
##   joke64   joke65   joke66   joke67   joke68   joke69   joke70   joke71 
## 0.010989 0.010989 0.010989 0.010989 0.010989 0.010989 0.010989 0.010989 
##   joke72   joke73   joke74   joke75   joke76   joke77   joke78   joke79 
## 0.010989 0.010989 0.010989 0.010989 0.010989 0.010989 0.010989 0.010989 
##   joke80   joke81   joke82   joke83   joke84   joke85   joke86   joke87 
## 0.010989 0.010989 0.010989 0.010989 0.010989 0.010989 0.010989 0.010989 
##   joke88   joke89   joke90   joke91   joke92   joke93   joke94   joke95 
## 0.010989 0.010989 0.010989 0.010989 0.010989 0.010989 0.010989 0.010989 
##   joke96   joke97   joke98 
## 0.010989 0.010989 0.010989 
## (argmax, constrained optimization)
## Support for null:  -8352.6 + K
## 
## alternative hypothesis:  sum p_i=1 
## alternative estimate:
##    joke01    joke02    joke05    joke07    joke08    joke10    joke11    joke13 
## 0.0142720 0.0102902 0.0083062 0.0066380 0.0046836 0.0029659 0.0108553 0.0046058 
##    joke14    joke15    joke16    joke17    joke18    joke19    joke20    joke21 
## 0.0060703 0.0052901 0.0039087 0.0054083 0.0072810 0.0075847 0.0061163 0.0164531 
##    joke22    joke23    joke24    joke25    joke26    joke27    joke28    joke29 
## 0.0452614 0.0066559 0.0146356 0.0084375 0.0145322 0.0144922 0.0106386 0.0189313 
##    joke31    joke32    joke34    joke35    joke36    joke37    joke38    joke39 
## 0.0126995 0.0148276 0.0129708 0.0201159 0.0206856 0.0050704 0.0158113 0.0117585 
##    joke40    joke41    joke42    joke43    joke44    joke45    joke46    joke47 
## 0.0095481 0.0057542 0.0112885 0.0076483 0.0049313 0.0070508 0.0133169 0.0080455 
##    joke48    joke49    joke50    joke51    joke52    joke53    joke54    joke55 
## 0.0103923 0.0163785 0.0226428 0.0113756 0.0088219 0.0183223 0.0105159 0.0154264 
##    joke56    joke57    joke58    joke59    joke60    joke61    joke62    joke63 
## 0.0131143 0.0049055 0.0054297 0.0107151 0.0071482 0.0159474 0.0159262 0.0132359 
##    joke64    joke65    joke66    joke67    joke68    joke69    joke70    joke71 
## 0.0056237 0.0136610 0.0151706 0.0072856 0.0123881 0.0135189 0.0065216 0.0061822 
##    joke72    joke73    joke74    joke75    joke76    joke77    joke78    joke79 
## 0.0179441 0.0103327 0.0058992 0.0082496 0.0070769 0.0109522 0.0129821 0.0035127 
##    joke80    joke81    joke82    joke83    joke84    joke85    joke86    joke87 
## 0.0170759 0.0098461 0.0140691 0.0060741 0.0050292 0.0121002 0.0044031 0.0082427 
##    joke88    joke89    joke90    joke91    joke92    joke93    joke94    joke95 
## 0.0100606 0.0187801 0.0144145 0.0092530 0.0034314 0.0137545 0.0166607 0.0086767 
##    joke96    joke97    joke98 
## 0.0099798 0.0149945 0.0097174 
## (argmax, free optimization)
## Support for alternative:  -8004.5 + K
## 
## degrees of freedom: 90
## support difference = 348.14
## p-value: 1.8873e-94

1 Reference

Eigentaste: A Constant Time Collaborative Filtering Algorithm. Ken Goldberg, Theresa Roeder, Dhruv Gupta, and Chris Perkins. Information Retrieval, 4(2), 133-151. July 2001.

2 Create a table like formula 1 results table

jester_table <- a
for(i in seq_len(nrow(jester_table))){
  x <- jester_table[i,]
  x[!is.na(x)] <- rank(-x[!is.na(x)],ties.method="first")
  jester_table[i,] <- x
}
jester_table <- t(jester_table)
colnames(jester_table) <-paste("resp",seq_len(ncol(jester_table)),sep="_")
jester_table[1:6,1:10]

##        resp_1 resp_2 resp_3 resp_4 resp_5 resp_6 resp_7 resp_8 resp_9 resp_10
## joke01     NA     NA     NA     NA     NA     NA     NA     NA      5      NA
## joke02     NA     NA     NA     10     NA     NA     NA     NA      3      NA
## joke05     17     25      2     17     16     20      4      3     15      13
## joke07     15     24      8     22     10     15     16     23     25      17
## joke08      1     20     15     12     14     24     14     26     32       2
## joke10     NA     NA     NA     NA     22     NA     NA     NA     NA      NA

Above we see that respondent 1 ranked joke 8 as the funniest and joke 7 as the 15th funniest. Comparing with formula1_2022.txt, for example, we see that respondents correspond to venues and jokes correspond to drivers. We have to be a little bit careful because NA means “not rated”, not “did not finish” as in the Formula 1 datasets.

plot(rowMeans(jester_table,na.rm=TRUE))
abline(v=17)

Package dataset

Following lines create jester.rda, residing in the data/ directory of the package.

save(jester,jester_table,jester_maxp,file="jester.rda")

### References

Hankin, R. K. S. 2017. “Partial Rank Data with the hyper2 Package: Likelihood Functions for Generalized Bradley-Terry Models.” The R Journal 9 (2): 429–39.

The Jester joke recommender system

R. K. S. Hankin

1 Reference

2 Create a table like formula 1 results table

Package dataset